Vědci z MIT představili nové řešení pro učení umělé inteligence, která je určená pro zpracování a chápání lidské řeči. Oproti jednodušším strojovým přístupům se ale inspirovali u člověka a používají tak „biologický“ přístup, který je více zaměřen na pozorování okolí.
Než se člověk naučí řeč, což zahrnuje jak jednotlivá slova, tak i větnou skladbu a kontext, trvá to několik let. Alespoň pokud se začíná z ničeho (narozené dítě). Tento přístup byl zvolen i u nového sémantického parseru, který se učí vše od začátku a musí sám zjistit, co jaká slova vlastně znamenají a v jakém kontextu.
Vytrvalé pozorování
Podobně jako děti, které během let postupně vidí obrovské množství obrazu spojeného se zvukem, se i testovaná umělá inteligence musí poprat s tím, že vidí pouze video, které je navíc doplněno o titulky.
Jakmile tak různé osoby na videu něco říkají, dělají nebo vnímají (přes 400 testovacích videí), umělá inteligence tuto kombinaci zpracuje a zároveň tak uloží i kontext se slovy v titulcích. Programátoři nic dalšího dopředu umělou inteligenci nenaučili.
Oproti jiným systémům učení tak dochází k naprosto minimálnímu zásahu do učení a korekci, což je srovnatelné právě s dítětem, které většinu času pouze pozoruje a poslouchá, aniž by ho okolní lidé nějak speciálně učili. Výsledkem bylo, že „sentence tracker“ posléze dokázal na videu rozpoznat například událost „žena, která zvedá jablko“ a další podobné akce.

Ukázka různých snímků a jejich analýzy umělou inteligencí
Díky tomu se umělá inteligence dokáže podobně jako dítě naučit různé nuance jazyka daného okolí, takže dle dostupných materiálů v podobě videa se může měnit i řeč a styl mluvy.
Čus kámo
Systém je velmi dobrou ukázkou nejen pro učení jazyka od samotného začátku, ale i přizpůsobení v jiném okolí. Jako typický příklad si lze představit to, že budoucí roboti a umělé inteligence se budou vyskytovat na různých místech, v různých rodinách a podobně.
Aby jejich pozice na daném místě nebo v rodině byla co nejpřirozenější, musí se naučit trochu jiný styl jazyka, jeho použití a vnímání kontextu dle nových pravidel. S tím souvisí i nový systém obvyklého vyjadřování při pozdravení a dalších činnostech, v pokročilejších stádiích třeba i vtipech a interakci s jednotlivými lidmi zvlášť. Právě přizpůsobitelnost dle pozorování videa (obrazu) je klíčovou technologií nového systému učení řeči.
Porozumění učení řeči
Nový systém také poodkrývá roušku toho, jak v lidském mozku probíhá učení řeči už v raném věku. V případě člověka ale pochopitelně nejde jen o pasivní video s titulky, ale o neustálý interaktivní přísun informací jak z očí, tak i z uší, který je doplněn i spoustou komplexního dodatečného vnímání například emocí a dalších jemných variací, které jsou pro kontext rovněž důležité.
Je jasné, že budoucí systémy budou s těmito dodatečnými informacemi počítat a budou se tak učit i tyto jemné informace, které jsou důležité při komunikaci mezi lidmi. V další fázi chtějí vědci systém posunout směrem k větší interaktivitě a zase tak o něco přiblížit systém k tomu, jak funguje dětský mozek v reálném světě.
Originální materiál k výzkumu naleznete zde (PDF)