Umělá inteligence se učí řeč jako dítě, které pozoruje okolí

Umělá inteligence se učí řeč jako dítě, které pozoruje okolí

  • Vědci vytvořili nový systém učení řeči pro umělou inteligenci
  • Systém je podobný tomu lidskému, stejně jako se učí děti
  • Nová technika odhaluje i fungování lidského mozku

Vědci z MIT představili nové řešení pro učení umělé inteligence, která je určená pro zpracování a chápání lidské řeči. Oproti jednodušším strojovým přístupům se ale inspirovali u člověka a používají tak „biologický“ přístup, který je více zaměřen na pozorování okolí.

Než se člověk naučí řeč, což zahrnuje jak jednotlivá slova, tak i větnou skladbu a kontext, trvá to několik let. Alespoň pokud se začíná z ničeho (narozené dítě). Tento přístup byl zvolen i u nového sémantického parseru, který se učí vše od začátku a musí sám zjistit, co jaká slova vlastně znamenají a v jakém kontextu.

Vytrvalé pozorování

Podobně jako děti, které během let postupně vidí obrovské množství obrazu spojeného se zvukem, se i testovaná umělá inteligence musí poprat s tím, že vidí pouze video, které je navíc doplněno o titulky.

Jakmile tak různé osoby na videu něco říkají, dělají nebo vnímají (přes 400 testovacích videí), umělá inteligence tuto kombinaci zpracuje a zároveň tak uloží i kontext se slovy v titulcích. Programátoři nic dalšího dopředu umělou inteligenci nenaučili.

Oproti jiným systémům učení tak dochází k naprosto minimálnímu zásahu do učení a korekci, což je srovnatelné právě s dítětem, které většinu času pouze pozoruje a poslouchá, aniž by ho okolní lidé nějak speciálně učili. Výsledkem bylo, že „sentence tracker“ posléze dokázal na videu rozpoznat například událost „žena, která zvedá jablko“ a další podobné akce.

Snímek obrazovky 2018-11-04 v 12.37.48.jpg
Ukázka různých snímků a jejich analýzy umělou inteligencí

Díky tomu se umělá inteligence dokáže podobně jako dítě naučit různé nuance jazyka daného okolí, takže dle dostupných materiálů v podobě videa se může měnit i řeč a styl mluvy.

Čus kámo

Systém je velmi dobrou ukázkou nejen pro učení jazyka od samotného začátku, ale i přizpůsobení v jiném okolí. Jako typický příklad si lze představit to, že budoucí roboti a umělé inteligence se budou vyskytovat na různých místech, v různých rodinách a podobně.

Aby jejich pozice na daném místě nebo v rodině byla co nejpřirozenější, musí se naučit trochu jiný styl jazyka, jeho použití a vnímání kontextu dle nových pravidel. S tím souvisí i nový systém obvyklého vyjadřování při pozdravení a dalších činnostech, v pokročilejších stádiích třeba i vtipech a interakci s jednotlivými lidmi zvlášť. Právě přizpůsobitelnost dle pozorování videa (obrazu) je klíčovou technologií nového systému učení řeči.

Porozumění učení řeči

Nový systém také poodkrývá roušku toho, jak v lidském mozku probíhá učení řeči už v raném věku. V případě člověka ale pochopitelně nejde jen o pasivní video s titulky, ale o neustálý interaktivní přísun informací jak z očí, tak i z uší, který je doplněn i spoustou komplexního dodatečného vnímání například emocí a dalších jemných variací, které jsou pro kontext rovněž důležité.

Je jasné, že budoucí systémy budou s těmito dodatečnými informacemi počítat a budou se tak učit i tyto jemné informace, které jsou důležité při komunikaci mezi lidmi. V další fázi chtějí vědci systém posunout směrem k větší interaktivitě a zase tak o něco přiblížit systém k tomu, jak funguje dětský mozek v reálném světě.

Originální materiál k výzkumu naleznete zde (PDF)

Určitě si přečtěte

Články odjinud