Neuronová síť Googlu sledovala BBC tak dlouho, dokud se nenaučila odezírat z úst. Nejlépe ze všech

Neuronová síť Googlu sledovala BBC tak dlouho, dokud se nenaučila odezírat z úst. Nejlépe ze všech

Vědci z Oxfordu se před pár týdny pochlubili technologií LipNet, která dokáže odezírat z úst a to zhruba s 93,4% úspěšností na připraveném vzorku. Jejich program se nejprve pomocí obrazové analýzy naučil, jak se deformují lidská ústa při vyslovování jednotlivých slov, a pak už jen stačilo vytvořit model.

V Oxfordu mají rty asi opravdu rádi, naprosto identickému výzkumu se tu totiž věnovaly hned dva týmy. Ten druhý se s výsledky pochlubil o něco později, ovšem zmínku si rozhodně zaslouží, jednalo se totiž o projekt sponzorovaný laboratoří Google DeepMind pro vývoj umělé inteligence.

Klepněte pro větší obrázek
Strojové učení pracovalo podobně jako fotoaparát, který detekuje lidskou tvář. V tomto případě stroj hledal na snímcích ústa a pomocí přepisu mluveného slova se učil, jakým slovům odpovídají jednotlivé deformace úst.

Druhý tým k učení použil neuronovou síť z Londýna, která dostala za úkol sledovat jeden televizní pořad BBC za druhým a učit se. Po zhlédnutí tisíců hodin otevírání a zavírání úst vytvořila model, který nyní dokáže odezírat z úst s úspěšností 46,8 %.

46,8 % sice není 93,4 %, ale pozor! První tým dosáhl tak ohromné úspěšnosti jen na pečlivě připraveném vzorku, zatímco neuronová síť Googlu (DeepMindu) dokáže s poloviční úspěšností odezírat prakticky z jakéhokoliv obrazového vstupu.

46,8% úspěšnost je skvělá, když totiž z videí BBC odezíral lidský profesionál, dosáhl pouze 12,4 %.

Ačkoliv by podobná technologie mohla v reálném životě pomoci třeba lidem s poruchou sluchu – zvláště v kombinaci s převodem hlasu na text, nabízí se pochopitelně i kontroverznější použití. Představte si třeba orwellovský svět, ve kterém by podobná technologie jednou dokonale rozpoznala, o čem si lidé povídají třeba na náměstí, protože je zpovzdálí snímá běžná bezpečnostní kamera, jejíž obraz v dohledovém centru neustále analyzuje nějaká podobná neuronová síť budoucnosti.

Úvodní fotografie: Sergio Fabara Muñoz, CC-BY-SA

Témata článku: Věda, Google, Technologie, Strojové učení, Výzkum, Neuronová síť, DeepMind, Mluvené slovo, Televizní pořad, BBC, Úvodní fotografie, Oxford, Flickr.com, Dok