BBC otestovala velké AI chatboty. Při vyhledávání a sumarizaci občas lžou úplně všichni | Ilustrace: AI Midjourney

Ilustrace: AI Midjourney

BBC otestovala velké AI chatboty. Při vyhledávání a sumarizaci občas lžou úplně všichni

Jednou z potenciálně nejefektivnějších úloh pro velké jazykové modely je sumarizace a zjednodušování dlouhých textů. Ať už relativně nudných pracovních e-mailů, nebo zpravodajského obsahu.

Svět zrychluje, lidé si už často nenajdou čas na pročítání sáhodlouhých elaborátů, takže nástroj, který by přechroustal několik normostran těžkého textu a vyplivl to podstatné, bez autorské omáčky, ale zároveň fakticky přesně, by byl pro mnohé hotovým požehnáním.

c5078c31-f60b-42b8-be6d-a2031b93e1cc
S rychlou sumarizací článků experimentuje na své titulní stránce i český Seznam

Nicméně jen v případě, že nebude lhát. A to je často problém, podstata kreativity naprosto všech současných AI chatbotů totiž spočívá právě v tom, že si tak trošku vymýšlejí – že jejich výstupy řídí prvek náhody a pravděpodobnosti. Kdyby tomu tak nebylo, na jeden dotaz vygenerují pokaždé naprosto stejnou odpověď.

BBC otestovala několik AI. Chybovaly všechny

Jak se tato kreativita projeví v praxi, odhalila interní analýza britské veřejnoprávní BBC. Ta si nechala vyhledat a sumarizovat vlastní články v trojce nejznámějších AI chatbotů (ChatGPT, Microsoft Copilot, Google Gemini) a ve službě Perplexity, která se přímo specializuje na prohledávání WWW.

9eaf3baa-4f03-4c4b-ad3c-5346ae78134f
V čem a jak který chatbot chyboval

Výstup služeb poté hodnotil expertní tým složený z redaktorů a dalších specialistů, kteří nakonec odhalili nějaký problém v 51 % odpovědí napříč službami. V 19 % obsahovaly odpovědi faktické chyby a v 13 % pak upravené citace z původního zdroje.

Vzhledem k charakteru analýzy není dost dobře možné vypsat konkrétní problémy – budou se lišit článek od článku –, v principu se ale jednalo o zmíněné faktické chyby, nepřesnosti, ohnuté citace a posuny v interpretaci a objektivitě.

ac794485-6842-4675-8ff7-a893c56e128f
Optikou závažných chyb na tom byly nejlépe služby ChatGPT a Perplexity

Analýza proto dělí problémy na ty základní a snad ještě relativně neškodné a signifikantní, které už opravdu mohou interpretovat původní zdroj úplně jinak.

Nejlépe si vedly služby ChatGPT a Perplexity

Nejlépe si nakonec vedly služby ChatGPT a Perplexity. I když v některých kategoriích trpěly větší mírou drobných chyb, vítězily v nejmenším počtu těch signifikantních.

Závěr je nicméně takový, že do jisté míry ohýbají výsledek úplně všechny AI služby a ještě nějaký čas to tak dělat budou. Jistou nadějí je nasazení technik z ranku uvažujících modelů (reasoning), které si při syntéze odpovědi doslova povídají samy se sebou, tento interní dialog je ale zatím výpočetně mnohem náročnější a zdlouhavý.

Ústřední problém klasických velkých jazykových modelů pak spočívá v tom, že zpravidla nevědí, že nevědí. Dobře to znají třeba programátoři, kteří dají chatbotovi příkaz, aby napsal kód v některém z okrajových jazyků, ve kterém neměl velký jazykový model dostatek pestrých studijních dat.

Chatbot v takovém případě neodpoví slovy: „Omlouvám se, neznám odpověď,“ ale protože je to jazykový model, zkonstruuje tu statisticky nejpravděpodobnější. Výsledkem pak může být zdánlivě perfektní kód, který dává přinjemneším sémanticky dokonalý smysl, ovšem bude sestavený z příkazů, které daný programovací jazyk vůbec nezná.

Stejný úkaz – právě ono nevědomé vymyšlení – se pak může objevit i u všech ostatních úloh včetně sumarizace.

Určitě si přečtěte

Články odjinud