Jednou z potenciálně nejefektivnějších úloh pro velké jazykové modely je sumarizace a zjednodušování dlouhých textů. Ať už relativně nudných pracovních e-mailů, nebo zpravodajského obsahu.
Svět zrychluje, lidé si už často nenajdou čas na pročítání sáhodlouhých elaborátů, takže nástroj, který by přechroustal několik normostran těžkého textu a vyplivl to podstatné, bez autorské omáčky, ale zároveň fakticky přesně, by byl pro mnohé hotovým požehnáním.

S rychlou sumarizací článků experimentuje na své titulní stránce i český Seznam
Nicméně jen v případě, že nebude lhát. A to je často problém, podstata kreativity naprosto všech současných AI chatbotů totiž spočívá právě v tom, že si tak trošku vymýšlejí – že jejich výstupy řídí prvek náhody a pravděpodobnosti. Kdyby tomu tak nebylo, na jeden dotaz vygenerují pokaždé naprosto stejnou odpověď.
BBC otestovala několik AI. Chybovaly všechny
Jak se tato kreativita projeví v praxi, odhalila interní analýza britské veřejnoprávní BBC. Ta si nechala vyhledat a sumarizovat vlastní články v trojce nejznámějších AI chatbotů (ChatGPT, Microsoft Copilot, Google Gemini) a ve službě Perplexity, která se přímo specializuje na prohledávání WWW.

V čem a jak který chatbot chyboval
Výstup služeb poté hodnotil expertní tým složený z redaktorů a dalších specialistů, kteří nakonec odhalili nějaký problém v 51 % odpovědí napříč službami. V 19 % obsahovaly odpovědi faktické chyby a v 13 % pak upravené citace z původního zdroje.
Vzhledem k charakteru analýzy není dost dobře možné vypsat konkrétní problémy – budou se lišit článek od článku –, v principu se ale jednalo o zmíněné faktické chyby, nepřesnosti, ohnuté citace a posuny v interpretaci a objektivitě.

Optikou závažných chyb na tom byly nejlépe služby ChatGPT a Perplexity
Analýza proto dělí problémy na ty základní a snad ještě relativně neškodné a signifikantní, které už opravdu mohou interpretovat původní zdroj úplně jinak.
Nejlépe si vedly služby ChatGPT a Perplexity
Nejlépe si nakonec vedly služby ChatGPT a Perplexity. I když v některých kategoriích trpěly větší mírou drobných chyb, vítězily v nejmenším počtu těch signifikantních.
Závěr je nicméně takový, že do jisté míry ohýbají výsledek úplně všechny AI služby a ještě nějaký čas to tak dělat budou. Jistou nadějí je nasazení technik z ranku uvažujících modelů (reasoning), které si při syntéze odpovědi doslova povídají samy se sebou, tento interní dialog je ale zatím výpočetně mnohem náročnější a zdlouhavý.
Ústřední problém klasických velkých jazykových modelů pak spočívá v tom, že zpravidla nevědí, že nevědí. Dobře to znají třeba programátoři, kteří dají chatbotovi příkaz, aby napsal kód v některém z okrajových jazyků, ve kterém neměl velký jazykový model dostatek pestrých studijních dat.
Chatbot v takovém případě neodpoví slovy: „Omlouvám se, neznám odpověď,“ ale protože je to jazykový model, zkonstruuje tu statisticky nejpravděpodobnější. Výsledkem pak může být zdánlivě perfektní kód, který dává přinjemneším sémanticky dokonalý smysl, ovšem bude sestavený z příkazů, které daný programovací jazyk vůbec nezná.
Stejný úkaz – právě ono nevědomé vymyšlení – se pak může objevit i u všech ostatních úloh včetně sumarizace.