V technologickém světě to v uplynulých dnech pořádně vřelo. Mohou za to vědci z Applu, kteří se ve své studii s příznačným názvem „Iluze myšlení“ podívali na zoubek schopnostem těch nejpokročilejších modelů AI. Práce rozebírá limity takzvaných „Large Reasoning Models“ (LRM), tedy jazykových modelů, které mají umět nejen odpovídat, ale i „myslet nahlas“ a krok za krokem řešit složitější úlohy.
Vědci došli k závěru, že nejnovější LRM jako o1 od OpenAI, DeepSeek-R1, Gemini Thinking či Claude 3.7 ve skutečnosti nemyslí, ale spíše napodobují natrénované vzory. Při střetu s opravdu složitými úkoly pak naprosto selhávají.
AI řešila čtyři klasické hlavolamy
Abychom lépe porozuměli závěrům, musíme se podívat, jak k nim vědci došli. Namísto obvyklých matematických či programátorských testů, které mohou být znehodnoceny tím, že je model zná z trénovacích dat, postavili modely umělé inteligence před sadu čtyř klasických logických hlavolamů.

AI řešila čtyři klasické hlavolamy
Patřily sem třeba Hanojské věže, přeskakování kamenů (Checker Jumping), překonávání řeky (River Crossing; úloha na principu známého hlavolamu „Vlk, koza a zelí“), nebo přesouvání bloků (Blocks World). Obtížnost postupně zvyšovali od triviálních po úlohy, které by zaměstnaly i zkušeného šachistu. Tak lze ověřit, kde leží hranice „myšlení“ daného modelu. Autoři analyzovali nejen správnost řešení, ale i strukturu a pořadí jednotlivých kroků v „myšlenkovém toku“.
Výsledky odhalily tři odlišné režimy chování. U jednoduchých zadání si paradoxně vedly lépe standardní jazykové modely, protože LRM měly tendenci problém zbytečně komplikovat a „přemýšlet“ až příliš. U středně náročných problémů se projevil přínos metodického přístupu LRM, které mají navrch díky schopnosti postupného rozboru. Jakmile ale složitost úlohy překročí určitou mez, dochází i přes veškeré „uvažování“ k naprostému kolapsu přesnosti.
Nejvíce zarážející je však objev takzvaného „kontraintuitivního limitu škálování“. Tento složitě znějící termín znamená, že s rostoucí náročností problému modely zpočátku vynakládají více výpočetního výkonu, tedy „přemýšlejí“ intenzivněji. Po překročení určitého bodu ale své úsilí paradoxně sníží a v podstatě to vzdají, ačkoli mají k dispozici dostatek zdrojů. Zajímavé je, že v některých případech standardní LLM (bez „thinking“ režimu) selhávaly méně často nebo dokonce později v sekvenci kroků než LRM, což ukazuje, že „thinking“ režim není vždy výhodou.
AI spíše imituje, než logicky uvažuje
Teorii, že AI spíše imituje než logicky uvažuje, podporuje i další zjištění. Model dokázal provést ve hře Hanojské věže sto správných kroků, ale selhal již po pěti krocích u jednoduššího problému s překonáváním řeky. Definitivním důkazem je pak fakt, že se výkon nezlepšil ani tehdy, když vědci modelu poskytli přesný algoritmus řešení (například postup pro řešení Hanojských věží). To nasvědčuje tomu, že AI nedokáže sledovat ani přesně předepsané logické kroky.

Myslící modely mají nekonzistentní výsledky
Důležitý je i pohled do „vnitřního myšlení“ modelů. U jednoduchých úloh najdou LRM správné řešení brzy, ale pokračují v hledání zbytečných variant – tomuto fenoménu se říká „overthinking“. U složitějších úloh naopak dlouho bloudí a správné řešení objeví až později, pokud vůbec. Jakmile je problém příliš složitý, správné řešení v žádné fázi nepadne – modely selžou a jejich „myšlenkový tok“ se ztratí.
Závěry studie pochopitelně vyvolaly bouřlivou debatu. Zaznívají hlasy, že nejde o selhání, ale o záměrnou vlastnost, která má modelům umělé inteligence bránit v plýtvání zdroji. Přesto výsledky, podpořené i dalšími výzkumy, naznačují, že cesta k opravdové obecné inteligenci (AGI) nevede přes zvětšování současných modelů.
Skeptický pohled na umělou inteligenci
Výsledky podpořily dlouhodobou skepsi části komunity kolem AI. Odborníci jako Gary Marcus, který publikoval práce o kognitivní vědě a umělé inteligenci, dlouhodobě upozorňují, že současné modely AI nejsou skutečně inteligentní – jsou to jen výkonní strojoví „papoušci“, kteří skládají pravděpodobné odpovědi z naučených vzorů, nikoli z hlubokého pochopení.

Přesnost myslících a nemyslících modelů na hádankách různé složitosti.
Několik zdrojů zasazuje studii Applu do kontextu nedávné zprávy z matematické olympiády (USAMO), kde tytéž modely také selhaly při tvorbě nových matematických důkazů. I zde zaznělo, že tyto nástroje jsou jistě užitečné, ale jejich schopnost uvažovat je jen iluzí.
Zároveň se ale ozývají i kritické hlasy. Například ekonom Kevin Bryan nebo vývojář Sean Goedecke upozorňují, že selhání nemusí být nutně důkazem principiální neschopnosti, ale spíš výsledkem praktických omezení – například záměrného omezení výpočetního času, vyčerpání kontextového okna nebo nevhodnosti hlavolamů coby testovacího prostředí.
Ozývají se argumenty, že ani lidský mozek by nezvládl ručně vyřešit Hanojské věže s deseti disky bez chyby, ale přesto mu nikdo neupírá schopnost uvažovat. Sami autoři studie ve své práci upozorňují na omezenou zobecnitelnost výsledků s tím, že podobné puzzle úlohy představují jen úzký výsek reálného světa a nemusí odrážet všechny aspekty „inteligence“.