Generativní umělá inteligence, tedy technologie, která dokáže na základě vstupních dat generovat texty, obrázky a další obsah, je jedním z největších technologických trendů posledních let. Současně s tím vyvstávají otázky, zda AI neposkytuje nepovolené výhody studentům – například jestli je schopna za ně psát seminární práce či pomáhat při zkouškách.
Nová studie Armina Alimardaniho z Univerzity Wollongong v Austrálii se zaměřila na to, jak si generativní umělá inteligence (konkrétně GPT-4) povede při zkouškách z trestního práva ve srovnání s lidskými studenty. Výsledky byly zajímavé, neočekávané a ukazují, že AI není ani zdaleka neomylná.
S instrukcemi a bez nich
Generativní AI v posledních dvou letech ukázala značný potenciál při plnění akademických a profesních testů. Například model GPT-4 dosáhl na advokátské zkoušce ve Spojených státech lepšího skóre než 90 % lidských účastníků.
To vedlo k důvodným obavám, že by AI mohla snadno zvládat i univerzitní zkoušky. Studie však ukázala, že tak jednoduché to není, protože AI sice dokáže generovat texty, které na první pohled vypadají věrohodně, ale postrádá potřebný vhled pro složitější právní analýzy.
V rámci experimentu byly vytvořeny dva různé přístupy k hodnocení AI. V prvním z nich byly vstupní otázky jednoduše vloženy do AI bez dalších instrukcí, zatímco ve druhém byly přidány podrobné instrukce a relevantní právní obsah.
Výsledky nedopadly pro AI dobře
Oba přístupy pochopitelně vedly ke značně rozdílným výsledkům. Zatímco studenti ve stejné zkoušce průměrně dosáhli 66 % bodů, umělá inteligence bez podrobných instrukcí překonala jen 4,3 % z nich. Dvě práce umělé inteligence sotva uspěly (úspěšnost byla 50 %) a tři neuspěly vůbec.
Naopak po zadání podrobných instrukcí bylo průměrné skóre vyšší – v jednom testu dosáhla umělá inteligence až 78 %, což odpovídá nadprůměrnému výsledku. AI v tomto případě porazila 39,9 % studentů. Výsledky třech z těchto prací nebyly působivé – získaly 50 %, 51,7 % a 60 %. Dvě ale dopadly dobře: první získala 73,3 % bodů a druhá 78 %.
Výsledky studie ukazují, že umělá inteligence podává výrazně lepší výkon, pokud se může opřít o podrobné instrukce a relevantní podklady. Bez těchto pokynů se AI nacházela na spodním konci spektra a překonala jen minimum studentů, což naznačuje, že bez hlubšího pochopení a detailních informací nedokáže samostatně řešit komplexní úkoly.
Zajímavým poznatkem je, že ani zkušení lektoři nedokázali rozeznat odpovědi studentů od těch vygenerovaných umělou inteligencí. To ukazuje schopnost napodobit styl psaní studentů tak, že si jej mohou pedagogové splést. Přispěl k tomu ale i fakt, že vygenerované odpovědi byly před odevzdáním ručně přepsány člověkem.
AI chybí komplexní chápání
Ačkoli byla AI schopna odpovídat na otázky ve stylu esejí, u složitějších právních analýz výrazně pokulhávala. Potíže měla zejména s kritickým uvažováním a provázáním právních pojmů s fakty. Z toho plyne, že ačkoli umělá inteligence zvládá textové úkoly, stále jí chybí komplexní pochopení a schopnost řešit složité otázky vyžadující hlubší právní logiku.
Výsledky této studie mají důležité implikace pro vzdělávání i profesní standardy. I přes veškerý humbuk není zatím generativní umělá inteligence tak schopná, aby dokázala nahradit lidský úsudek v intelektuálně náročných úlohách, jako jsou zkoušky z trestního práva.
Závěry naznačují, že by AI měla být chápána jako nástroj, který může posílit lidské schopnosti. Dle autora studie by se školy a univerzity měly zaměřit na rozvoj dovedností studentů ve spolupráci s AI a kritické analýze jejích výstupů. Z pohledu autora je také důležité učit studenty, jak správně spolupracovat s umělou inteligencí a chápat její omezení.
Výsledky vědeckého bádání byly 23. září publikovány v odborném časopise Law, Innovation and Technology. Toto akademické periodikum se zaměřuje na interdisciplinární výzkum v oblasti práva, inovací a technologií. Přísný recenzní proces zaručuje, že publikované články splňují vysoké akademické standardy a jsou přínosem pro vědeckou komunitu.
Závěry potvrzují Češi
Česká právní kancelář HAVEL & PARTNERS publikovala v březnu tohoto roky výsledky testu, v jehož rámci se zabývala otázkou, zda jazykové modely dokážou složit české advokátní zkoušky. Jazykovým modelům (mimo jiné i GPT-4 či Claude-3) byly naservírovány sady otázek, které běžně používá Česká advokátní komora. Cíl byl jasný: otestovat, jak dobře se orientují v českém právu a zda by obstály ve zkoušce, která je pro mnoho právníků klíčová.
Testování odhalilo, že žádný z běžných jazykových modelů by sice zkoušky úspěšně nesložil, nicméně některé – například Claude-3 – Opus a GPT-4 – Turbo – podaly velmi solidní výkony. Problém spočívá v tom, že tyto systémy nejsou specificky trénovány na české právní otázky. Aplikace WAIR, vyvinutá výše zmíněnou právní kanceláří, kombinující jazykové modely s doplňováním právních zdrojů, však testy zvládla bez problémů.
I přes limity jazykových modelů, které v některých oblastech práva zřetelně zaostávaly, se ukazuje, že AI může být pro právníky cenným pomocníkem. Schopnost rozumět textu a argumentovat totiž patří mezi klíčové dovednosti, které mohou ulehčit právní praxi – od rešerší až po rozhodování v různých situacích. Přestože AI advokátní zkoušky ani dle tohoto testu zatím nesloží, její schopnosti se vyvíjejí a je jen otázkou času, kdy se stanou neodmyslitelnou součástí právních procesů.
Zdroje: tandfonline.com, theconversation.com, studyfinds.org, havelpartners.blog.