Badanie największej organizacji pisarzy USA pokazuje dramatyczne różnice między detektorami AI — od 100% skuteczności do całkowitej porażki.

Źródło zdjęcia: The Decoder
Test Authors Guild ujawnia ogromne różnice w skuteczności detektorów AI przy rozpoznawaniu tekstów napisanych przez ludzi. Badanie przeprowadzone przez największą organizację zawodową pisarzy w USA pokazało, że niektóre narzędzia idealnie identyfikują ludzkie pisanie, podczas gdy inne błędnie klasyfikują każdy tekst jako wygenerowany przez AI.
Organizacja przetestowała dziesięć artykułów opublikowanych między 2020 a 2022 rokiem — przed erą powszechnego dostępu do generatywnej AI. Wyniki okazały się dramatycznie różne w zależności od użytego detektora.
Szczegółowe wyniki testu pokazują przepaść między różnymi detektorami. Podczas gdy Pangram i Grammarly nie pomyliły się ani raz, Sidekicker.ai oznaczył wszystkie dziesięć artykułów jako głównie wygenerowane przez AI. Najgorsze wyniki tego narzędzia sięgały 100% pewności dla dwóch tekstów — „Antitrust Litigation & Publications” oraz „Erdrich Pulitzer Prize”.
ZeroGPT również zawodził systematycznie, choć w mniejszym stopniu. Narzędzie przypisywało ludzkim tekstom prawdopodobieństwo AI od 5,3% do aż 76,3%. Najwyższy wynik błędny dotyczył artykułu o nagrodzie Pulitzera dla Louise Erdrich.
Originality.ai zajął pozycję pośrednią, popełniając tylko drobne błędy przy dwóch artykułach (1% prawdopodobieństwa AI), co nadal oznacza niemal idealne rozpoznanie ludzkiego pisania.
Authors Guild zwraca uwagę na niepokojący paradoks: pisarze, którzy przez dekady doskonalili jasność, ekonomię słowa i precyzję, piszą w sposób, który pokrywa się z tym, czego nauczyły się modele językowe. Jak wyjaśnia organizacja, profesjonalne teksty dzielą wiele wzorców statystycznych z produkcją AI właśnie dlatego, że modele językowe były trenowane na tego typu materiałach.
Max Spero, CEO Pangram, przyznaje, że jego detektor to zasadniczo „czarna skrzynka” — niemożliwe jest szczegółowe wyjaśnienie, dlaczego dany tekst zostaje oznaczony jako wygenerowany przez AI. Modele językowe zdradzają się jednak uniformnością, szczególnie w sposobie budowania argumentów. Ludzie piszą z dużo większą różnorodnością — tłumaczy Spero.
Fakt, że Pangram i Originality niezawodnie identyfikują ludzkie teksty, nie oznacza automatycznie, że równie dobrze wykrywają treści generowane przez AI. Wyniki pokazują przede wszystkim, że te narzędzia są dostrojone do minimalizowania fałszywych alarmów.
Błędy detektorów rodzą pytania o ich przydatność, szczególnie że AI może być genuinnie użytecznym narzędziem pisarskim. Spero broni swojego modelu biznesowego, wskazując na umowę społeczną między pisarzem a czytelnikiem: pisarz inwestuje czas i wysiłek w kształtowanie idei, czytelnik inwestuje czas w zapoznanie się z nią. Jeśli AI obniży koszt pisania do zera, pojawią się złe zachęty i internet zaleje bezwartościowa treść.
Authors Guild ostrzega, że nawet najlepsze narzędzia nigdy nie powinny być jedyną podstawą decyzji. Narzędzia te zmieniają się stale, a ich dokładność nie może być traktowana jako pewnik.

Badanie 500 tys. ocen wykazało wzrost piątek o 30% po uruchomieniu ChatGPT. Efekt widoczny głównie w pracach domowych, nie egzaminach.

OpenAI wypuściło GPT-5.6 w wersjach Sol, Terra i Luna zaledwie dzień po żądaniu opóźnienia przez administrację Trumpa. Nowe modele kosztują mniej niż konkurencja.

Oracle zredukował zatrudnienie o 21 tys. osób, wskazując AI jako przyczynę. Podobne cięcia przeprowadzają Google, Meta i PayPal mimo rekordowych przychodów.