Redakcje czasopism naukowych są zalewane AI-generowanymi artykułami coraz trudniejszymi do wykrycia. System peer-review może osiągnąć punkt krytyczny.

Źródło zdjęcia: The Verge

Badanie Gallup: 71% Amerykanów nie chce centrów danych AI w pobliżu. Główne obawy to zużycie wody i energii, rosnące rachunki za prąd.

Prawnicy OpenAI złożyli wniosek o wykorzystanie złotej statuetki przedstawiającej pośladki osła jako dowodu w sprawie sądowej z Elonem Muskiem.
Peter Degen, badacz z Uniwersytetu w Zurychu, odkrył niepokojące zjawisko: jego artykuł z 2017 roku zaczął być cytowany setki razy w podobnych publikacjach. Okazało się, że są to masowo produkowane prace badawcze wykorzystujące sztuczną inteligencję. Problem dotyczy całego świata nauki — jak pisze The Verge, redakcje czasopism naukowych są zalewane AI-generowanymi artykułami, które są coraz trudniejsze do wykrycia.
Degen odkrył, że cytujące prace analizowały dane z Global Burden of Disease study, ale wykorzystywały je do masowej produkcji prognoz na temat różnych chorób. Trop doprowadził go do chińskiej firmy z Guangzhou, która oferuje kursy tworzenia publikacji naukowych w mniej niż dwie godziny przy użyciu AI.
Przez ostatnią dekadę wydawnictwa naukowe zmagały się z tzw. „paper mills” — firmami produkującymi masowo artykuły i sprzedającymi miejsce w autorach naukowcom potrzebującym publikacji. To była gra w kotka i myszkę — wydawcy, często pod presją „detektywów naukowych” specjalizujących się w wykrywaniu oszustw, zamykali jedną lukę, a młyny znajdowały nową.
AI początkowo pomagało młynom omijać detektory plagiatu przez tworzenie nowych obrazów i tekstów. Jednak charakterystyczne „halucynacje” technologii pozwalały teoretycznie na wykrywanie takiej produkcji. W praktyce artykuły nadal przechodziły, by później zostać wycofane po odkryciu diagramów szczurów z niewytłumaczalnie wielkimi narządami płciowymi opisanymi jako „testtomcels” lub tekstu z pozostawionymi frazami „as an AI assistant”.
Matt Spick, wykładowca na University of Surrey i redaktor w Scientific Reports, zauważył zjawisko po otrzymaniu trzech uderzająco podobnych artykułów analizujących amerykańską bazę danych NHANES. Sprawdzenie Google Scholar ujawniło nagły wzrost publikacji cytujących NHANES, wszystkie według podobnej formuły — każda rzekomo odkrywająca związek między na przykład jedzeniem orzechów włoskich a funkcjami poznawczymi czy piciem odtłuszczonego mleka a depresją.
„Jeśli masz wystarczającą moc obliczeniową, przechodzisz przez wszystko i mierzysz każdą parę powiązań, a w końcu znajdziesz takie, o których jeszcze nie pisano i po prostu publikujesz: jest korelacja między tym a tamtym” — wyjaśnia Spick. Te korelacje to często mylące uproszczenia zjawisk o wielu przyczynach lub przypadkowe fluktacje statystyczne.
Spick podaje absurdalny przykład: „Jedna z prac twierdziła, że liczba lat edukacji powoduje powikłania przepukliny pooperacyjnej. To po prostu przypadkowa korelacja. Co mam z tym zrobić? Wcześnie skończyć szkołę, żeby nie mieć później powikłań przepukliny pooperacyjnej?”
Problem polega na tym, że obecne AI może produkować przekonujące artykuły niemal hurtowo, pozwalając desperackim naukowcom samodzielnie produkować publikacje. Rezultatem jest potop naukowego „śmiecia”, który zagraża zalaniem systemu publikowania, recenzowania, przyznawania grantów i całego współczesnego systemu badawczego.