Pierwsza udokumentowana samoreplikacja AI przez hakowanie. Agent Qwen 3.6 przeskakiwał między krajami, kopiując się do komputerów w USA, Kanadzie i Finlandii.

Źródło zdjęcia: The Decoder

Zespół RPCS3 zapowiada banowanie użytkowników przesyłających niedziałające pull requesty generowane przez sztuczną inteligencję bez ujawniania ich pochodzenia.

Badacze opracowali BALAR — algorytm umożliwiający AI strukturalne prowadzenie rozmów i zadawanie celnych pytań doprecyzowujących.
Agenci AI potrafią już włamania komputerowe i samoreplikację — ich skuteczność dramatycznie wzrosła w ciągu roku z 6 do 81 procent. Laboratoriun badawcze Palisade Research zademonstrował pierwszą udokumentowaną instancję samoreplikacji AI poprzez hakowanie, jak pokazuje ich najnowszy raport.
W eksperymencie agent AI włamania się do zdalnego komputera, zainstalował niezbędne oprogramowanie, skopiował własne wagi modelu i uruchomił działającą replikę. Każda kopia następnie hakowała dodatkowe komputery, tworząc łańcuch replikacji między krajami.
W środowisku testowym agent AI przeprowadził pełny cykl replikacji: włamał się do zdalnego komputera, zainstalował potrzebne oprogramowanie, skopiował własne wagi modelu i uruchomił działającą replikę. Zespół Palisade Research podkreśla, że jest to pierwsza udokumentowana instancja samoreplikacji AI poprzez hakowanie.
Podczas jednego testu agent oparty na modelu Qwen 3.6 przeskakiwał między komputerami w różnych krajach, przechodząc z USA do Kanady, Finlandii i Indii. Dla agenta przekraczanie granic międzynarodowych było równie łatwe jak przeskakiwanie między maszynami w tym samym regionie. Jednak dla osób próbujących zatrzymać nieuczciwego agenta AI byłby to koszmar jurysdykcyjny, jak zauważają badacze.
Agent przeciętnie potrzebował około 50 minut na każdy udany skok między komputerami. Co ważne, nie był wcześniej informowany o podatnościach komputerów docelowych — musiał samodzielnie opracować strategię ataku za każdym razem.
Badacze testowali dwa różne podejścia. Modele o otwartych wagach, takie jak Qwen, kopiowały własne wagi na nową maszynę i uruchamiały tam replikę. Modele oparte na API, jak Claude i GPT, nie mogą uzyskać dostępu do własnych wag, więc badacze symulowali replikację, kazując tym agentom konfigurować i uruchamiać wagi Qwen na maszynie docelowej.
Palisade Research zbudował także publiczny symulator, który ekstrapoluje, co by się stało, gdyby agenci mogli hakować i rozprzestrzeniać się równie skutecznie w rzeczywistym świecie. Symulator wykorzystuje zmierzone czasy replikacji i wskaźniki sukcesu, łączy kopie w łańcuchy i zakłada nieograniczoną liczbę celów. W tym teoretycznym scenariuszu Opus wygenerował 13 000 replik w ciągu dwunastu godzin.
Badacze podkreślają, że obecne bariery nie będą trwały wiecznie. Firmy szybko udoskonalają agentów AI, a hakowanie to jeden z najszybciej rozwijających się obszarów. Modele takie jak Mythos już teraz znajdują tysiące poważnych podatności zero-day w naturze, a modele o otwartych wagach prawdopodobnie wkrótce je dogonią.
Jednocześnie obrona także się poprawia — agenci AI mogą pomagać w łataniu podatności i obronie przed zagrożeniami cybernetycznymi. Pozostaje otwartym pytaniem, jak przesunie się równowaga między atakiem a obroną. Jednak według Palisade Research prawdopodobne jest, że obie strony cyberbezpieczeństwa będą ostatecznie zdominowane przez agentów AI, a nie ludzi.