Najnowszy model OpenAI osiąga 71,4% skuteczności w zaawansowanych zadaniach cyberbezpieczeństwa i jako drugi w historii rozwiązał kompleksową symulację ataku sieciowego.

Źródło zdjęcia: The Decoder

Google partneruje z XPRIZE w konkursie filmowym o wartości 3,5 mln dolarów. Zwycięzca otrzyma wsparcie w produkcji pełnometrażowego filmu.

98% członków związku w DeepMind poparło utworzenie reprezentacji w proteście przeciwko używaniu AI przez wojsko izraelskie i amerykańskie.
Najnowszy model OpenAI GPT-5.5 osiąga podobne wyniki do Claude Mythos Preview w testach zdolności cyberataków przeprowadzonych przez brytyjski Instytut Bezpieczeństwa AI (AISI). To drugi model w historii, który w pełni rozwiązał złożoną, wieloetapową symulację ataku na sieć przedsiębiorstwa, jak wynika z najnowszego raportu AISI.
Analiza pokazuje, że zdolności do cyberataków nie są już izolowaną umiejętnością, ale wynikają z ogólnych postępów AI w zakresie autonomii, rozumowania i programowania. GPT-5.5 jest już dostępny publicznie przez ChatGPT i API, podczas gdy Anthropic nadal ogranicza dostęp do Claude Mythos do niewielkiej grupy użytkowników.
AISI testuje modele AI za pomocą zestawu 95 zadań typu „capture-the-flag” na czterech poziomach trudności. Najbardziej zaawansowane zadania, opracowane we współpracy z firmami Crystal Peak Security i Irregular, obejmują reverse engineering, tworzenie exploitów dla różnych luk w pamięci, ataki kryptograficzne i rozpakowywanie zaciemnionego malware'u.
Na najwyższym poziomie „Expert” GPT-5.5 osiąga średnią skuteczność 71,4%, podczas gdy Claude Mythos Preview uzyskuje 68,6%. Różnica mieści się w granicach błędu statystycznego, ale GPT-5.5 może być najsilniejszym modelem przetestowanym do tej pory. Dla porównania, GPT-5.4 uzyskał 52,4%, a Claude Opus 4.7 — 48,6%. Wszystkie obecne modele frontierowe w pełni rozwiązują podstawowe zadania od co najmniej lutego 2026 roku.
Podczas gdy izolowane zadania testują pojedyncze umiejętności, prawdziwe ataki wymagają łączenia wielu kroków. AISI wykorzystuje do tego celu symulowane środowiska sieciowe z wieloma hostami, usługami i lukami bezpieczeństwa.
Symulacja „The Last Ones” (TLO) obejmuje 32 kroki w czterech podsieciach i około 20 hostach. Agent AI zaczyna bez żadnych poświadczeń i musi znaleźć luki, ukraść dane logowania, poruszać się lateralnie przez sieć i ostatecznie dotrzeć do chronionej bazy danych. AISI szacuje, że ekspert potrzebowałby około 20 godzin na wykonanie tego zadania.
GPT-5.5 w pełni rozwiązał TLO w 2 z 10 prób, Claude Mythos Preview osiągnął ten sam rezultat w 3 z 10 przypadków. Wydajność nadal rośnie wraz z mocą obliczeniową, a nawet najlepsze modele nie osiągnęły jeszcze plateau. Im więcej tokenów model spędza na „myśleniu”, tym większe prawdopodobieństwo udanego włamania.
Jednak testy nie obejmowały aktywnych obrońców, monitorowania bezpieczeństwa ani konsekwencji działań, które w rzeczywistym świecie wywołałyby alarmy. Pozostaje otwarte pytanie, czy GPT-5.5 lub Mythos mogłyby poradzić sobie z dobrze chronionymi systemami.
Badania AISI potwierdzają trend, w którym zdolności cyberataków stają się produktem ubocznym ogólnych ulepszeń AI, a nie wynikiem specjalistycznego treningu. To oznacza, że wraz z rozwojem modeli w kierunku większej autonomii i lepszego rozumowania, ich potencjalne zastosowanie w cyberprzestępczości również rośnie.