Nowy model Anthropic jako pierwszy ukończył symulacje cyberataków AISI, przewyższając prognozy rozwoju zdolności AI w cyberbezpieczeństwie.

Źródło zdjęcia: The Decoder

Naukowcy opracowali VeGAS — system weryfikacji akcji, który poprawia wydajność agentów AI w świecie fizycznym o 36% w najtrudniejszych zadaniach.

Microsoft wprowadza w Edge funkcje AI, które analizują wszystkie karty, tworzą podcasty i quizy. Copilot otrzymuje długoterminową pamięć.
Claude Mythos Preview stał się pierwszym modelem AI, który pomyślnie przeszedł wszystkie symulacje cyberataków przeprowadzane przez brytyjską Agencję Bezpieczeństwa AI (AISI). Najnowszy model Anthropic przewyższył nawet zaktualizowane prognozy agencji dotyczące rozwoju zdolności cybernetycznych sztucznej inteligencji. Pełny raport AISI dostępny jest tutaj.
Brytyjska instytucja już dwukrotnie w ciągu kilku miesięcy musiała rewidować swoje prognozy. W listopadzie 2025 roku szacowała, że zdolności cybernetyczne AI podwajają się co osiem miesięcy. Do lutego 2026 roku skorygowała tę wartość do 4,7 miesiąca. Modele Claude Mythos Preview i GPT-5.5 znacząco przekroczyły nawet te przyspieszone przewidywania.
Claude Mythos Preview osiągnął bezprecedensowe rezultaty w dwóch kluczowych symulacjach AISI. Pierwsza z nich to 32-etapowy atak na sieć korporacyjną, którego ukończenie zajmuje ekspertom około 20 godzin. Najnowsza wersja Mythos Preview pomyślnie przeprowadziła pełny atak w 6 na 10 prób, podczas gdy poprzednia wersja tego samego modelu radziła sobie tylko w 3 na 10 przypadkach.
Jeszcze bardziej imponujący był sukces w symulacji „Cooling Tower” – systemie kontroli przemysłowej. Mythos Preview jako pierwszy model w historii przeszedł ten test, osiągając sukces w 3 na 10 próbach. Żaden wcześniejszy model, włączając poprzednie wersje Mythos, nie zdołał pokonać tej symulacji.
Firma XBOW, specjalizująca się w bezpieczeństwie ofensywnym, niezależnie przetestowała model z zespołem dziesięciu ekspertów. Potwierdziła „bezprecedensową precyzję” w wykrywaniu podatności oraz 42-procentową redukcję fałszywie negatywnych wyników w porównaniu do Anthropic Opus 4.6.
Największą siłą Claude Mythos Preview okazała się analiza kodu źródłowego. Jak zauważa XBOW: „Po raz pierwszy zobaczyliśmy motyw, który będzie się powtarzał – Mythos Preview imponuje przy pisaniu kodu, ale jeszcze bardziej przy jego czytaniu.” Model zdołał nawet znaleźć podatności w sandbox V8 przeglądarki Chromium, obszarze gdzie poprzednie modele generowały wyłącznie fałszywe alarmy.
Testy wykazały jednak także ograniczenia. Dostęp do działającego systemu okazał się często ważniejszy niż dostęp do kodu źródłowego, ponieważ wiele podatności wynika z konfiguracji, zależności lub interakcji między indywidualnie bezpiecznymi komponentami.
XBOW podnosi również kwestię kosztów. Anthropic zapowiedziało, że Mythos Preview może kosztować pięć razy więcej niż model Opus. Po normalizacji kosztów operacyjnych model „nie jest szczególnie nieefektywny przy wysokiej dokładności, ale też nie jest najlepszy w klasie” w benchmarkach firmy.
Nowe możliwości Claude Mythos Preview reprezentują znaczący skok w zdolnościach AI w dziedzinie cyberbezpieczeństwa, choć pytania o opłacalność i praktyczne zastosowanie pozostają otwarte.