14 maja 20264 min czytania

Claude Mythos Preview pierwszym modelem AI, który przeszedł wszystkie testy cyberataków brytyjskiej agencji

Nowy model Anthropic jako pierwszy ukończył symulacje cyberataków AISI, przewyższając prognozy rozwoju zdolności AI w cyberbezpieczeństwie.

Źródło zdjęcia: The Decoder

Claude Mythos Preview stał się pierwszym modelem AI, który pomyślnie przeszedł wszystkie symulacje cyberataków przeprowadzane przez brytyjską Agencję Bezpieczeństwa AI (AISI). Najnowszy model Anthropic przewyższył nawet zaktualizowane prognozy agencji dotyczące rozwoju zdolności cybernetycznych sztucznej inteligencji. Pełny raport AISI dostępny jest tutaj.

Brytyjska instytucja już dwukrotnie w ciągu kilku miesięcy musiała rewidować swoje prognozy. W listopadzie 2025 roku szacowała, że zdolności cybernetyczne AI podwajają się co osiem miesięcy. Do lutego 2026 roku skorygowała tę wartość do 4,7 miesiąca. Modele Claude Mythos Preview i GPT-5.5 znacząco przekroczyły nawet te przyspieszone przewidywania.

Kluczowe wnioski

Claude Mythos Preview jako pierwszy model ukończył wszystkie symulacje cyberataków AISI, w tym 32-etapowy atak na sieć korporacyjną w 6 na 10 prób.
AISI dwukrotnie skróciła prognozy rozwoju zdolności cybernetycznych – z 8 miesięcy do 4,7 miesiąca podwojenia możliwości.
Model wykazuje wyjątkową precyzję w analizie kodu źródłowego, redukując fałszywe negatywy o 42% w porównaniu do Opus 4.6.
Koszt Mythos Preview może być pięciokrotnie wyższy od modelu Opus, co rodzi pytania o opłacalność rozwiązania.
Partnerzy Anthropic znaleźli „tysiące podatności wysokiej i krytycznej wagi” w ciągu kilku tygodni przy użyciu nowego modelu.

Przełomowe wyniki w symulacjach cyberataków

Claude Mythos Preview osiągnął bezprecedensowe rezultaty w dwóch kluczowych symulacjach AISI. Pierwsza z nich to 32-etapowy atak na sieć korporacyjną, którego ukończenie zajmuje ekspertom około 20 godzin. Najnowsza wersja Mythos Preview pomyślnie przeprowadziła pełny atak w 6 na 10 prób, podczas gdy poprzednia wersja tego samego modelu radziła sobie tylko w 3 na 10 przypadkach.

Jeszcze bardziej imponujący był sukces w symulacji „Cooling Tower” – systemie kontroli przemysłowej. Mythos Preview jako pierwszy model w historii przeszedł ten test, osiągając sukces w 3 na 10 próbach. Żaden wcześniejszy model, włączając poprzednie wersje Mythos, nie zdołał pokonać tej symulacji.

Firma XBOW, specjalizująca się w bezpieczeństwie ofensywnym, niezależnie przetestowała model z zespołem dziesięciu ekspertów. Potwierdziła „bezprecedensową precyzję” w wykrywaniu podatności oraz 42-procentową redukcję fałszywie negatywnych wyników w porównaniu do Anthropic Opus 4.6.

Mocne strony i ograniczenia nowego modelu

Największą siłą Claude Mythos Preview okazała się analiza kodu źródłowego. Jak zauważa XBOW: „Po raz pierwszy zobaczyliśmy motyw, który będzie się powtarzał – Mythos Preview imponuje przy pisaniu kodu, ale jeszcze bardziej przy jego czytaniu.” Model zdołał nawet znaleźć podatności w sandbox V8 przeglądarki Chromium, obszarze gdzie poprzednie modele generowały wyłącznie fałszywe alarmy.

Testy wykazały jednak także ograniczenia. Dostęp do działającego systemu okazał się często ważniejszy niż dostęp do kodu źródłowego, ponieważ wiele podatności wynika z konfiguracji, zależności lub interakcji między indywidualnie bezpiecznymi komponentami.

XBOW podnosi również kwestię kosztów. Anthropic zapowiedziało, że Mythos Preview może kosztować pięć razy więcej niż model Opus. Po normalizacji kosztów operacyjnych model „nie jest szczególnie nieefektywny przy wysokiej dokładności, ale też nie jest najlepszy w klasie” w benchmarkach firmy.

Nowe możliwości Claude Mythos Preview reprezentują znaczący skok w zdolnościach AI w dziedzinie cyberbezpieczeństwa, choć pytania o opłacalność i praktyczne zastosowanie pozostają otwarte.

#Anthropic #Claude Mythos #testy AI #cyberbezpieczeństwo #AISI

Udostępnij

Źródła

The Decoder

Poprzedni

Meta wprowadza szyfrowany tryb Incognito Chat w asystencie AI bez przechowywania rozmów

Następny

IBM Granite Embedding R2 — najlepsze wielojęzyczne embeddingi poniżej 100M parametrów

Podobne Publikacje

Modele AI

Anthropic odzyskuje częściowy dostęp do Mythos 5 po negocjacjach z administracją Trumpa

Rząd USA zezwolił wybranym organizacjom na korzystanie z Mythos 5, ale publiczny model Fable 5 nadal pozostaje zablokowany bez jasnego harmonogramu.

4 min27 czerwca

Biznes i Rynek

Apple podnosi ceny i obwinia sztuczną inteligencję. Eksperci: to służy akcjonariuszom

Apple podrożyło MacBooki i iPady o setki dolarów, tłumacząc to kosztami AI. Firma ma jednak rekordowe zyski i marże sięgające 47%.

4 min27 czerwca

Narzędzia i Aplikacje

Wayfinder Router: deterministyczne kierowanie zapytań między lokalnymi i chmurowymi modelami AI

Nowe narzędzie analizuje strukturę promptów w mikrosekundach, kierując tanie zapytania lokalnie a trudne do chmury bez dodatkowych wywołań API.

4 min28 czerwca

Kluczowe wnioski

Claude Mythos Preview jako pierwszy model ukończył wszystkie symulacje cyberataków AISI, w tym 32-etapowy atak na sieć korporacyjną w 6 na 10 prób.

AISI dwukrotnie skróciła prognozy rozwoju zdolności cybernetycznych – z 8 miesięcy do 4,7 miesiąca podwojenia możliwości.

Model wykazuje wyjątkową precyzję w analizie kodu źródłowego, redukując fałszywe negatywy o 42% w porównaniu do Opus 4.6.

Koszt Mythos Preview może być pięciokrotnie wyższy od modelu Opus, co rodzi pytania o opłacalność rozwiązania.

Partnerzy Anthropic znaleźli „tysiące podatności wysokiej i krytycznej wagi” w ciągu kilku tygodni przy użyciu nowego modelu.

Przełomowe wyniki w symulacjach cyberataków

Mocne strony i ograniczenia nowego modelu

Nowe możliwości Claude Mythos Preview reprezentują znaczący skok w zdolnościach AI w dziedzinie cyberbezpieczeństwa, choć pytania o opłacalność i praktyczne zastosowanie pozostają otwarte.