Dwa badania wykazały, że otwarte modele potrafią znaleźć te same luki co zastrzeżony Claude Mythos Anthropic za ułamek kosztu.

Źródło zdjęcia: The Decoder
Dwa niezależne badania wykazały, że małe i otwarte modele AI potrafią znaleźć te same luki w zabezpieczeniach, które Anthropic prezentowało jako unikalną zdolność swojego zastrzeżonego Claude Mythos. Analiza opublikowana przez The Decoder podważa narrację o wyjątkowych możliwościach modelu, do którego dostęp ograniczono do 11 organizacji.
Anthropic utrzymuje Claude Mythos Preview w ramach projektu Glasswing pod ścisłą kontrolą, argumentując to możliwościami ofensywnymi modelu. Wewnętrzne testy i audyt brytyjskiego AI Security Institute potwierdziły, że Mythos potrafi znajdować błędy w oprogramowaniu, samodzielnie budować działające exploity i przejmować całe sieci korporacyjne w symulacjach — o ile sieć jest "mała, słabo chroniona i podatna na ataki".
Firma AISLE, która od połowy 2025 roku prowadzi własne polowania na błędy wspomagane AI, przetestowała fragmenty kodu z publicznych przykładów Anthropic na ośmiu różnych modelach. Założyciel Stanislav Fort odkrył, że wszystkie wykryły błąd pamięci w funkcji FreeBSD, który Anthropic przedstawiało jako dowód na autonomiczne możliwości Mythos.
Każdy model oznaczył lukę jako krytyczną, choć ich szacunki rozmiaru bufora, który można nadpisać, nieznacznie się różniły. Wszystkie również opracowały prawdopodobne sposoby wykorzystania błędu, wyjaśniając dlaczego główne zabezpieczenia systemu operacyjnego tutaj nie działają. GPT-OSS-120b wyprodukował sekwencję gadżetów, która według AISLE zbliża się do prawdziwego exploita. Kimi K2 nawet samodzielnie wywnioskowało, że atak może rozprzestrzeniać się automatycznie z jednej zainfekowanej maszyny na inne — szczegół, którego sam Anthropic nie wspomina.
Prawdziwy exploit musi zmieścić ładunek ponad 1000 bajtów w około 304 bajtach dostępnej przestrzeni. Mythos rozwiązał to dzieląc ładunek na 15 oddzielnych żądań sieciowych. Żaden z testowanych modeli nie wpadł na dokładnie ten sam trick, ale znalazły inne działające ścieżki.
Błąd OpenBSD okazał się znacznie trudniejszy, wymagając matematycznego zrozumienia przepełnień liczb całkowitych i stanów list. GPT-OSS-120b zrekonstruował pełny łańcuch exploita w jednym przebiegu i zaproponował rzeczywistą łatkę OpenBSD jako rozwiązanie. Tymczasem Qwen3 32B, który radził sobie dobrze z błędem FreeBSD, uznał kod OpenBSD za "odporny na takie scenariusze".
Podobnie Vidoc Security napotkało ścianę: Claude Opus 4.6 odtworzył lukę w trzech z trzech prób, podczas gdy GPT-5.4 chybiał za każdym razem. Fort nazywa to "postrzępioną granicą" — złamaną, nierówną barierą możliwości, gdzie nie ma jednego najlepszego modelu do cyberbezpieczeństwa.
Szczególnie odkrywczy test wykorzystywał prosty fragment kodu, który na pierwszy rzut oka wyglądał jak podręcznikowa luka bezpieczeństwa. Dane użytkownika wydawały się trafiać niefiltrowane do zapytania bazy danych, ale kilka linijek niżej te dane były faktycznie odrzucane, więc luka nie była prawdziwa. Z 13 testowanych modeli Anthropic, Opus 4.6 wyraźnie to zrozumiał, podczas gdy mniejsze otwarte modele jak Deepseek R1 i Kimi K2 również każdorazowo poprawnie to rozpoznały. Wszystkie modele GPT-4.1 i większość GPT-5.4 nie zdały tego testu.