Małe modele AI dorównują Claude Mythos w wykrywaniu luk bezpieczeństwa

NSA wykorzystuje najnowszy model AI Anthropic mimo klasyfikacji jako zagrożenie bezpieczeństwaColossal Biosciences twierdzi, że sklonował czerwone wilki. Naukowcy mają wątpliwościMacBook Air M4 tańszy o 500 zł - tylko dziś w Media ExpertCEO firm technologicznych tworzą swoje AI-awatary, by zarządzać z każdego miejscaOkulary Ray-Ban Meta z AI przyspieszają codzienne zadania o 37% w nowym badaniuKanadyjski rejestr AI ukrywa więcej niż ujawnia - analiza 409 systemów rządowychUber wyczerpał budżet na AI po wydaniu 3,4 mld dolarów – Claude Code przekroczył prognozy12-miesięczne okno na exit: jak startupy AI mogą uniknąć pułapki przegapienia szczytuSystem GIST przekształca skanery 3D w inteligentne mapy nawigacyjne z 80% skutecznościąVercel zhakowany przez narzędzie AI - grupa ShinyHunters sprzedaje dane

aifeed.

Powrót

Małe modele AI dorównują Claude Mythos w wykrywaniu luk bezpieczeństwa | AiFeed

Dwa niezależne badania wykazały, że małe i otwarte modele AI potrafią znaleźć te same luki w zabezpieczeniach, które Anthropic prezentowało jako unikalną zdolność swojego zastrzeżonego Claude Mythos. Analiza opublikowana przez The Decoder podważa narrację o wyjątkowych możliwościach modelu, do którego dostęp ograniczono do 11 organizacji.

Anthropic utrzymuje Claude Mythos Preview w ramach projektu Glasswing pod ścisłą kontrolą, argumentując to możliwościami ofensywnymi modelu. Wewnętrzne testy i audyt brytyjskiego AI Security Institute potwierdziły, że Mythos potrafi znajdować błędy w oprogramowaniu, samodzielnie budować działające exploity i przejmować całe sieci korporacyjne w symulacjach — o ile sieć jest "mała, słabo chroniona i podatna na ataki".

Kluczowe wnioski

Wszystkie osiem testowanych modeli wykryło błąd FreeBSD NFS (CVE-2026-4747), w tym GPT-OSS-20b z zaledwie 3,6 miliarda parametrów kosztujący 0,11 dolara za milion tokenów
Małe modele przewyższyły duże w niektórych testach — GPT-OSS-20b poprawnie zidentyfikował fałszywie pozytywną lukę, podczas gdy Claude Sonnet 4.5 i większość modeli GPT-5.4 się myliła
Skanowanie pliku kosztuje mniej niż 30 dolarów — zarówno Claude Opus 4.6 jak i GPT-5.4 wykryły lukę w walidacji certyfikatów w trzech z trzech prób
Problem leży w rozpoznawaniu poprawek — tylko GPT-OSS-120b i częściowo Qwen3-32B rozpoznały już załataną wersję kodu jako bezpieczną
Prawdziwa przewaga to kompletny system — badacze wskazują, że kluczowy jest pipeline walidacji, priorytetyzacji i workflow, a nie pojedynczy model

Małe modele dorównują w wykrywaniu błędów

Firma AISLE, która od połowy 2025 roku prowadzi własne polowania na błędy wspomagane AI, przetestowała fragmenty kodu z publicznych przykładów Anthropic na ośmiu różnych modelach. Założyciel Stanislav Fort odkrył, że wszystkie wykryły błąd pamięci w funkcji FreeBSD, który Anthropic przedstawiało jako dowód na autonomiczne możliwości Mythos.

Każdy model oznaczył lukę jako krytyczną, choć ich szacunki rozmiaru bufora, który można nadpisać, nieznacznie się różniły. Wszystkie również opracowały prawdopodobne sposoby wykorzystania błędu, wyjaśniając dlaczego główne zabezpieczenia systemu operacyjnego tutaj nie działają. GPT-OSS-120b wyprodukował sekwencję gadżetów, która według AISLE zbliża się do prawdziwego exploita. Kimi K2 nawet samodzielnie wywnioskowało, że atak może rozprzestrzeniać się automatycznie z jednej zainfekowanej maszyny na inne — szczegół, którego sam Anthropic nie wspomina.

Prawdziwy exploit musi zmieścić ładunek ponad 1000 bajtów w około 304 bajtach dostępnej przestrzeni. Mythos rozwiązał to dzieląc ładunek na 15 oddzielnych żądań sieciowych. Żaden z testowanych modeli nie wpadł na dokładnie ten sam trick, ale znalazły inne działające ścieżki.

Nierówne możliwości i fałszywe alarmy

Błąd OpenBSD okazał się znacznie trudniejszy, wymagając matematycznego zrozumienia przepełnień liczb całkowitych i stanów list. GPT-OSS-120b zrekonstruował pełny łańcuch exploita w jednym przebiegu i zaproponował rzeczywistą łatkę OpenBSD jako rozwiązanie. Tymczasem Qwen3 32B, który radził sobie dobrze z błędem FreeBSD, uznał kod OpenBSD za "odporny na takie scenariusze".

Podobnie Vidoc Security napotkało ścianę: Claude Opus 4.6 odtworzył lukę w trzech z trzech prób, podczas gdy GPT-5.4 chybiał za każdym razem. Fort nazywa to "postrzępioną granicą" — złamaną, nierówną barierą możliwości, gdzie nie ma jednego najlepszego modelu do cyberbezpieczeństwa.

Szczególnie odkrywczy test wykorzystywał prosty fragment kodu, który na pierwszy rzut oka wyglądał jak podręcznikowa luka bezpieczeństwa. Dane użytkownika wydawały się trafiać niefiltrowane do zapytania bazy danych, ale kilka linijek niżej te dane były faktycznie odrzucane, więc luka nie była prawdziwa. Z 13 testowanych modeli Anthropic, Opus 4.6 wyraźnie to zrozumiał, podczas gdy mniejsze otwarte modele jak Deepseek R1 i Kimi K2 również każdorazowo poprawnie to rozpoznały. Wszystkie modele GPT-4.1 i większość GPT-5.4 nie zdały tego testu.

Kluczowe wnioski

Małe modele dorównują w wykrywaniu błędów

Nierówne możliwości i fałszywe alarmy

Źródła