Claude Mythos przewyższył GPT-5.5 w tworzeniu exploitów dla silnika V8, ale kosztował ponad 36 tys. dolarów — dziesięć razy więcej niż konkurent od OpenAI.

Źródło zdjęcia: The Decoder
Naukowcy z Carnegie Mellon University opracowali nowy benchmark, który sprawdza, jak skutecznie agenty AI potrafią wykorzystywać rzeczywiste luki bezpieczeństwa w silniku JavaScript V8 firmy Google. Badania pokazują, że model Claude Mythos Preview od Anthropic znacząco przewyższył GPT-5.5 od OpenAI, osiągając poziom kompetentnego badacza bezpieczeństwa.
ExploitBench to pierwszy benchmark, który ocenia nie tylko wykrycie błędu, ale mierzy postęp w pięciu poziomach — aż do pełnego wykonania arbitralnego kodu. Silnik V8 napędza systemy takie jak Chrome, Edge, Node.js i Cloudflare Workers.
Współautor ExploitBench, Seunghyun Lee — doświadczony badacz bezpieczeństwa z ponad 20 zgłoszonymi lukami w przeglądarkach — przeanalizował transkrypty pracy Mythos. Jego wniosek: model działa jak „dość kompetentny badacz bezpieczeństwa przeglądarek i silników JS”.
W jednym przypadku Mythos opracował technikę exploitu, którą Lee i jego kolega wcześniej odrzucili jako zbyt skomplikowaną. W innym odtworzył lukę CVE-2024–0519, z którą ludzcy badacze nie mogli sobie poradzić przez ponad rok.
Różnica w kosztach jest drastyczna. Pełny test Mythos na 122 epizodach kosztował około 36 428 dolarów, podczas gdy GPT-5.5 przez Codex przebiegł 123 epizody za około 3075 dolarów — dwanaście razy taniej. Brytyjski AI Safety Institute potwierdził również, że Mythos osiąga nieco lepsze wyniki niż GPT-5.5, ale przy znacznie wyższych kosztach.
Badacze przyznają, że testowane błędy są publicznie znane, więc modele mogły teoretycznie korzystać z danych treningowych. Jednak zestaw danych zawiera także luki bez publicznych exploitów czy raportów o błędach. Benchmark nie mierzy jeszcze zdolności do znajdowania nowych luk ani pełnego „uzbrajania” exploitu do rzeczywistych ataków.
Luka cenowa sugeruje, że OpenAI mogłoby zmniejszyć różnicę wydajności, przeznaczając więcej mocy obliczeniowej na problem. Benchmark jest dostępny na GitHubie, a artykuł naukowy — na arXiv.

Qwen3.7-Max osiągnął 10-krotne przyspieszenie kodu, przewyższając konkurencyjne modele w 35-godzinnym autonomicznym eksperymencie optymalizacji.

Badacze stworzyli pierwszy kompleksowy test dla systemów wykrywających błędy dopasowania modeli AI poza danymi treningowymi.

Naukowcy opisują system przetwarzający tysiące dokumentów na godzinę, odkrywając że OCR, nie LLM, jest głównym wąskim gardłem wydajności.