16 maja 20264 min czytania

Nowy benchmark pokazuje, że Claude Mythos i GPT-5.5 potrafią autonomicznie tworzyć exploity przeglądarek

Claude Mythos przewyższył GPT-5.5 w tworzeniu exploitów dla silnika V8, ale kosztował ponad 36 tys. dolarów — dziesięć razy więcej niż konkurent od OpenAI.

Źródło zdjęcia: The Decoder

Naukowcy z Carnegie Mellon University opracowali nowy benchmark, który sprawdza, jak skutecznie agenty AI potrafią wykorzystywać rzeczywiste luki bezpieczeństwa w silniku JavaScript V8 firmy Google. Badania pokazują, że model Claude Mythos Preview od Anthropic znacząco przewyższył GPT-5.5 od OpenAI, osiągając poziom kompetentnego badacza bezpieczeństwa.

ExploitBench to pierwszy benchmark, który ocenia nie tylko wykrycie błędu, ale mierzy postęp w pięciu poziomach — aż do pełnego wykonania arbitralnego kodu. Silnik V8 napędza systemy takie jak Chrome, Edge, Node.js i Cloudflare Workers.

Kluczowe wnioski

Claude Mythos Preview osiągnął średnio 9,90 punktów na 16 możliwych i dotarł do najwyższego poziomu w 21 z 41 testowanych luk bezpieczeństwa.
GPT-5.5 uzyskał znacznie słabszy wynik 5,51 punktów, osiągając najwyższy poziom tylko w dwóch przypadkach.
Koszt testów Mythos wyniósł około 36 400 dolarów, czyli ponad dziesięć razy więcej niż GPT-5.5 (około 3075 dolarów).
Mythos reprodukował luki, z którymi ludzie nie radzili sobie przez ponad rok, pracując jak „dość kompetentny” badacz bezpieczeństwa przeglądarek.
W trybie w pełni autonomicznym przewaga Mythos była jeszcze większa — 9,55 punktów wobec 4,30 dla GPT-5.5.

Mythos pracuje jak doświadczony badacz bezpieczeństwa

Współautor ExploitBench, Seunghyun Lee — doświadczony badacz bezpieczeństwa z ponad 20 zgłoszonymi lukami w przeglądarkach — przeanalizował transkrypty pracy Mythos. Jego wniosek: model działa jak „dość kompetentny badacz bezpieczeństwa przeglądarek i silników JS”.

W jednym przypadku Mythos opracował technikę exploitu, którą Lee i jego kolega wcześniej odrzucili jako zbyt skomplikowaną. W innym odtworzył lukę CVE-2024–0519, z którą ludzcy badacze nie mogli sobie poradzić przez ponad rok.

Różnica w kosztach jest drastyczna. Pełny test Mythos na 122 epizodach kosztował około 36 428 dolarów, podczas gdy GPT-5.5 przez Codex przebiegł 123 epizody za około 3075 dolarów — dwanaście razy taniej. Brytyjski AI Safety Institute potwierdził również, że Mythos osiąga nieco lepsze wyniki niż GPT-5.5, ale przy znacznie wyższych kosztach.

Ograniczenia i perspektywy

Badacze przyznają, że testowane błędy są publicznie znane, więc modele mogły teoretycznie korzystać z danych treningowych. Jednak zestaw danych zawiera także luki bez publicznych exploitów czy raportów o błędach. Benchmark nie mierzy jeszcze zdolności do znajdowania nowych luk ani pełnego „uzbrajania” exploitu do rzeczywistych ataków.

Luka cenowa sugeruje, że OpenAI mogłoby zmniejszyć różnicę wydajności, przeznaczając więcej mocy obliczeniowej na problem. Benchmark jest dostępny na GitHubie, a artykuł naukowy — na arXiv.

#Claude Mythos #exploity #GPT-5.5 #bezpieczeństwo AI #benchmark

Udostępnij

Źródła

The Decoder

Poprzedni

Naukowcy stworzyli dwuwymiarową ramę dla projektowania agentów AI z 27 wzorcami

Następny

Nowy benchmark matematyczny pokazuje, że modele AI pewnie rozwiązują nierozwiązywalne zadania

Podobne Publikacje

Etyka i Bezpieczeństwo

Społeczność fanfiction w konflikcie z AI — nowe narzędzie wykrywa Claude'a, ale dzieli autorów

Anonimowy twórca stworzył detektor Claude'a dla AO3, ale narzędzie prowadzi do publicznego piętnowania autorów i ma poważne ograniczenia techniczne.

4 min4 lipca

Narzędzia i Aplikacje

SpaceX ma prototyp urządzenia AI przypominającego smartfona

SpaceX zaprezentowało inwestorom prototyp urządzenia AI smuklejszego od iPhone'a, konkurując z projektem OpenAI i Jony Ive.

3 min2 lipca

Poradniki

Deweloper Anthropic dzieli się wskazówkami do promptowania Fable 5: najpierw znajdź własne ślepe plamki

Thariq Shihipar z Anthropic twierdzi, że jakość odpowiedzi z Fable 5 zależy głównie od umiejętności użytkownika w identyfikacji luk w wiedzy.

4 min4 lipca

16 maja 20264 min czytania

Nowy benchmark pokazuje, że Claude Mythos i GPT-5.5 potrafią autonomicznie tworzyć exploity przeglądarek

Claude Mythos przewyższył GPT-5.5 w tworzeniu exploitów dla silnika V8, ale kosztował ponad 36 tys. dolarów — dziesięć razy więcej niż konkurent od OpenAI.

Źródło zdjęcia: The Decoder

Kluczowe wnioski

Claude Mythos Preview osiągnął średnio 9,90 punktów na 16 możliwych i dotarł do najwyższego poziomu w 21 z 41 testowanych luk bezpieczeństwa.
GPT-5.5 uzyskał znacznie słabszy wynik 5,51 punktów, osiągając najwyższy poziom tylko w dwóch przypadkach.
Koszt testów Mythos wyniósł około 36 400 dolarów, czyli ponad dziesięć razy więcej niż GPT-5.5 (około 3075 dolarów).
Mythos reprodukował luki, z którymi ludzie nie radzili sobie przez ponad rok, pracując jak „dość kompetentny” badacz bezpieczeństwa przeglądarek.
W trybie w pełni autonomicznym przewaga Mythos była jeszcze większa — 9,55 punktów wobec 4,30 dla GPT-5.5.

Mythos pracuje jak doświadczony badacz bezpieczeństwa

Ograniczenia i perspektywy

#Claude Mythos #exploity #GPT-5.5 #bezpieczeństwo AI #benchmark

Udostępnij

Źródła

The Decoder

Poprzedni

Naukowcy stworzyli dwuwymiarową ramę dla projektowania agentów AI z 27 wzorcami

Następny

Nowy benchmark matematyczny pokazuje, że modele AI pewnie rozwiązują nierozwiązywalne zadania

Podobne Publikacje

Etyka i Bezpieczeństwo

Społeczność fanfiction w konflikcie z AI — nowe narzędzie wykrywa Claude'a, ale dzieli autorów

Anonimowy twórca stworzył detektor Claude'a dla AO3, ale narzędzie prowadzi do publicznego piętnowania autorów i ma poważne ograniczenia techniczne.

4 min4 lipca

Narzędzia i Aplikacje

SpaceX ma prototyp urządzenia AI przypominającego smartfona

SpaceX zaprezentowało inwestorom prototyp urządzenia AI smuklejszego od iPhone'a, konkurując z projektem OpenAI i Jony Ive.

3 min2 lipca

Poradniki

Deweloper Anthropic dzieli się wskazówkami do promptowania Fable 5: najpierw znajdź własne ślepe plamki

Thariq Shihipar z Anthropic twierdzi, że jakość odpowiedzi z Fable 5 zależy głównie od umiejętności użytkownika w identyfikacji luk w wiedzy.

4 min4 lipca