26 czerwca 20264 min czytania

Model AI programował przez 19 dni bez przerwy za 2600 dolarów w nowym benchmarku MirrorCode

Benchmark MirrorCode testuje zdolność modeli AI do odtwarzania programów od podstaw. Claude Opus 4.7 prowadzi z 56% skutecznością.

Źródło zdjęcia: The Decoder

Model sztucznej inteligencji pracował nieprzerwanie przez 19 dni nad jednym zadaniem programistycznym, kosztując 2600 dolarów — to jeden z przykładów nowego benchmarku MirrorCode, opracowanego przez Epoch AI i METR. Test sprawdza, czy modele AI potrafią odtworzyć kompletne programy od podstaw, bez dostępu do oryginalnego kodu źródłowego, jak opisuje The Decoder.

Benchmark MirrorCode składa się z 25 programów docelowych obejmujących narzędzia Unix, serializację danych, bioinformatykę, interpretery, analizę statyczną, kryptografię i kompresję. Każde rozwiązanie wygenerowane przez AI musi dokładnie odtworzyć wyniki oryginalnego programu, w tym ukryte testy end-to-end, których model nigdy nie widzi podczas rozwoju.

Kluczowe wnioski

Claude Opus 4.7 prowadzi w rankingu z 56% skutecznością, wyprzedzając GPT-5.5 (44%) i Gemini 3.1 Pro Preview (32%).
Model Claude Opus 4.7 odtworzył toolkit bioinformatyczny gotree o 16 000 liniach kodu w zaledwie 14 godzin za 251 dolarów — zadanie, które zajęłoby człowiekowi 2–17 tygodni.
Wszystkie testowane modele radzą sobie z małymi programami, ale żaden nie pokonał największych, najbardziej złożonych zadań.
Koszt jednego z największych zadań wyniósł 2600 dolarów przy 19 dniach ciągłej pracy AI bez udziału człowieka.
Postępy są szybkie — modele sprzed roku osiągnęłyby jedynie około 30% skuteczności i ograniczyłyby się do prostszych programów.

Budżet i skala zadań bez precedensu

Główną różnicą MirrorCode od innych benchmarków jest budżet na wnioskowanie. Istniejące testy inżynierii oprogramowania często ograniczają koszty do 1–10 dolarów na zadanie, nawet gdy człowiek potrzebowałby tygodni na ukończenie tej samej pracy, jak wyjaśniają twórcy benchmarku.

Według Epoch AI, jedno z największych zadań w MirrorCode kosztowało 2600 dolarów za pojedynczy przebieg, przy czym AI pracowało przez 19 dni bez jakiejkolwiek interwencji człowieka. To pokazuje skalę, na jaką mogą pracować nowoczesne modele przy odpowiednich zasobach.

Wyróżniającym się przykładem możliwości jest Claude Opus 4.7, który zaimplementował ponownie gotree — toolkit bioinformatyczny składający się z około 16 000 linii kodu Go i ponad 40 poleceń. Inżynier pracujący bez pomocy AI potrzebowałby na to samo zadanie 2–17 tygodni, podczas gdy Opus 4.7 ukończył je w 14 godzin za 251 dolarów.

Podział na kategorie i ograniczenia

Zadania w MirrorCode dzielą się na trzy kategorie: małe, średnie i duże. Małe programy jak uuid czy parseqsv są niezawodnie reimplementowane przez wszystkie testowane modele. Największe zadania pokonują każdy z przetestowanych modeli.

Nawet gdy modele nie udaje się w pełni zaimplementować programu, zazwyczaj przechodzą 90% lub więcej testów. Trendy kosztów nie podążają za jasnym wzorcem — GPT-5.5 kosztuje trzy razy więcej niż GPT-5 dla tych samych zadań, podczas gdy Claude Opus 4.7 działa trzy razy taniej niż Claude Opus 4.1.

Epoch AI udostępniło jako open source szkielet i 22 z 25 programów docelowych, obejmując 132 instancje zadań w sześciu językach programowania. Trzy programy pozostają prywatne do celów testowych.

Badacze wskazują na ważne zastrzeżenie: ponieważ MirrorCode używa programów open source jako celów, modele mogły już widzieć oryginalny kod podczas treningu. Wstępne testy sugerują, że „wyniki nie były zdominowane przez zapamiętywanie, ale nie można wykluczyć możliwości, że zapamiętywanie przyczynia się do wydajności AI”.

MirrorCode pokazuje znaczący postęp w możliwościach programistycznych AI, choć najbardziej złożone zadania pozostają wyzwaniem dla wszystkich obecnie dostępnych modeli.

#MirrorCode #GPT-5.5 #Claude Opus #programowanie #benchmark

Udostępnij

Źródła

The Decoder

Poprzedni

OpenAI ulepsza GPT-5.5 Instant — model lepiej rozumie rzeczywiste intencje użytkowników

Następny

OpenAI opóźnia wydanie GPT-5.6 na żądanie administracji Trumpa

Podobne Publikacje

Etyka i Bezpieczeństwo

Oszustwa na Mundialu 2026 stają się trudniejsze do wykrycia dzięki AI

AI pozwala cyberprzestępcom tworzyć bardziej wiarygodne oszustwa przed największymi Mistrzostwami Świata w historii. Zarejestrowano już ponad 13 000 podejrzan

4 min22 czerwca

Etyka i Bezpieczeństwo

OpenAI uruchamia projekt 'Patch the Planet' na rzecz bezpieczeństwa open source

OpenAI we współpracy z Trail of Bits rozpoczyna bezpłatne wspieranie projektów open source w cyberbezpieczeństwie, odpowiadając na rosnące zagrożenia AI.

4 min22 czerwca

Biznes i Rynek

Anthropic i Micron nawiązują partnerstwo w projektowaniu architektur pamięci AI

Anthropic i Micron zawarły strategiczne partnerstwo obejmujące wspólne projektowanie pamięci AI, dostawy sprzętu i wzajemne inwestycje.

3 min22 czerwca

Kluczowe wnioski

Claude Opus 4.7 prowadzi w rankingu z 56% skutecznością, wyprzedzając GPT-5.5 (44%) i Gemini 3.1 Pro Preview (32%).

Model Claude Opus 4.7 odtworzył toolkit bioinformatyczny gotree o 16 000 liniach kodu w zaledwie 14 godzin za 251 dolarów — zadanie, które zajęłoby człowiekowi 2–17 tygodni.

Wszystkie testowane modele radzą sobie z małymi programami, ale żaden nie pokonał największych, najbardziej złożonych zadań.

Koszt jednego z największych zadań wyniósł 2600 dolarów przy 19 dniach ciągłej pracy AI bez udziału człowieka.

Postępy są szybkie — modele sprzed roku osiągnęłyby jedynie około 30% skuteczności i ograniczyłyby się do prostszych programów.

Budżet i skala zadań bez precedensu

Podział na kategorie i ograniczenia

MirrorCode pokazuje znaczący postęp w możliwościach programistycznych AI, choć najbardziej złożone zadania pozostają wyzwaniem dla wszystkich obecnie dostępnych modeli.