Benchmark MirrorCode testuje zdolność modeli AI do odtwarzania programów od podstaw. Claude Opus 4.7 prowadzi z 56% skutecznością.

Źródło zdjęcia: The Decoder
Model sztucznej inteligencji pracował nieprzerwanie przez 19 dni nad jednym zadaniem programistycznym, kosztując 2600 dolarów — to jeden z przykładów nowego benchmarku MirrorCode, opracowanego przez Epoch AI i METR. Test sprawdza, czy modele AI potrafią odtworzyć kompletne programy od podstaw, bez dostępu do oryginalnego kodu źródłowego, jak opisuje The Decoder.
Benchmark MirrorCode składa się z 25 programów docelowych obejmujących narzędzia Unix, serializację danych, bioinformatykę, interpretery, analizę statyczną, kryptografię i kompresję. Każde rozwiązanie wygenerowane przez AI musi dokładnie odtworzyć wyniki oryginalnego programu, w tym ukryte testy end-to-end, których model nigdy nie widzi podczas rozwoju.
Główną różnicą MirrorCode od innych benchmarków jest budżet na wnioskowanie. Istniejące testy inżynierii oprogramowania często ograniczają koszty do 1–10 dolarów na zadanie, nawet gdy człowiek potrzebowałby tygodni na ukończenie tej samej pracy, jak wyjaśniają twórcy benchmarku.
Według Epoch AI, jedno z największych zadań w MirrorCode kosztowało 2600 dolarów za pojedynczy przebieg, przy czym AI pracowało przez 19 dni bez jakiejkolwiek interwencji człowieka. To pokazuje skalę, na jaką mogą pracować nowoczesne modele przy odpowiednich zasobach.
Wyróżniającym się przykładem możliwości jest Claude Opus 4.7, który zaimplementował ponownie gotree — toolkit bioinformatyczny składający się z około 16 000 linii kodu Go i ponad 40 poleceń. Inżynier pracujący bez pomocy AI potrzebowałby na to samo zadanie 2–17 tygodni, podczas gdy Opus 4.7 ukończył je w 14 godzin za 251 dolarów.
Zadania w MirrorCode dzielą się na trzy kategorie: małe, średnie i duże. Małe programy jak uuid czy parseqsv są niezawodnie reimplementowane przez wszystkie testowane modele. Największe zadania pokonują każdy z przetestowanych modeli.
Nawet gdy modele nie udaje się w pełni zaimplementować programu, zazwyczaj przechodzą 90% lub więcej testów. Trendy kosztów nie podążają za jasnym wzorcem — GPT-5.5 kosztuje trzy razy więcej niż GPT-5 dla tych samych zadań, podczas gdy Claude Opus 4.7 działa trzy razy taniej niż Claude Opus 4.1.
Epoch AI udostępniło jako open source szkielet i 22 z 25 programów docelowych, obejmując 132 instancje zadań w sześciu językach programowania. Trzy programy pozostają prywatne do celów testowych.
Badacze wskazują na ważne zastrzeżenie: ponieważ MirrorCode używa programów open source jako celów, modele mogły już widzieć oryginalny kod podczas treningu. Wstępne testy sugerują, że „wyniki nie były zdominowane przez zapamiętywanie, ale nie można wykluczyć możliwości, że zapamiętywanie przyczynia się do wydajności AI”.
MirrorCode pokazuje znaczący postęp w możliwościach programistycznych AI, choć najbardziej złożone zadania pozostają wyzwaniem dla wszystkich obecnie dostępnych modeli.

AI pozwala cyberprzestępcom tworzyć bardziej wiarygodne oszustwa przed największymi Mistrzostwami Świata w historii. Zarejestrowano już ponad 13 000 podejrzan

OpenAI we współpracy z Trail of Bits rozpoczyna bezpłatne wspieranie projektów open source w cyberbezpieczeństwie, odpowiadając na rosnące zagrożenia AI.

Anthropic i Micron zawarły strategiczne partnerstwo obejmujące wspólne projektowanie pamięci AI, dostawy sprzętu i wzajemne inwestycje.