Nowe badanie ujawnia słabość agentów AI w kodowaniu — pokrywają tylko 14–19% istotnych linijek kodu, choć dobrze radzą sobie z wyszukiwaniem plików.

Źródło zdjęcia: The Decoder
Międzynarodowy zespół badawczy z Uniwersytetu Shanghai Jiao Tong ujawnił poważny problem w działaniu agentów AI do kodowania. Nowe badanie pokazuje, że choć systemy sztucznej inteligencji potrafią odnaleźć odpowiednie pliki z kodem, to mają trudności z precyzyjnym wskazaniem konkretnych linijek, które wymagają naprawy. Szczegóły badania zostały opublikowane w raporcie na The Decoder.
Zespół badawczy stanął przed trudnym wyzwaniem: jak określić, które fragmenty kodu są rzeczywiście istotne dla rozwiązania danego problemu? Zamiast ręcznego oznaczania, naukowcy zastosowali innowacyjne podejście oparte na analizie udanych napraw.
Dla każdego z 848 problemów w zbiorze danych istniały co najmniej dwa udane rozwiązania wykonane przez zaawansowane modele, takie jak GPT-5.4, Gemini 3 Pro, Claude Sonnet 4.6 czy Kimi K2.6. Badacze wyekstraktowali z tych przebiegów informacje o tym, które pliki i linie kod faktycznie analizowały przed naprawą błędu.
Fragmenty, na których zbiegły się niezależne ścieżki rozwiązania, zostały uznane za sygnał użytecznego kontekstu. Dodatkowy etap weryfikacji uzupełnił kluczowe fragmenty, a zespół przeprowadził następnie ręczny przegląd każdego regionu.
Porównanie objęło tradycyjne metody wyszukiwania oraz pięć agentów kodowania ogólnego przeznaczenia, w tym Claude Code, Codex i OpenHands, a także cztery systemy badawcze zaprojektowane specjalnie do wyszukiwania w kodzie.
Tradycyjne wyszukiwanie słów kluczowych ledwo przewyższa przypadek. Badacze pokazują dlaczego na konkretnym przykładzie: opis błędu jak „RuntimeWarning on Overflow” zawiera terminy, które pojawiają się znacznie częściej w szablonach i dokumentacji projektu niż w rzeczywistym kodzie źródłowym.
Agenci AI wyraźnie prowadzą, ponieważ przeszukują projekt krok po kroku, zamiast sortować wszystkie trafienia jednocześnie. Na poziomie plików systemy radzą sobie dobrze — znajdują właściwy plik źródłowy, klasyfikują go wcześnie i utrzymują dobór w wąskich granicach.
Jednak w momencie, gdy test przybliża się do pojedynczych linii kodu, system się rozpada. Agenci kodowania ogólnego pokrywają tylko 14–19% linii, które rzeczywiście mają znaczenie.
W kontrolowanym eksperymencie zespół sztucznie zmieniał kontekst. Model naprawy widział tylko 0, 25, 50, 75 lub 100% kluczowych regionów, czasami uzupełnionych nieistotnym kodem. Dla łatwiejszych zadań w zbiorze danych pojawia się wyraźny efekt progowy.
Dopóki widocznych jest mniej niż połowa niezbędnych regionów kluczowych, naprawy w większości zawodzą. Wskaźnik sukcesu skacze dopiero między 50 a 75% pokrycia. Poprawki nie ulepszają się stopniowo — potrzebują minimalnej ilości wskazówek, zanim cokolwiek „kliknie”.
Po udostępnieniu krytycznych miejsc, dodatkowy nieistotny kod prawie nie przeszkadza. Agent, który czyta zbyt mało, radzi sobie gorzej niż ten, który czyta zbyt dużo. Wniosek dla przyszłych ulepszeń jest jasny: filtrować mniej, czytać więcej.
Badanie ujawnia fundamentalną słabość obecnych agentów AI w kodowaniu — choć potrafią one nawigować do właściwych plików, brakuje im precyzji w identyfikacji konkretnych fragmentów wymagających naprawy. Ten problem może tłumaczyć, dlaczego nawet zaawansowane systemy AI czasami produkują rozwiązania, które menedżerowie projektów odrzucają z powodu podstawowych błędów funkcjonalnych.

Nowy framework diagnostyczny pokazuje, że modele AI tracą 50–64% wydajności przy realistycznych zapytaniach, mimo dobrych wyników w standardowych testach.

Nowy model Google tłumaczy mowę w czasie rzeczywistym dla ponad 70 języków, zachowując ton i tempo głosu. Dostępny już w Google Meet i Translate.

Nowy flagowy model Anthropic zajął pierwsze miejsce w rankingu AI, ale oferuje jedynie marginalny wzrost wydajności przy podwojeniu cen tokenów.