14 czerwca 20264 min czytania

Agenci AI znajdują właściwe pliki, ale mijają się z kluczowymi liniami kodu

Nowe badanie ujawnia słabość agentów AI w kodowaniu — pokrywają tylko 14–19% istotnych linijek kodu, choć dobrze radzą sobie z wyszukiwaniem plików.

Źródło zdjęcia: The Decoder

Międzynarodowy zespół badawczy z Uniwersytetu Shanghai Jiao Tong ujawnił poważny problem w działaniu agentów AI do kodowania. Nowe badanie pokazuje, że choć systemy sztucznej inteligencji potrafią odnaleźć odpowiednie pliki z kodem, to mają trudności z precyzyjnym wskazaniem konkretnych linijek, które wymagają naprawy. Szczegóły badania zostały opublikowane w raporcie na The Decoder.

Kluczowe wnioski

Agenci AI osiągają dobrą skuteczność na poziomie plików (znajdują właściwe pliki źródłowe), ale ich precyzja drastycznie spada przy wyszukiwaniu konkretnych linijek kodu — pokrywają tylko 14–19% istotnych linijek.
Nowy benchmark SWE-Explore oddziela fazę wyszukiwania kodu od naprawy błędów, ujawniając ukryte słabości systemów AI, które dotychczas były maskowane przez ogólne metryki skuteczności.
Badanie objęło 848 problemów z 203 projektów open-source w dziesięciu językach programowania, z dominacją Pythona (547 zadań).
Naprawy błędów wymagają minimum 50–75% pokrycia kluczowych fragmentów kodu — poniżej tego progu systemy AI w większości przypadków zawodzą.
Używanie silniejszych modeli językowych nie rozwiązuje problemu precyzyjnego wyszukiwania — wzorce pozostają podobne niezależnie od zastosowanego modelu.

Metodologia badania — od sukcesów do wzorców

Zespół badawczy stanął przed trudnym wyzwaniem: jak określić, które fragmenty kodu są rzeczywiście istotne dla rozwiązania danego problemu? Zamiast ręcznego oznaczania, naukowcy zastosowali innowacyjne podejście oparte na analizie udanych napraw.

Dla każdego z 848 problemów w zbiorze danych istniały co najmniej dwa udane rozwiązania wykonane przez zaawansowane modele, takie jak GPT-5.4, Gemini 3 Pro, Claude Sonnet 4.6 czy Kimi K2.6. Badacze wyekstraktowali z tych przebiegów informacje o tym, które pliki i linie kod faktycznie analizowały przed naprawą błędu.

Fragmenty, na których zbiegły się niezależne ścieżki rozwiązania, zostały uznane za sygnał użytecznego kontekstu. Dodatkowy etap weryfikacji uzupełnił kluczowe fragmenty, a zespół przeprowadził następnie ręczny przegląd każdego regionu.

Wyniki — precyzja spada dramatycznie na poziomie linijek

Porównanie objęło tradycyjne metody wyszukiwania oraz pięć agentów kodowania ogólnego przeznaczenia, w tym Claude Code, Codex i OpenHands, a także cztery systemy badawcze zaprojektowane specjalnie do wyszukiwania w kodzie.

Tradycyjne wyszukiwanie słów kluczowych ledwo przewyższa przypadek. Badacze pokazują dlaczego na konkretnym przykładzie: opis błędu jak „RuntimeWarning on Overflow” zawiera terminy, które pojawiają się znacznie częściej w szablonach i dokumentacji projektu niż w rzeczywistym kodzie źródłowym.

Agenci AI wyraźnie prowadzą, ponieważ przeszukują projekt krok po kroku, zamiast sortować wszystkie trafienia jednocześnie. Na poziomie plików systemy radzą sobie dobrze — znajdują właściwy plik źródłowy, klasyfikują go wcześnie i utrzymują dobór w wąskich granicach.

Jednak w momencie, gdy test przybliża się do pojedynczych linii kodu, system się rozpada. Agenci kodowania ogólnego pokrywają tylko 14–19% linii, które rzeczywiście mają znaczenie.

Próg kontekstu i przyszłe ulepszenia

W kontrolowanym eksperymencie zespół sztucznie zmieniał kontekst. Model naprawy widział tylko 0, 25, 50, 75 lub 100% kluczowych regionów, czasami uzupełnionych nieistotnym kodem. Dla łatwiejszych zadań w zbiorze danych pojawia się wyraźny efekt progowy.

Dopóki widocznych jest mniej niż połowa niezbędnych regionów kluczowych, naprawy w większości zawodzą. Wskaźnik sukcesu skacze dopiero między 50 a 75% pokrycia. Poprawki nie ulepszają się stopniowo — potrzebują minimalnej ilości wskazówek, zanim cokolwiek „kliknie”.

Po udostępnieniu krytycznych miejsc, dodatkowy nieistotny kod prawie nie przeszkadza. Agent, który czyta zbyt mało, radzi sobie gorzej niż ten, który czyta zbyt dużo. Wniosek dla przyszłych ulepszeń jest jasny: filtrować mniej, czytać więcej.

Badanie ujawnia fundamentalną słabość obecnych agentów AI w kodowaniu — choć potrafią one nawigować do właściwych plików, brakuje im precyzji w identyfikacji konkretnych fragmentów wymagających naprawy. Ten problem może tłumaczyć, dlaczego nawet zaawansowane systemy AI czasami produkują rozwiązania, które menedżerowie projektów odrzucają z powodu podstawowych błędów funkcjonalnych.

#kodowanie #SWE-Explore #agenci AI #programowanie #wyszukiwanie kodu

Udostępnij

Źródła

The Decoder

Poprzedni

ToolSense ujawnia lukę między wyszukiwaniem narzędzi a wiedzą w modelach AI

Następny

Nie, nie wszyscy używają AI do wszystkiego — badania obalają medialne mity

Podobne Publikacje

Etyka i Bezpieczeństwo

Szef Anthropic odpowiada na kontrowersje: nie sprzeciwia się modelom o otwartych wagach, ale obawia się chińskiej AI

Dario Amodei zaprzecza, że Anthropic popiera zakaz modeli o otwartych wagach, ale wyraża obawy dotyczące rządów autorytarnych wykorzystujących AI.

4 min28 lipca

Biznes i Rynek

Korea Południowa wytycza przyszłość AI we współpracy z NVIDIA na AI Summit

NVIDIA i KAIST utworzą pierwsze wspólne laboratorium AI w Korei Południowej, skupiając się na agentowej sztucznej inteligencji.

3 min24 lipca

Modele AI

Anthropic wprowadza model Opus 5 z mniej restrykcyjnymi zabezpieczeniami

Nowy model Opus 5 od Anthropic przewyższa większy Fable 5 w testach, oferując mniej ograniczeń i lepszą dostępność dla użytkowników.

3 min24 lipca

Kluczowe wnioski

Agenci AI osiągają dobrą skuteczność na poziomie plików (znajdują właściwe pliki źródłowe), ale ich precyzja drastycznie spada przy wyszukiwaniu konkretnych linijek kodu — pokrywają tylko 14–19% istotnych linijek.

Nowy benchmark SWE-Explore oddziela fazę wyszukiwania kodu od naprawy błędów, ujawniając ukryte słabości systemów AI, które dotychczas były maskowane przez ogólne metryki skuteczności.

Badanie objęło 848 problemów z 203 projektów open-source w dziesięciu językach programowania, z dominacją Pythona (547 zadań).

Naprawy błędów wymagają minimum 50–75% pokrycia kluczowych fragmentów kodu — poniżej tego progu systemy AI w większości przypadków zawodzą.

Używanie silniejszych modeli językowych nie rozwiązuje problemu precyzyjnego wyszukiwania — wzorce pozostają podobne niezależnie od zastosowanego modelu.

Metodologia badania — od sukcesów do wzorców

Wyniki — precyzja spada dramatycznie na poziomie linijek

Jednak w momencie, gdy test przybliża się do pojedynczych linii kodu, system się rozpada. Agenci kodowania ogólnego pokrywają tylko 14–19% linii, które rzeczywiście mają znaczenie.

Próg kontekstu i przyszłe ulepszenia