Badanie rosyjskich naukowców pokazuje, że proste nakładanie siatki na wykresy redukuje błąd modeli AI z 25,5% do 19,5% — lepiej niż zaawansowane metody.

Źródło zdjęcia: arXiv.org
Naukowcy z Rosji przeprowadzili badanie porównujące różne metody poprawy dokładności wielomodalnych modeli językowych w zadaniach ekstrakcji danych z wykresów naukowych. Wyniki, opublikowane w artykule na arXiv, pokazują, że proste podejście przestrzenne znacznie przewyższa skomplikowane metody semantyczne.
Automatyczna ekstrakcja danych z wykresów naukowych stanowi kluczowe zadanie dla wielkoskalowej analizy literatury. Wielomodalne modele językowe wykazują potencjał w tym obszarze, jednak ich dokładność na niestandardowych wykresach pozostaje wyzwaniem.
Zespół badawczy pod kierunkiem Andrei Lazarev, Dmitrii Sedov i Alexander Galkin postawił fundamentalne pytanie badawcze: która strategia jest najskuteczniejsza w poprawie wydajności modeli — semantyczne wskazówki wysokiego poziomu czy przestrzenne wskazówki niskiego poziomu?
Badacze przeprowadzili eksploracyjne eksperymenty z metodami semantycznymi, testując dwuetapowy framework metadata-first oraz technikę Chain-of-Thought. Żadna z tych zaawansowanych metod nie przyniosła statystycznie istotnej poprawy wyników.
W przeciwieństwie do tego, proste podejście przestrzenne okazało się wysoce skuteczne. Metoda polegała na nakładaniu siatki współrzędnych na obraz wykresu przed analizą. To proste rozwiązanie zapewniło statystycznie istotną redukcję błędu ekstrakcji danych.
Kluczowy eksperyment ilościowy przeprowadzony na syntetycznym zbiorze danych wykazał znaczącą przewagę podejścia przestrzennego. Błąd SMAPE (Symmetric Mean Absolute Percentage Error) został zredukowany z 25,5% do 19,5%, co stanowi statystycznie istotną poprawę (p < 0,05) w porównaniu do bazowego podejścia.
Wyniki sugerują, że dostarczanie wyraźnego kontekstu przestrzennego jest bardziej skuteczną i niezawodną strategią niż semantyczne wskazówki wysokiego poziomu dla tej klasy zadań, przynajmniej w przypadku obecnej generacji modeli multimodalnych.
Badanie, zaakceptowane do publikacji na 7. Międzynarodowej Konferencji SUMMA 2025, wnosi istotny wkład w zrozumienie optymalnych strategii poprawy wydajności modeli AI w zadaniach związanych z analizą danych wizualnych.
W Indiach nowe systemy ostrzegawcze z AI skracają czas reakcji z godzin do sekund, by uniknąć tragicznych starć między ludźmi a słoniami.

OpenAI we współpracy z Trail of Bits rozpoczyna bezpłatne wspieranie projektów open source w cyberbezpieczeństwie, odpowiadając na rosnące zagrożenia AI.

iOS 27 wprowadza funkcje AI zintegrowane z istniejącymi aplikacjami: dzielenie rachunków, aktualizowanie haseł i inteligentne sugestie w Wiadomościach.