1 czerwca 20263 min czytania

PhyDrawGen: przełomowy system generowania diagramów fizycznych z tekstu

Naukowcy stworzyli PhyDrawGen — AI generujące dokładne diagramy fizyczne z opisu tekstowego, przewyższające GPT-5 i Gemini dzięki neuro-symbolicznemu podejściu.

Źródło zdjęcia: arXiv.org

Naukowcy z Bangladeszu opracowali PhyDrawGen — przełomowy system generowania diagramów fizycznych z opisu tekstowego, który skutecznie rozwiązuje problem halucynacji i naruszania praw fizyki przez obecne modele AI. Badania opublikowane w arXiv pokazują znaczącą przewagę nad modelami GPT-5-image, Gemini 2.5 Flash i Gemini 3 Pro.

Kluczowe wnioski

PhyDrawGen wykorzystuje neuro-symboliczny pipeline, który oddziela rozumienie sceny od przestrzegania ograniczeń fizycznych.
System składa się z trzech etapów: ekstrakcja grafu sceny przez LLM, konwersja do Planar Straight-Line Graph przez deterministyczny solver i wizualna weryfikacja przez dostrojony model Qwen-VL.
Testy na benchmark'u 1449 problemów z mechaniki, optyki i elektromagnetyki wykazały znaczącą przewagę nad konkurencyjnymi modelami.
Metoda skutecznie koduje równowagę sił, ścieżki optyczne i topologie pól jako dokładne prymitywy geometryczne.
System wykazuje odporność na nietypowe obiekty i problemy, zachowując fizyczną dokładność.

Przełom w generowaniu diagramów fizycznych

PhyDrawGen wprowadza nowatorskie podejście do długotrwałego problemu generowania precyzyjnych diagramów fizycznych. Podczas gdy obecne modele generatywne tworzą wizualnie przekonujące rezultaty, systematycznie „halucynują” wektory sił, ignorują prawa zachowania i naruszają ograniczenia geometryczne.

Autorzy badania — Nafiul Haque, Syed Nazmus Sakib i Shifat E Arman — zaprojektowali system, który dzieli proces na trzy odrębne etapy. Pierwszy wykorzystuje duży model językowy do wyodrębnienia typowanego grafu sceny z tekstu problemu. Następnie deterministyczny solver konwertuje ten graf do Planar Straight-Line Graph (PSLG), kodując równowagę sił, ścieżki optyczne i topologie pól jako dokładne prymitywy geometryczne.

Wizualna weryfikacja i iteracyjne poprawianie

Finalny etap wykorzystuje dostrojony model Qwen-VL, który implementuje wizualnie ugruntowaną pętlę propose-verify do iteracyjnego korygowania wszelkich naruszeń ograniczeń. To podejście pozwala systemowi zachować wysoką dokładność fizyczną nawet w przypadku nietypowych obiektów i złożonych scenariuszy.

Badacze przeprowadzili kompleksową ewaluację na benchmark'u zawierającym 1449 problemów obejmujących mechanikę, optykę i elektromagnetyzm. Wyniki pokazały znaczącą przewagę PhyDrawGen nad najnowszymi modelami komercyjnymi, w tym GPT-5-image, Gemini 2.5 Flash i Gemini 3 Pro.

Praca została złożona do przeglądu na konferencję EMNLP 2026 i reprezentuje istotny postęp w kierunku generowania diagramów naukowych zgodnych z prawami fizyki, co może mieć szerokie zastosowanie w edukacji i badaniach naukowych.

#fizyka #neuro-symboliczne AI #generowanie diagramów #machine learning

Udostępnij

Źródła

arXiv AI

Poprzedni

Mężczyźni używają agentów AI do kodowania dwukrotnie częściej niż kobiety w naukach społecznych

Następny

Naukowcy proponują fizycznie wykonalne modele świata dla AI ucieleśnionej

Podobne Publikacje

Badania i Nauka

Google Deepmind: generatory wideo zawierają uniwersalne modele świata dla wizji komputerowej

GenCeption wykorzystuje generator wideo do zadań wizji komputerowej, dorównując wyspecjalizowanym modelom przy użyciu 500 razy mniej danych treningowych.

4 min19 lipca

Narzędzia i Aplikacje

NVIDIA i Hugging Face integrują NeMo Automodel z Diffusers dla skalowania treningu modeli AI

Integracja eliminuje konwersje checkpointów i oferuje gotowe przepisy dla FLUX, Wan, HunyuanVideo — od jednego GPU do wielowęzłowych klastrów.

4 min17 lipca

Biznes i Rynek

Armia USA wyczerpała roczny limit tokenów AI w kilka tygodni

Armia amerykańska przekroczyła budżet 100 mln tokenów AI w zaledwie kilka tygodni, co zmusiło dowództwo do przywrócenia limitów użytkowania.

4 min21 lipca