Badanie pokazuje, jak analizować wielokrotne odpowiedzi modeli językowych zamiast pojedynczych wyników. Nowe narzędzie GROVE poprawia ocenę różnorodności AI.

Źródło zdjęcia: arXiv.org
Naukowcy z uniwersytetów opublikowali nowe badanie, które pokazuje, jak lepiej analizować wielokrotne odpowiedzi modeli językowych zamiast ograniczać się do pojedynczych wyników. Praca wprowadza nowatorskie narzędzie GROVE do wizualizacji rozkładów tekstów generowanych przez AI.

MIT Technology Review zaprezentowało listę kluczowych technologii AI na 2026 rok podczas transmisji EmTech AI dla subskrybentów i absolwentów MIT.

Międzynarodowy zespół stworzył innowacyjną metodę beam search dla problemu VGLCS, testując ją na 320 instancjach z sekwencjami do 500 znaków.
Badanie powstało w odpowiedzi na problem, z jakim borykają się użytkownicy dużych modeli językowych. Zazwyczaj widzą tylko jedną odpowiedź z szerokiego spektrum możliwych wygenerowanych tekstów, co może prowadzić do błędnych uogólnień przy optymalizacji promptów.
• Problem pojedynczych odpowiedzi: Użytkownicy oceniają modele językowe na podstawie pojedynczych wyników, tracąc informacje o całej dystrybucji możliwych odpowiedzi
• Nowe narzędzie GROVE: Interaktywna wizualizacja przedstawia multiple generacje jako nakładające się ścieżki w grafie tekstowym, ujawniając wspólną strukturę i punkty rozgałęzień
• Badanie z 13 naukowcami: Analiza pokazała, kiedy stochastyczność ma znaczenie w praktyce i gdzie obecne przepływy pracy zawodzą
• Trzy studia użytkowników: Eksperymenty z łącznie 131 uczestnikami potwierdziły skuteczność hybrydowego podejścia
• Hybrydowy workflow: Podsumowania graficzne lepiej sprawdzają się przy ocenie różnorodności, podczas gdy bezpośrednia inspekcja pozostaje silniejsza przy szczegółowych pytaniach
Zespół badawczy przeprowadził najpierw studium formacyjne z 13 naukowcami używającymi modeli językowych, aby zrozumieć, jak rozumują oni o rozkładach językowych i gdzie napotykają problemy. Na tej podstawie stworzono GROVE — system wizualizacji, który reprezentuje wielokrotne generacje LM jako graf tekstowy z nakładającymi się ścieżkami.
GROVE zachowuje dostęp do surowych wyników, jednocześnie ujawniając strukturalne wzorce jak tryby rozkładu, rzadkie przypadki brzegowe i wrażliwość na małe zmiany w promptach. Narzędzie pozwala użytkownikom zobaczyć klastry podobnych odpowiedzi i punkty, w których model "rozgałęzia się" w różne kierunki.
Autorzy przeprowadzili trzy niezależne studia crowdsourcingowe z 47, 44 i 40 uczestnikami, skupiając się na komplementarnych zadaniach związanych z analizą rozkładów. Eksperymenty potwierdziły skuteczność hybrydowego podejścia do pracy z modelami językowymi.
Wyniki pokazują, że graficzne podsumowania znacznie poprawiają oceny strukturalne, takie jak określanie różnorodności odpowiedzi czy identyfikacja wzorców w generowanych tekstach. Jednak przy zadaniach wymagających analizy szczegółów, tradycyjna inspekcja pojedynczych wyników pozostaje bardziej efektywna.
Badanie ma istotne implikacje dla projektowania narzędzi do pracy z AI. Pokazuje, że użytkownicy potrzebują dostępu do informacji o całej dystrybucji odpowiedzi, nie tylko do najlepszej pojedynczej generacji, aby podejmować świadome decyzje przy iteracyjnym doskonaleniu promptów.