Badanie pokazuje, że duże modele językowe wykazują nadmierną pewność przy najtrudniejszych zadaniach, gdzie najczęściej się mylą.

Źródło zdjęcia: arXiv.org
Nowe badanie ujawnia fascynujący paradoks w działaniu dużych modeli językowych — podobnie jak ludzie, są one nadmiernie pewne swoich odpowiedzi, ale wzorzec ten zmienia się drastycznie w zależności od trudności zadania. Zespół badaczy z uniwersytetu opublikował szczegółową analizę kalibracji pewności w modelach AI w czasopiśmie arXiv.
Badanie, przeprowadzone przez Noama Michaela i współpracowników, koncentruje się na kluczowym aspekcie działania AI — jak dobrze modele potrafią ocenić prawdopodobieństwo poprawności własnych odpowiedzi. Wyniki pokazują złożony obraz, który może mieć istotne konsekwencje dla praktycznego zastosowania sztucznej inteligencji.
Centralnym odkryciem badania jest paradoksalna natura pewności siebie w modelach AI. Podczas gdy ogólny trend pokazuje nadmierną pewność — sytuację, w której modele są bardziej przekonane o swoich odpowiedziach niż uzasadniają to faktyczne wyniki — rzeczywistość okazuje się znacznie bardziej złożona.
Kluczowy jest tutaj „efekt trudności”, który moderuje tę tendencję. Przy najtrudniejszych zadaniach, gdzie modele najczęściej się mylą, wykazują one największą pewność swoich (błędnych) odpowiedzi. To szczególnie niepokojące zjawisko, ponieważ oznacza, że AI może być najbardziej przekonująco błędne właśnie wtedy, gdy użytkownicy najbardziej potrzebują wsparcia.
Badacze zwracają uwagę na uderzające podobieństwo między zachowaniem modeli AI a ludzkimi tendencjami poznawczymi. Tak jak ludzie często wykazują nadmierną pewność siebie, szczególnie w obszarach, w których mają ograniczoną wiedzę, modele językowe powielają ten wzorzec.
Przy łatwych testach obserwuje się odwrotne zjawisko — modele wykazują „znaczną niepewność”, mimo że ich odpowiedzi są często poprawne. To sugeruje, że mechanizmy kalibracji pewności w AI mogą odzwierciedlać fundamentalne ograniczenia w sposobie, w jaki systemy te oceniają własną kompetencję.
W odpowiedzi na odkryte problemy, zespół badawczy opracował LifeEval — specjalistyczne narzędzie do oceny kalibracji modeli w różnych poziomach trudności. To rozwiązanie może stać się kluczowe dla przyszłego rozwoju bardziej wiarygodnych systemów AI.
Wyniki badania mają istotne implikacje praktyczne — sugerują potrzebę opracowania lepszych mechanizmów oceny pewności w modelach AI, szczególnie w zastosowaniach krytycznych, gdzie błędna pewność siebie może prowadzić do poważnych konsekwencji.
Odkrycie wzorców kalibracji pewności w dużych modelach językowych otwiera nowy obszar badań nad wiarygodnością AI i może przyczynić się do rozwoju bardziej transparentnych i odpowiedzialnych systemów sztucznej inteligencji.

Anthropic zwiększa skalę projektu Glasswing wykorzystującego Claude Mythos Preview do wykrywania krytycznych luk w zabezpieczeniach oprogramowania.

Podczas gdy AI bije rekordy funduszy, startupowcy tworzą produkty łączące ludzi offline. Board i cyberdecki to przykłady trendu 'together tech'.

Meta ukrywa kod rozpoznawania twarzy na 50 mln telefonów, a chińskie laboratoria z fentanylu przeszły na rynek peptydów wart 100 mln dolarów rocznie.