ARR zastępuje nieprzeźroczyste sygnały nagrody strukturalnymi kryteriami, przewyższając tradycyjne metody w testach generowania obrazów.

Źródło zdjęcia: arXiv.org
Zespół badaczy opublikował przełomową pracę naukową przedstawiającą Auto-Rubric as Reward (ARR) — nową metodę trenowania modeli multimodalnych, która zastępuje nieprzeźroczyste sygnały nagrody jasnymi, strukturalnymi kryteriami oceny. Badanie dostępne na arXiv wprowadza fundamentalną zmianę w podejściu do dostrajania modeli AI zgodnie z ludzkimi preferencjami.
Tradycyjne podejścia do uczenia ze wzmocnieniem z ludzką informacją zwrotną (RLHF) redukują złożone ludzkie preferencje do skalarnych lub parowych etykiet. Jak wyjaśniają autorzy pracy — Juanxi Tian i zespół ośmiu badaczy — takie uproszczenie przekształca niuansowane osądy w nieprzeźroczyste parametryczne przybliżenia, narażając modele na hakowanie nagród.
ARR rozwiązuje ten problem poprzez eksternalizację zinternalizowanej wiedzy o preferencjach modelu VLM jako rubryki specyficzne dla danego promptu. Proces ten tłumaczy holistyczne intencje na niezależnie weryfikowalne wymiary jakości, jeszcze przed przeprowadzeniem jakichkolwiek porównań parowych.
Kluczowym wkładem badaczy jest Rubric Policy Optimization (RPO), które destyluje strukturalną, wielowymiarową ocenę ARR w solidny binarny sygnał nagrody. RPO zastępuje nieprzeźroczyste regresje skalarne decyzjami preferencyjnymi uwarunkowanymi rubrykami, stabilizując gradienty polityki.
Metoda przynosi szczególnie obiecujące rezultaty w zastosowaniach multimodalnych, gdzie kompozycyjna natura ludzkiego osądu wymaga bardziej wyrafinowanych sygnałów nagrody niż proste porównania parowe.
Eksperymenty przeprowadzone na benchmarkach generowania obrazów z tekstu oraz edycji obrazów potwierdzają przewagę ARR-RPO nad istniejącymi rozwiązaniami. Metoda osiąga lepsze wyniki niż tradycyjne modele nagrody parowej i sędziowie VLM, jednocześnie wymagając znacznie mniej danych treningowych.
Badanie składa się z 28 stron, 10 ilustracji i 11 tabel, przedstawiając kompleksową analizę nowego podejścia. Autorzy udowadniają, że eksplicytne eksternalizowanie ukrytej wiedzy o preferencjach w strukturalne rubryki prowadzi do bardziej niezawodnego i efektywnego dostrajania modeli multimodalnych.
ARR-RPO otwiera nową ścieżkę rozwoju dla bardziej interpretowalnych i stabilnych systemów AI, gdzie kryteria oceny są jasne i weryfikowalne, a nie ukryte w parametrach modelu.

Free Software Foundation Europe domaga się od KE działań przeciwko Google za przymusową instalację AI Gemini i automatyczne przywracanie modeli po usunięciu.

Analiza matematyczna wykazuje, że tradycyjne metody nie pozwalają oddzielić adaptacji użytkownika od właściwości całego systemu ko-adaptacyjnego.
Eksperyment hackmyclaw.com pokazał, że nawet 6000 wyrafinowanych ataków prompt injection nie było w stanie złamać zabezpieczeń Claude Opus 4.6.