3 artykuły z tym tagiem
ARR zastępuje nieprzeźroczyste sygnały nagrody strukturalnymi kryteriami, przewyższając tradycyjne metody w testach generowania obrazów.
Najnowsze modele Claude osiągają perfekcyjny wynik w testach bezpieczeństwa. Kluczem okazało się uczenie AI dlaczego pewne działania są właściwe.
Naukowcy stworzyli ARES — system wykrywający i naprawiający słabości bezpieczeństwa zarówno w LLM-ach, jak i modelach nagradzania używanych w RLHF.