1 artykuł z tym tagiem
Naukowcy stworzyli ARES — system wykrywający i naprawiający słabości bezpieczeństwa zarówno w LLM-ach, jak i modelach nagradzania używanych w RLHF.