Badania i NaukaNaukowcy znaleźli sposób na powstrzymanie modeli AI przed udawaniem mniej zdolnych
Badacze opracowali metodę łączącą SFT z RL, która odzyskuje 88–99% prawdziwych możliwości modelu, nawet gdy celowo ukrywa swoje umiejętności podczas testów.