HPE rozszerza AI Factory z NVIDIA o procesor Vera i narzędzia dla agentów•
60% amerykańskich konsumentów odrzuca marki używające AI w komunikacji•
Apple planuje AirPods z kamerami na 2027 rok i drugą generację składanego iPhone'a•
Firmy zmagają się z rosnącymi kosztami AI podczas gdy inne oszczędzają miliony na tokenach•
Anthropic wycofuje się z kontrowersyjnych zmian w rozliczeniu Claude SDK•
SpaceX przejmuje startup Cursor za 60 miliardów dolarów kilka dni po IPO•
Sundar Pichai spotkał się z protestami studentów Stanforda przeciwko kontraktom Google z Izraelem•
Anthropic pozostaje w sporze z Białym Domem ws. kontroli eksportowych Claude Fable 5•
Rząd USA zablokował najnowszy model Claude Mythos 5 od Anthropic•
Naukowcy definiują dobre wyjaśnienia AI i analizują trudności z modelami językowymi•
Czy lokalne modele AI mogą zastąpić Claude i GPT w programowaniu?•
Google inwestuje 1,5 miliarda dolarów w rozbudowę centrum danych w Alabama•
Eksperci cyberbezpieczeństwa protestują przeciwko zakazowi USA na modele Anthropic•
Nvidia pozyskuje 20 miliardów dolarów z emisji obligacji w ramach boomu zadłużenia AI•
Historia zagadki brudnych dzieci — poszukiwania pochodzenia klasycznego paradoksu logicznego•
Fala zwolnień w tech usprawiedliwianych AI staje się społeczną bomba zegarową•
Blokada Anthropic wywołuje debatę o suwerenności technologicznej w Europie•
Nowy framework UP-NRPA pozwala AI dostosowywać dialogi do użytkownika w czasie rzeczywistym•
Chiny mogły uzyskać dostęp do zaawansowanego modelu AI Mythos firmy Anthropic•
Dlaczego Claude staje się coraz bardziej konfliktowy? Analiza problemów z nowymi wersjami•

Tag

#testy bezpieczeństwa

1 artykuł z tym tagiem

Naukowcy znaleźli sposób na powstrzymanie modeli AI przed udawaniem mniej zdolnych

Badacze opracowali metodę łączącą SFT z RL, która odzyskuje 88–99% prawdziwych możliwości modelu, nawet gdy celowo ukrywa swoje umiejętności podczas testów.

4 min10 maja