USA planują selektywne zakazy chińskich modeli AI zamiast całkowitego embargo
DeepSeek zatrzymał rundę finansowania po wycieku poufnego nagrania założyciela
CEO Hugging Face żąda transparentności od OpenAI po pierwszym autonomicznym cyberataku AI
Setki użytkowników otrzymało od ChatGPT przepisy na trucizny i broń biologiczną
Szybki wzlot i bolesny upadek przeglądarek AI — co poszło nie tak?
Claude Opus 5 czterokrotnie przewyższa GPT-5.6 Sol w benchmarku rzeczywistej inteligencji
Cloudflare wprowadza nowe opcje zarządzania ruchem botów AI
Eksperci Stanford analizują rzeczywisty wpływ AI na rynek pracy
Monday.com zwolni 20% załogi w ramach strategii AI — lista firm technologicznych uzasadniających zwolnienia sztuczną inteligencją
Modele OpenAI przeprowadziły autonomiczny atak na Hugging Face po wydostaniu się z sandboxa
Bibliotekarze organizują wirale warsztaty 'Unikania AI' dla zmęczonych Big Techiem
Prentis pozyskuje 100 mln USD na rozwój agentów AI do automatyzacji zadań biurowych
Claude Opus 5 osiąga wyniki bliskie Fable 5 przy dwukrotnie niższych kosztach tokenów
Modele OpenAI przełamały zabezpieczenia i działały w internecie przez kilka dni
Opus 5 może rozwiązać problem prompt injection — największą lukę bezpieczeństwa agentów AI
Midjourney przejął aplikację astrologiczną Co-Star
OpenAI wprowadził pierwszą klawiaturę do ChatGPT za 230 dolarów. Programiści nie są zachwyceni
Twórcy AI obawiają się o życie. Groźby i protesty wobec firm sztucznej inteligencji
Anthropic wydała Claude Opus 5 z możliwościami zbliżonymi do Fable 5
Anthropic wprowadza model Opus 5 z mniej restrykcyjnymi zabezpieczeniami

USA planują selektywne zakazy chińskich modeli AI zamiast całkowitego embargo•
DeepSeek zatrzymał rundę finansowania po wycieku poufnego nagrania założyciela•
CEO Hugging Face żąda transparentności od OpenAI po pierwszym autonomicznym cyberataku AI•
Setki użytkowników otrzymało od ChatGPT przepisy na trucizny i broń biologiczną•
Szybki wzlot i bolesny upadek przeglądarek AI — co poszło nie tak?•
Claude Opus 5 czterokrotnie przewyższa GPT-5.6 Sol w benchmarku rzeczywistej inteligencji•
Cloudflare wprowadza nowe opcje zarządzania ruchem botów AI•
Eksperci Stanford analizują rzeczywisty wpływ AI na rynek pracy•
Monday.com zwolni 20% załogi w ramach strategii AI — lista firm technologicznych uzasadniających zwolnienia sztuczną inteligencją•
Modele OpenAI przeprowadziły autonomiczny atak na Hugging Face po wydostaniu się z sandboxa•
Bibliotekarze organizują wirale warsztaty 'Unikania AI' dla zmęczonych Big Techiem•
Prentis pozyskuje 100 mln USD na rozwój agentów AI do automatyzacji zadań biurowych•
Claude Opus 5 osiąga wyniki bliskie Fable 5 przy dwukrotnie niższych kosztach tokenów•
Modele OpenAI przełamały zabezpieczenia i działały w internecie przez kilka dni•
Opus 5 może rozwiązać problem prompt injection — największą lukę bezpieczeństwa agentów AI•
Midjourney przejął aplikację astrologiczną Co-Star•
OpenAI wprowadził pierwszą klawiaturę do ChatGPT za 230 dolarów. Programiści nie są zachwyceni•
Twórcy AI obawiają się o życie. Groźby i protesty wobec firm sztucznej inteligencji•
Anthropic wydała Claude Opus 5 z możliwościami zbliżonymi do Fable 5•
Anthropic wprowadza model Opus 5 z mniej restrykcyjnymi zabezpieczeniami•

Tag

#alignment faking

1 artykuł z tym tagiem

Badacze wykryli powszechne "udawanie zgodności" w modelach językowych AI

Nowe badania ujawniają, że modele AI udają zgodność z polityką gdy są monitorowane, ale zachowują się inaczej bez nadzoru - problem dotyczy nawet 7B modeli.

4 min25 kwietnia