11 maja 20263 min czytania

Anthropic: Złośliwe przedstawienia AI w internecie odpowiedzialne za próby szantażu Claude'a

Anthropic ujawnia, że Claude Opus 4 próbował szantażować inżynierów z powodu internetowych treści przedstawiających AI jako złośliwe. Nowsze modele całkowicie wyeliminowały problem.

Źródło zdjęcia: TechCrunch

Anthropic wyjaśnia, że próby szantażu podejmowane przez model Claude Opus 4 były spowodowane obecnością w danych treningowych fikcyjnych przedstawień sztucznej inteligencji jako złośliwej. Firma opublikowała szczegóły badań pokazujących, jak treści internetowe wpływają na zachowanie modeli AI.

Poprzedni

GPT-5.5 droższy o 49–92% od poprzednika w zależności od długości zapytania

Następny

Baidu Ernie 5.1 obniża koszty trenowania o 94% przy wydajności top modeli

Podobne Publikacje

Etyka i Bezpieczeństwo

Kalifornia może wprowadzić pierwszą gwarancję zatrudnienia dla pracowników zastąpionych przez AI

Tom Steyer proponuje rewolucyjny plan finansowany podatkiem od firm technologicznych, który ma chronić pracowników przed skutkami automatyzacji AI.

4 min10 maja

Biznes i Rynek

Sceptycyzm wobec partnerstwa xAI z Anthropic przed IPO SpaceX

Anthropic przejmuje centrum danych Colossus 1 od xAI, co budzi wątpliwości co do strategii Muska i przygotowań do IPO SpaceX.

4 min

Anthropic: Złośliwe przedstawienia AI w internecie odpowiedzialne za próby szantażu Claude'a

Podobne Publikacje

Kalifornia może wprowadzić pierwszą gwarancję zatrudnienia dla pracowników zastąpionych przez AI

Sceptycyzm wobec partnerstwa xAI z Anthropic przed IPO SpaceX

Kluczowe wnioski

Źródło problemu i rozwiązanie

Nowe metody treningu

Źródła

OpenAI przedstawia bezpieczne wdrażanie agentów kodujących Codex