Twórca Claude ostrzega przed zagrożeniami AI, jednocześnie rozwijając najnowocześniejsze modele. Strategia firmy: być liderem, aby wpływać na bezpieczeństwo.

Źródło zdjęcia: WIRED
Anthropic, twórca popularnego modelu Claude, od pięciu lat ostrzega świat przed potencjalnymi zagrożeniami związanymi z zaawansowaną sztuczną inteligencją. Jednocześnie firma stała się jedną z najważniejszych sił napędzających rozwój technologii AI i była niedawno wyceniana na prawie bilion dolarów. Jak wyjaśnia analiza magazynu WIRED, pozorna sprzeczność między ostrzeżeniami a działaniami firmy wynika z wewnętrznego przekonania, że tylko pozostając w czołówce wyścigu AI można skutecznie wpływać na bezpieczeństwo tej technologii.
Firma została założona w 2021 roku przez byłych pracowników OpenAI, którzy stracili wiarę w zdolność kierownictwa tej firmy – szczególnie CEO Sama Altmana – do bezpiecznego wprowadzenia transformacyjnej AI na świat.
Helen Toner, dyrektor wykonawcza Georgetown's Center for Security and Emerging Technology i była członkini zarządu OpenAI, używa analogii do opisania światopoglądu Anthropic. Porównuje potężną AI do lasu pełnego zarówno magicznych skarbów, jak i niebezpiecznych potworów. Wszyscy mieszkańcy pobliskich wiosek pędzą do środka, skuszeni skarbem. Według Toner, Anthropic chce zapuścić się głębiej w las niż ktokolwiek inny, jednocześnie intensywnie inwestując w oswojenie potworów.
„Co wyróżnia Anthropic to podejście: 'Ludzie i tak idą do lasu, więc musimy zrobić to jako pierwsi.' To jest bardzo wyraźnie ich strategia: budować najnowocześniejszą AI, aby być poważnym graczem przy stole, który może mówić o tym, jak wyglądają najnowocześniejsze systemy AI, jakie stwarzają zagrożenia i naciskać na rozsądne zabezpieczenia” – wyjaśnia Toner.
CEO Anthropic Dario Amodei jasno opisał to podejście w rozmowie z współzałożycielami opublikowanej na stronie kariery firmy: „Musisz znaleźć sposób, aby rzeczywiście być konkurencyjnym, czasami prowadzić branżę, a jednocześnie robić rzeczy bezpiecznie. Jeśli możesz to zrobić, przyciąganie grawitacyjne, które wywierasz, jest tak wielkie.”
Były pracownicy opisują Anthropic jako organizację o „wysokim zaufaniu i niskim ego” bez wewnętrznych polityk, co w dużej mierze odpowiada rzeczywistości. W porównaniu z liderami innych laboratoriów AI, pracownicy Anthropic generalnie ufają Amodeiowi, że powie im prawdę o postępach technologicznych firmy, interakcjach z urzędnikami państwowymi i poglądach na geopolitykę.
Jednak różnorodność myślenia może być korzystna dla odpowiedzialności. Shazeda Ahmed, badaczka z UCLA, która studiowała ideologiczne pochodzenie ruchu bezpieczeństwa AI, twierdzi, że organizacje takie jak Anthropic mają tendencję do borykania się z brakiem pluralizmu. Jej badania wykazały, że ruch bezpieczeństwa AI – zakorzeniony w subkulturach takich jak efektywny altruizm – cierpi na homogeniczność myśli i skłania się ku samorządności.
„Nie jesteś kwestionowany w tych pomysłach, gdy otaczasz się innymi ludźmi, którzy w nie wierzą” – mówi Ahmed. Problem ten może prowadzić do sytuacji, w której firma mierzy swój sukces głównie tym, w jakim stopniu realizuje własne cele, zamiast poddawać się zewnętrznej weryfikacji.
Sam McCandlish, współzałożyciel i główny architekt Anthropic, wyjaśnił motywacje założycieli w tej samej rozmowie: „Nikt z nas nie chciał zakładać firmy, po prostu czuliśmy, że to nasz obowiązek. Musimy to zrobić. To sposób, w jaki sprawimy, że sprawy pójdą lepiej z AI.”
Anthropic nadal wierzy, że ich podejście – łączenie rozwoju najbardziej zaawansowanych modeli AI z intensywnymi wysiłkami na rzecz bezpieczeństwa – jest najlepszą drogą do zapewnienia, że transformacyjna sztuczna inteligencja przyniesie korzyści, a nie katastrofę dla ludzkości.

Samsung wprowadza narzędzia OpenAI dla wszystkich pracowników w Korei i dziale DX. To jedna z największych umów korporacyjnych w historii firmy.

OpenAI wypuściło GPT-5.6 w wersjach Sol, Terra i Luna zaledwie dzień po żądaniu opóźnienia przez administrację Trumpa. Nowe modele kosztują mniej niż konkurencja.

Inicjatywa Akrites ma łatać luki bezpieczeństwa w oprogramowaniu open-source, zanim AI będzie mogło je wykorzystać do ataków. Mniej niż 5% luk zostało załatanych.