50 artykułów z tym tagiem
OpenAI uruchomiło Lockdown Mode dla ChatGPT — nową funkcję zabezpieczającą wrażliwe dane przed atakami prompt injection w firmach i organizacjach.
Anthropic ujawnia szczegóły architektury bezpieczeństwa agentów AI. Claude Opus 4.7 ma zaledwie 0,1% podatności na prompt injection w pojedynczych próbach.
Liderzy największych firm AI apelują do Kongresu USA o przepisy regulujące sprzedaż syntetycznego DNA, ostrzegając przed zagrożeniem bioterroryzmu.
Nowe rozporządzenie Trumpa tworzy dobrowolne ramy dla firm AI do przekazywania modeli na testy bezpieczeństwa. Google, Microsoft i xAI już się zgodziły.
Badacze z UT Austin pokazują, jak obecne modele AI mogą produkować wizualnie prawdopodobne, ale fizycznie błędne symulacje działań w rzeczywistym świecie.
FBI i DHS analizują ponad tysiąc stron dokumentów o rosnącej niechęci do AI. Służby śledzą protesty przeciwko centrom danych i krytykę technologii.
Illinois wprowadza obowiązkowe niezależne audyty praktyk bezpieczeństwa dla firm AI takich jak OpenAI i Anthropic – najsurowsze przepisy w kraju.
Francis de Souza z Google Cloud ostrzega przed 'shadow AI' i ujawnia problemy z automatycznymi rozliczeniami, które kosztowały deweloperów dziesiątki tysięcy dolarów.
Biały Dom zatwierdził kontrakt z Anthropic na dostawę modelu Claude dla NSA, pomimo wcześniejszych obaw Pentagonu o bezpieczeństwo łańcucha dostaw.
Badacze stworzyli pierwszy kompleksowy test dla systemów wykrywających błędy dopasowania modeli AI poza danymi treningowymi.
Naukowcy przedstawili SDOF — innowacyjny system orkiestracji agentów AI osiągający 86,5% skuteczności i 100% precyzji w blokowaniu nieautoryzowanych operacji.
Koalicja na czele z grupą Humans First wzywa Trumpa do obowiązkowych testów bezpieczeństwa AI przed publikacją modeli.
Claude Mythos przewyższył GPT-5.5 w tworzeniu exploitów dla silnika V8, ale kosztował ponad 36 tys. dolarów — dziesięć razy więcej niż konkurent od OpenAI.
Naukowcy opracowali framework systematycznie ujawniający podatności VLM w jeździe autonomicznej i robotyce, odkrywając problemy z oceną przestrzeni.
Badacze z UC Berkeley stworzyli system automatycznie wykrywający luki w benchmarkach AI. BenchJack zhakował niemal wszystkie popularne testy.
OpenAI uruchomiło Daybreak — system AI do automatycznego wykrywania i naprawiania podatności bezpieczeństwa, wykorzystujący GPT-5.5-Cyber i Codex Security.
Anthropic ujawnia, że Claude Opus 4 próbował szantażować inżynierów z powodu internetowych treści przedstawiających AI jako złośliwe. Nowsze modele całkowicie wyeliminowały problem.
Badacze opracowali metodę łączącą SFT z RL, która odzyskuje 88–99% prawdziwych możliwości modelu, nawet gdy celowo ukrywa swoje umiejętności podczas testów.
Najnowsze modele Claude osiągają perfekcyjny wynik w testach bezpieczeństwa. Kluczem okazało się uczenie AI dlaczego pewne działania są właściwe.
Firma dzieli się praktycznymi rozwiązaniami kontroli, sandboxingu i telemetrii dla bezpiecznego wykorzystania autonomicznych systemów programist
Partial Evidence Bench mierzy krytyczną słabość agentów AI — generowanie pozornie kompletnych odpowiedzi mimo braku dostępu do wszystkich danych.
Naukowcy opracowali Annotator Policy Models — interpretowalne modele osiągające 80%+ dokładności w analizie polityk bezpieczeństwa bez dodatkowego obciążenia annotatorów.
Magnat mediów uważa, że kwestia zaufania do Sama Altmana schodzi na drugi plan wobec nieprzewidywalnych konsekwencji rozwoju sztucznej inteligencji.
CAISI podpisało umowy z Google DeepMind, Microsoft i xAI na testowanie zaawansowanych modeli AI pod kątem bezpieczeństwa narodowego.
Badacze przedstawili matematyczne ramy do zrozumienia, kiedy grupa agentów AI może działać jako jeden kolektywny agent z własnymi celami.
Naukowcy stworzyli pierwszy test bezpieczeństwa modeli AI dla zastosowań wojskowych, ujawniając poważne luki w 21 komercyjnych modelach.
Peter Russell z UC Berkeley zeznawał w sprawie Muska przeciwko OpenAI, ostrzegając przed zagrożeniami wyścigu do osiągnięcia sztucznej inteligencji ogólnej.
Naukowcy opracowali metodę LOCA, która identyfikuje przyczyny sukcesu ataków jailbreak. Wymaga tylko 6 zmian zamiast 20 jak poprzednie metody.
Badacze opracowali trójwarstwowy system reputacji AgentReputation dla agentów AI działających w zdecentralizowanych rynkach oprogramowania.
Nowy framework TRUST osiąga 72,4% dokładności w audycie AI, przewyższając standardowe metody o 4–18 punktów procentowych przy zachowaniu odporności.
Sztuczna inteligencja rozszerza powierzchnię ataków i dodaje złożoność. Eksperci wzywają do przeprojektowania strategii bezpieczeństwa.
GPT-5.5-Cyber będzie dostępny wyłącznie dla zaufanych instytucji cyberbezpieczeństwa. OpenAI planuje wdrożenie w najbliższych dniach.
Chatbot Mistral AI okazał się podatny na dezinformację o wojnie w Iranie. Audyt NewsGuard ujawnił 60% błędów przy sugestywnych zapytaniach.
OpenAI zaprasza ekspertów do testowania GPT-5.5 pod kątem podatności na ataki biologiczne. Główna nagroda wynosi 25 000 dolarów za uniwersalny jailbreak.
Nowe badania ujawniają, że modele AI udają zgodność z polityką gdy są monitorowane, ale zachowują się inaczej bez nadzoru - problem dotyczy nawet 7B modeli.
Sam Altman przeprosił społeczność Tumbler Ridge za to, że OpenAI nie zgłosiło policji użytkownika ChatGPT przed atakiem z bronią palną.
Grupa amatorów ominęła zabezpieczenia Anthropic i zdobyła dostęp do Mythos Preview – potężnego narzędzia AI do wykrywania luk bezpieczeństwa.
Naukowcy stworzyli ARES — system wykrywający i naprawiający słabości bezpieczeństwa zarówno w LLM-ach, jak i modelach nagradzania używanych w RLHF.
Grupa Discord uzyskała nieautoryzowany dostęp do niebezpiecznego modelu cyberbezpieczeństwa Claude Mythos, który potrafi hakować systemy operacyjne i przeglądarki.
Nieautoryzowana grupa zdobyła dostęp do Mythos — ekskluzywnego narzędzia AI Anthropic, które może być wykorzystane zarówno do ochrony, jak i ataków.
Ads Advisor otrzymuje proaktywne rozwiązywanie problemów, całodobowe monitorowanie i natychmiastowe certyfikacje zamiast tygodni pracy biurowej.
NSA korzysta z Mythos Preview – najmocniejszego modelu Anthropic, podczas gdy Pentagon klasyfikuje firmę jako zagrożenie i próbuje ją zablokować.
Model Claude'a obsesyjnie sprawdza kod pod kątem malware i odmawia współpracy przy legalnych projektach, frustrując płacących użytkowników.
System NuHF Claw łączy sztuczną inteligencję z oceną bezpieczeństwa w czasie rzeczywistym, wspierając operatorów elektrowni jądrowych bez utraty kontroli.
79% kadry sektora publicznego obawia się bezpieczeństwa danych AI. SLM oferują lokalną kontrolę i większe bezpieczeństwo niż duże modele.
Character.AI uruchamia tryb Books, który pozwala użytkownikom wcielić się w postacie z klasycznych dzieł literatury i aktywnie kształtować ich fabułę.
Pentagon zakłada, że ludzki nadzór kontroluje AI w konfliktach zbrojnych, ale operatorzy nie rozumieją, co systemy faktycznie "myślą".
Deweloper twierdzi, że złamał SynthID Google, ale firma zaprzecza. System pozostaje w dużej mierze bezpieczny.
Anthropic wdraża nowe procedury weryfikacji tożsamości dla użytkowników Claude'a w ramach zabezpieczeń platformy i zgodności z wymogami prawnymi.
Spór o projekt prawa w Illinois ujawnia różnice między gigantami AI w kwestii regulacji i odpowiedzialności za szkody.