Badacze odkryli ukryte kotwice w wieloagentowej deliberacji LLM-ów•
Laureat Nagrody Nobla John Jumper opuszcza DeepMind i przechodzi do Anthropic•
UE nie wie czym jest deepfake — problem dla handlu detalicznego•
ChatGPT wprowadza zaplanowane zadania i zbliża się do roli osobistego asystenta AI•
Kompleksowa analiza dyfuzyjnych modeli językowych — alternatywa dla autoregresywnych LLM-ów•
Data2Story przekształca pliki CSV w weryfikowalne artykuły dziennikarskie za pomocą siedmiu agentów AI•
Test nowej Siri AI: spersonalizowany asystent z Google Gemini w iOS 27•
Od PGP do Mythos: dlaczego kontrola eksportu technologii cybernetycznych rzadko działa•
Naukowcy opracowali system AI do mierzenia zgodności programów informatycznych z wytycznymi CS2013 i CS2023•
Amazon MGM rezygnuje z filmu o Samie Altmanie i OpenAI•
Zakaz rządu USA może paradoksalnie pomóc marce Anthropic•
Amazon rezygnuje z filmu o OpenAI po podpisaniu umowy za 50 miliardów dolarów z firmą Altmana•
Generatywna AI przeżywa swój moment Herbalife•
Badacze OpenAI pokazują, jak małe dawki treningu cech korzystnych czynią modele AI bezpieczniejszymi•
Startup twierdzi, że przełamał matematyczne ograniczenie blokujące rozwój dużych modeli językowych•
Biały Dom tworzy regulacje AI w czasie rzeczywistym. Anthropic płaci cenę za chaos•
Elastic przejmuje startup DeductiveAI za maksymalnie 85 milionów dolarów•
Naukowcy opracowali nowy system zarządzania autonomicznymi agentami AI•
Barret Zoph ponownie opuścił OpenAI po zaledwie pięciu miesiącach•
Systemy AI dorównują lekarzom w najnowszych badaniach Nature, ale wyniki wskazują na ograniczoną przyszłość technologii•

Tag

#ARC-AGI-3

1 artykuł z tym tagiem

Najnowsze modele AI popełniają trzy systematyczne błędy rozumowania, pokazuje analiza ARC-AGI-3

GPT-5.5 i Opus 4.7 osiągają poniżej 1% w teście ARC-AGI-3. Analiza 160 sesji ujawniła trzy wzorce błędów: brak spójnego modelu świata, fałszywe analogie i sukces bez zrozumienia.

4 min2 maja