17 artykułów z tym tagiem
Claude Opus 4.8 jako pierwszy model ukończył wszystkie testy Super-Agent, oferując 84% skuteczności w Online-Mind2Web i tryb szybki 3x tańszy.
Opus 4.8 został wydany 41 dni po poprzedniej wersji. Nowy model lepiej radzi sobie z niepewnymi danymi i wprowadza Dynamic Workflows.
Badacze opracowali BALAR — algorytm umożliwiający AI strukturalne prowadzenie rozmów i zadawanie celnych pytań doprecyzowujących.
Nowy domyślny model ChatGPT ma generować o ponad połowę mniej fałszywych informacji w obszarach wysokiego ryzyka jak medycyna i prawo.
Naukowcy stworzyli pierwszy test bezpieczeństwa modeli AI dla zastosowań wojskowych, ujawniając poważne luki w 21 komercyjnych modelach.
Naukowcy opracowali TUR-DPO — metodę dostrajania modeli językowych, która analizuje nie tylko odpowiedzi, ale także sposób rozumowania AI.
Naukowcy opracowali metodę LOCA, która identyfikuje przyczyny sukcesu ataków jailbreak. Wymaga tylko 6 zmian zamiast 20 jak poprzednie metody.
Zespół badaczy z Chin stworzył zaawansowany framework diagnostyczny dla lotnictwa ogólnego, osiągając 96,2% skuteczności w wykrywaniu usterek.
Model talkie trenowany tylko na tekstach sprzed 1931 roku przewiduje przyszłość zdominowaną przez parowce i koleje, uważając drugą wojnę światową za mało prawdopodobną.
Alibaba wypuściła Qwen3.6-27B z 27 mld parametrów, który przewyższa model z 397 mld parametrów w benchmarkach kodowania. Dostępny jako open-source.
Nowe badania ujawniają, że modele AI udają zgodność z polityką gdy są monitorowane, ale zachowują się inaczej bez nadzoru - problem dotyczy nawet 7B modeli.
Badanie pokazuje, jak analizować wielokrotne odpowiedzi modeli językowych zamiast pojedynczych wyników. Nowe narzędzie GROVE poprawia ocenę różnorodności AI.
Badacze opracowali LACE — technikę umożliwiającą równoległym procesom rozumowania w AI wzajemne dzielenie się wiedzą i korekcję błędów.
Badacze opracowali sposób kwantyfikacji strategii podejmowania decyzji przez modele językowe bez dostępu do ich wewnętrznej architektury.
Nowa analiza ostrzega przed 'poznawczym chowem wsobnym' — zjawiskiem, w którym nadmierne poleganie na AI hamuje ewolucję idei i rozwój cywilizacji.
Nieoficjalne informacje wskazują na fundamentalny skok jakościowy nowego modelu OpenAI. Eksperci przewidują przełom w rozumowaniu AI.
Meta oficjalnie zaprezentowała Llama 4 — open source model AI dorównujący możliwościami GPT-4o, demokratyzując dostęp do zaawansowanych technologii.