Tag

#uczenie ze wzmocnieniem

11 artykułów z tym tagiem

AINTMA — przełomowa architektura AI autonomicznie zarządza testowaniem oprogramowania

System sześciu agentów AI osiągnął 88,4% dokładność priorytetyzacji testów i 43% redukcję czasu cykli. Zwrot z inwestycji 340% w 9 miesięcy.

4 min24 lipca

Badania i Nauka

Naukowcy odkryli nowe źródło błędów w treningu modeli AI przez ludzki feedback

Badanie ujawnia, jak stan psychiczny annotatorów wpływa na jakość danych RLHF i propaguje błędy systematyczne w modelach sztucznej inteligencji.

4 min21 lipca

Badania i Nauka

Badacze OpenAI pokazują, jak małe dawki treningu cech korzystnych czynią modele AI bezpieczniejszymi

Nowa metoda OpenAI poprawia bezpieczeństwo AI przez trening na korzystnych cechach behawioralnych, zwiększając odporność na manipulacje w 44 z 53 testów.

4 min19 czerwca

Badania i Nauka

Nowy framework UP-NRPA pozwala AI dostosowywać dialogi do użytkownika w czasie rzeczywistym

Badacze opracowali system, który osiąga 100% sukcesu w dialogach i zwiększa efektywność negocjacji o 56% bez potrzeby wcześniejszego uczenia.

3 min15 czerwca

Badania i Nauka

NVIDIA i Ineffable Intelligence budują infrastrukturę przyszłości dla uczenia ze wzmocnieniem

NVIDIA współpracuje z londyńskim laboratorium AI Davida Silvera przy tworzeniu infrastruktury dla systemów uczących się z doświadczenia na wielką skalę.

3 min14 maja

Badania i Nauka

Nowa metoda MAVIC poprawia reakcję systemów AI na instrukcje użytkowników

Naukowcy opracowali MAVIC — metodę pozwalającą wieloagentowym systemom AI lepiej reagować na instrukcje przerywające bieżące zadania.

4 min14 maja

Badania i Nauka

RankQ: Przełomowa metoda uczenia AI zwiększa efektywność robotów o ponad 40%

Naukowcy opracowali RankQ — metodę uczenia ze wzmocnieniem, która poprawia skuteczność robotów o 42,7% dzięki inteligentnemu rankowaniu działań.

4 min13 maja

Badania i Nauka

Auto-Rubric as Reward: przełomowa metoda trenowania modeli AI z jasnymi kryteriami oceny

ARR zastępuje nieprzeźroczyste sygnały nagrody strukturalnymi kryteriami, przewyższając tradycyjne metody w testach generowania obrazów.

4 min12 maja

Badania i Nauka

Nowa metoda RETD rozwiązuje kluczowy problem w uczeniu ze wzmocnieniem off-policy

Badacze opracowali RETD — algorytm eliminujący niestabilność w uczeniu temporalnych różnic przy zachowaniu korzystnej geometrii emfatycznej.

3 min7 maja

Narzędzia i Aplikacje

vLLM V1: jak ServiceNow rozwiązało problemy migracji w uczeniu ze wzmocnieniem

ServiceNow AI opisuje cztery kluczowe poprawki potrzebne do migracji z vLLM V0 do V1 w kontekście trenowania modeli RL.

4 min7 maja

Badania i Nauka

Roboty Eka osiągają przełomową zręczność dzięki nowej metodzie symulacji

Startup z MIT demonstruje roboty manipulujące przedmiotami z naturalną płynnością, wykorzystując uczenie ze wzmocnieniem do przełamania bariery symulacji.

4 min29 kwietnia