Nowy framework weryfikacji oparty na ontologii osiągnął 48,3% pokrycia regulacyjnego w testach na 1800 scenariuszach w czterech branżach regulowanych.

Źródło zdjęcia: arXiv.org
Naukowcy z Uniwersytetu opracowali nowe podejście do certyfikacji agentów AI dla przedsiębiorstw przed ich wdrożeniem w środowisku produkcyjnym. Badanie, opublikowane na arXiv, przedstawia framework weryfikacji oparty na ontologii, który ma wypełnić lukę między testowaniem możliwości wielkich modeli językowych a rzeczywistym wdrożeniem w firmach.
Proponowany system składa się z trzech głównych elementów. Agent Operational Envelope formalizuje przestrzeń certyfikacji obejmującą uprawnienia, ograniczenia domenowe, właściwości bezpieczeństwa, zasady zarządzania oraz poziomy autonomii. Pipeline generowania scenariuszy automatycznie wyprowadza scenariusze testowe: regulacyjne, operacyjne i adversarialne na podstawie ontologii. Trust Certificate zawiera atestem weryfikowalny maszynowo z gradowanymi werdyktami wdrożenia: zatwierdzony, warunkowy lub odrzucony.
Autorzy badania, Thanh Luong Tuan i Abhijit Sanyal, podkreślają, że obecne metody monitorowania po wdrożeniu, kontroli human-in-the-loop i zabezpieczeń na poziomie promptów oferują ograniczone gwarancje po uruchomieniu agenta w produkcji.
Kontrolowany pilot obejmował pięć komórek branża-reżim regulacyjny w Stanach Zjednoczonych i Wietnamie. System wygenerował 1800 scenariuszy, które zostały ocenione względem 125 wymogów regulacyjnych pochodzących z pierwotnych źródeł oraz 25 sztucznie wprowadzonych błędów.
Metoda ontologiczna (G4) nie tylko osiągnęła wyższe pokrycie regulacyjne, ale także najwyższą specyficzność domenową na poziomie 4,77 na 5,0 punktów (p = 2e-6). Przewaga nad metodami bazowymi i promptowaniem wspomaganym wyszukiwaniem nie utrzymała się jednak po korekcie Bonferroniego, co wskazuje na potrzebę dalszych badań.
Walidacja krzyżowa przeprowadzona na trzech rodzinach modeli językowych potwierdziła wzorzec przewagi ontologii nad personami. Łącznie przeanalizowano 5400 scenariuszy, co pozwoliło na statystyczne potwierdzenie robustności podejścia.
Wyniki badania ustanawiają generowanie scenariuszy oparte na ontologii jako wiarygodne uzupełnienie zestawów testowych opartych na personach, szczególnie w domenach intensywnie regulowanych. Framework może przyczynić się do zwiększenia zaufania do systemów AI w przedsiębiorstwach przed ich wdrożeniem produkcyjnym.

Biały Dom zmaga się z wewnętrznym konfliktem o regulacje sztucznej inteligencji po odwołaniu przez Trumpa dekretu wykonawczego w maju.

AI startup Suno pozyskał 400 mln dolarów przy wycenie 5,4 mld, stając się liderem AI muzyki. Ma 2 mln subskrybentów, ale walczy w sądzie z Universal i Sony.

CEO NVIDIA spotyka się z partnerami w Korei, przygotowując łańcuch dostaw AI na intensywne drugie półrocze. Robotyka ma być kolejnym kluczowym sektorem.