4 czerwca 20264 min czytania

Naukowcy opracowali system certyfikacji agentów AI dla przedsiębiorstw przed wdrożeniem

Nowy framework weryfikacji oparty na ontologii osiągnął 48,3% pokrycia regulacyjnego w testach na 1800 scenariuszach w czterech branżach regulowanych.

Źródło zdjęcia: arXiv.org

Naukowcy z Uniwersytetu opracowali nowe podejście do certyfikacji agentów AI dla przedsiębiorstw przed ich wdrożeniem w środowisku produkcyjnym. Badanie, opublikowane na arXiv, przedstawia framework weryfikacji oparty na ontologii, który ma wypełnić lukę między testowaniem możliwości wielkich modeli językowych a rzeczywistym wdrożeniem w firmach.

Kluczowe wnioski

Opracowano system trzech komponentów: Agent Operational Envelope definiujący przestrzeń certyfikacji, pipeline generowania scenariuszy opartych na ontologii oraz Trust Certificate z weryfikowalnym cyfrowo atestem.
Testowanie w czterech regulowanych branżach (fintech, bankowość, ubezpieczenia, ochrona zdrowia) w USA i Wietnamie wygenerowało 1800 scenariuszy sprawdzonych względem 125 wymogów regulacyjnych.
Generowanie oparte na ontologii (G4) osiągnęło 48,3% pokrycia regulacyjnego w porównaniu do 33,1% dla metody bazowej opartej na personach (p = 0,0006).
Walidacja krzyżowa na trzech rodzinach modeli (Claude Sonnet 4, Qwen 2.5 72B, Gemma 4 26B) z łącznie 5400 scenariuszami potwierdziła przewagę podejścia ontologicznego.

Framework weryfikacji przed wdrożeniem

Proponowany system składa się z trzech głównych elementów. Agent Operational Envelope formalizuje przestrzeń certyfikacji obejmującą uprawnienia, ograniczenia domenowe, właściwości bezpieczeństwa, zasady zarządzania oraz poziomy autonomii. Pipeline generowania scenariuszy automatycznie wyprowadza scenariusze testowe: regulacyjne, operacyjne i adversarialne na podstawie ontologii. Trust Certificate zawiera atestem weryfikowalny maszynowo z gradowanymi werdyktami wdrożenia: zatwierdzony, warunkowy lub odrzucony.

Autorzy badania, Thanh Luong Tuan i Abhijit Sanyal, podkreślają, że obecne metody monitorowania po wdrożeniu, kontroli human-in-the-loop i zabezpieczeń na poziomie promptów oferują ograniczone gwarancje po uruchomieniu agenta w produkcji.

Wyniki testów w branżach regulowanych

Kontrolowany pilot obejmował pięć komórek branża-reżim regulacyjny w Stanach Zjednoczonych i Wietnamie. System wygenerował 1800 scenariuszy, które zostały ocenione względem 125 wymogów regulacyjnych pochodzących z pierwotnych źródeł oraz 25 sztucznie wprowadzonych błędów.

Metoda ontologiczna (G4) nie tylko osiągnęła wyższe pokrycie regulacyjne, ale także najwyższą specyficzność domenową na poziomie 4,77 na 5,0 punktów (p = 2e-6). Przewaga nad metodami bazowymi i promptowaniem wspomaganym wyszukiwaniem nie utrzymała się jednak po korekcie Bonferroniego, co wskazuje na potrzebę dalszych badań.

Replikacja na różnych modelach

Walidacja krzyżowa przeprowadzona na trzech rodzinach modeli językowych potwierdziła wzorzec przewagi ontologii nad personami. Łącznie przeanalizowano 5400 scenariuszy, co pozwoliło na statystyczne potwierdzenie robustności podejścia.

Wyniki badania ustanawiają generowanie scenariuszy oparte na ontologii jako wiarygodne uzupełnienie zestawów testowych opartych na personach, szczególnie w domenach intensywnie regulowanych. Framework może przyczynić się do zwiększenia zaufania do systemów AI w przedsiębiorstwach przed ich wdrożeniem produkcyjnym.

#weryfikacja #przedsiębiorstwa #agenci AI #regulacje #certyfikacja AI

Udostępnij

Źródła

arXiv AI

Poprzedni

Ponad 60% ludzi korzysta ze sztucznej inteligencji w sprawach zdrowia psychicznego

Następny

Nvidia przedstawia metodologię task-seeded SDG dla modeli Nemotron

Podobne Publikacje

Badania i Nauka

Sztuczna inteligencja wykazuje większe uprzedzenia w rekrutacji niż ludzie

Badanie pokazuje, że modele AI są o 65% bardziej skłonne do stereotypizowania kandydatów do pracy niż ludzie, co rodzi pytania o sprawiedliwość.

4 min20 lipca

Biznes i Rynek

IBM z najgorszymi wynikami od lat — spadek sprzedaży mainframe'ów o 42%

IBM zanotowało 42-procentowy spadek sprzedaży mainframe'ów przez boom na AI. Akcje spadły o 25% po ostrzeżeniu kierownictwa.

4 min23 lipca

Narzędzia i Aplikacje

Adobe wprowadza generatywną AI do aplikacji fotograficznej Indigo

Eksperymentalna aplikacja Adobe Project Indigo otrzymała narzędzia AI do usuwania obiektów i generowania efektów, zmieniając kierunek z profesjonalnej fotografii na edycję AI.

4 min20 lipca

4 czerwca 20264 min czytania

Naukowcy opracowali system certyfikacji agentów AI dla przedsiębiorstw przed wdrożeniem

Nowy framework weryfikacji oparty na ontologii osiągnął 48,3% pokrycia regulacyjnego w testach na 1800 scenariuszach w czterech branżach regulowanych.

Źródło zdjęcia: arXiv.org

Kluczowe wnioski

Opracowano system trzech komponentów: Agent Operational Envelope definiujący przestrzeń certyfikacji, pipeline generowania scenariuszy opartych na ontologii oraz Trust Certificate z weryfikowalnym cyfrowo atestem.
Testowanie w czterech regulowanych branżach (fintech, bankowość, ubezpieczenia, ochrona zdrowia) w USA i Wietnamie wygenerowało 1800 scenariuszy sprawdzonych względem 125 wymogów regulacyjnych.
Generowanie oparte na ontologii (G4) osiągnęło 48,3% pokrycia regulacyjnego w porównaniu do 33,1% dla metody bazowej opartej na personach (p = 0,0006).
Walidacja krzyżowa na trzech rodzinach modeli (Claude Sonnet 4, Qwen 2.5 72B, Gemma 4 26B) z łącznie 5400 scenariuszami potwierdziła przewagę podejścia ontologicznego.

Framework weryfikacji przed wdrożeniem

Wyniki testów w branżach regulowanych

Replikacja na różnych modelach

#weryfikacja #przedsiębiorstwa #agenci AI #regulacje #certyfikacja AI

Udostępnij

Źródła

arXiv AI

Poprzedni

Ponad 60% ludzi korzysta ze sztucznej inteligencji w sprawach zdrowia psychicznego

Następny

Nvidia przedstawia metodologię task-seeded SDG dla modeli Nemotron

Podobne Publikacje

Badania i Nauka

Sztuczna inteligencja wykazuje większe uprzedzenia w rekrutacji niż ludzie

Badanie pokazuje, że modele AI są o 65% bardziej skłonne do stereotypizowania kandydatów do pracy niż ludzie, co rodzi pytania o sprawiedliwość.

4 min20 lipca

Biznes i Rynek

IBM z najgorszymi wynikami od lat — spadek sprzedaży mainframe'ów o 42%

IBM zanotowało 42-procentowy spadek sprzedaży mainframe'ów przez boom na AI. Akcje spadły o 25% po ostrzeżeniu kierownictwa.

4 min23 lipca

Narzędzia i Aplikacje

Adobe wprowadza generatywną AI do aplikacji fotograficznej Indigo

Eksperymentalna aplikacja Adobe Project Indigo otrzymała narzędzia AI do usuwania obiektów i generowania efektów, zmieniając kierunek z profesjonalnej fotografii na edycję AI.

4 min20 lipca