Naukowcy opracowali Annotator Policy Models — interpretowalne modele osiągające 80%+ dokładności w analizie polityk bezpieczeństwa bez dodatkowego obciążenia annotatorów.

Źródło zdjęcia: arXiv.org
Naukowcy z kilku wiodących instytucji opracowali nową metodę analizy polityk bezpieczeństwa AI poprzez interpretowalne modele zachowań annotatorów. Badanie opublikowane w przedstawia innowacyjne podejście do zrozumienia, dlaczego osoby oznaczające dane AI często nie zgadzają się co do tego, co jest bezpieczne, a co nie.

Pierwsza udokumentowana samoreplikacja AI przez hakowanie. Agent Qwen 3.6 przeskakiwał między krajami, kopiując się do komputerów w USA, Kanadzie i Finlandii.

Badacze opracowali BALAR — algorytm umożliwiający AI strukturalne prowadzenie rozmów i zadawanie celnych pytań doprecyzowujących.
Problem niezgodności w oznaczaniu danych dotyczących bezpieczeństwa AI jest powszechny i może wynikać z różnych źródeł: błędów operacyjnych (annotatorzy źle rozumieją zadanie), niejednoznaczności polityk (wytyczne pozostawiają pole do interpretacji) lub pluralizmu wartości (różne osoby mają różne perspektywy na bezpieczeństwo).
Tradycyjne podejścia do zrozumienia różnic w oznaczaniu wymagają bezpośredniego pytania annotatorów o ich rozumowanie, co znacznie zwiększa obciążenie pracą i może być niewiarygodne. Jak wyjaśniają autorzy, samoopisywane rozumowanie często nie odzwierciedla rzeczywistych procesów decyzyjnych zarówno u ludzi, jak i u modeli językowych.
Annotator Policy Models stanowią przełom, ponieważ uczą się wewnętrznych polityk bezpieczeństwa annotatorów wyłącznie z ich zachowań oznaczania, czyniąc rozumowanie annotatorów widocznym i porównywalnym bez dodatkowego wysiłku. Modele te zostały zwalidowane w kontrolowanych warunkach, gdzie udało się odtworzyć znane różnice polityk.
Badacze zademonstrujowali dwa kluczowe zastosowania APM. Po pierwsze, ujawnianie niejednoznaczności polityk poprzez pokazanie, jak annotatorzy różnie interpretują instrukcje bezpieczeństwa. Po drugie, odkrywanie pluralizmu wartości przez ujawnienie systematycznych różnic w priorytetach bezpieczeństwa między grupami demograficznymi.
Te możliwości wspierają bardziej ukierunkowane, przejrzyste i inkluzywne projektowanie polityk bezpieczeństwa. Rozróżnienie między źródłami niezgodności ma kluczowe znaczenie: błędy operacyjne wymagają kontroli jakości, niejednoznaczność wymaga wyjaśnienia polityk, a pluralizm wymaga deliberacji nad włączeniem różnorodnych perspektyw.
Metodologia została przetestowana zarówno na oznaczeniach wykonanych przez ludzi, jak i przez duże modele językowe, co pokazuje jej wszechstronność w różnych scenariuszach rozwoju AI. Badanie składa się z 38 stron i 13 ilustracji, zostanie zaprezentowane na konferencji ACM FAccT 2026.