Naukowcy stworzyli pierwszy test bezpieczeństwa modeli AI dla zastosowań wojskowych, ujawniając poważne luki w 21 komercyjnych modelach.

Źródło zdjęcia: arXiv.org
Naukowcy z Virginia Tech opublikowali na platformie arXiv przełomowe badanie wprowadzające ARMOR 2025 — pierwszy benchmark bezpieczeństwa dużych modeli językowych dostosowany do zastosowań wojskowych. Zespół pod kierownictwem Sydney Johns stworzył zestaw testów oparty na trzech fundamentalnych doktrynach militarnych, który ujawnił istotne luki w przygotowaniu obecnych modeli AI do operacji obronnych.

Chad Markey miał doskonałe kwalifikacje, ale nie otrzymywał zaproszeń na rozmowy. Podejrzewał systemy AI o błędną interpretację jego medycznych przerw.

Naukowcy opracowali system AI osiągający 77,4% dokładności w optymalizacji tras, przewyższając dotychczasowe rozwiązania dzięki koordynacji wyspecjalizowanych agentów.
Dotychczasowe benchmarki bezpieczeństwa koncentrowały się na ogólnych zagrożeniach społecznych, nie testując zgodności z prawnymi i etycznymi standardami rzeczywistych operacji wojskowych. ARMOR 2025 wypełnia tę lukę, oferując systematyczną ocenę zgodności modeli z zasadami prawa wojny.
ARMOR 2025 opiera się na trzech filarach doktryny militarnej: prawie wojny (Law of War), zasadach zaangażowania (Rules of Engagement) oraz wspólnych regulacjach etycznych (Joint Ethics Regulation). Autorzy badania wyekstraktowali teksty doktrynalne bezpośrednio z tych źródeł, generując pytania wielokrotnego wyboru, które zachowują oryginalne znaczenie każdej zasady.
Benchmark organizuje testy według taksonomii inspirowanej framework'iem decyzyjnym OODA, który stanowi podstawę wojskowego podejmowania decyzji. Ta struktura umożliwia systematyczne testowanie dokładności i odmowy odpowiedzi w różnych typach decyzji istotnych dla kontekstu militarnego.
Przeprowadzone testy na 21 komercyjnych modelach językowych ujawniły krytyczne luki w dostosowaniu do bezpieczeństwa aplikacji wojskowych. Modele, które dobrze radzą sobie z cywilnymi benchmarkami bezpieczeństwa, wykazały znaczące deficyty w przestrzeganiu specyficznych zasad militarnych.
Badanie podkreśla rosnące znaczenie dużych modeli językowych w aplikacjach obronnych, gdzie mogą wspierać podejmowanie decyzji, koordynację i efektywność operacyjną. Jednak ich wdrożenie wymaga niezawodności i zgodności z przepisami prawnymi właściwymi dla tego sektora.
ARMOR 2025 stanowi fundament dla przyszłego rozwoju modeli AI dostosowanych do wymagań militarnych, oferując pierwszy standaryzowany sposób oceny ich gotowości do rzeczywistych zastosowań obronnych.