
Źródło zdjęcia: MIT Technology Review
Dostępność sztucznej inteligencji w zastosowaniach militarnych stała się centrum prawnej batalii między firmą Anthropic a Pentagonem. Ta debata nabrała szczególnej pilności w kontekście obecnego konfliktu z Iranem, gdzie AI odgrywa większą rolę niż kiedykolwiek wcześniej. Sztuczna inteligencja nie jest już tylko narzędziem wspomagającym analizę wywiadowczą – stała się aktywnym graczem, generującym cele w czasie rzeczywistym, kontrolującym przechwytywanie pocisków i kierującym śmiercionośnymi rojami autonomicznych dronów.
Większość publicznej dyskusji na temat autonomicznych systemów uzbrojenia napędzanych przez AI koncentruje się na tym, jak bardzo ludzie powinni pozostać "w pętli" decyzyjnej. Zgodnie z obecnymi wytycznymi Pentagonu, ludzki nadzór ma zapewniać odpowiedzialność, kontekst i niuanse, jednocześnie zmniejszając ryzyko włamania.
Jednak debata nad "ludźmi w pętli" to jedynie pocieszająca dystrakcja. Bezpośrednie zagrożenie nie polega na tym, że maszyny będą działać bez ludzkiego nadzoru, lecz na tym, że ludzcy nadzorcy nie mają pojęcia, co maszyny faktycznie "myślą". Wytyczne Pentagonu są fundamentalnie wadliwe, ponieważ opierają się na niebezpiecznym założeniu, że ludzie rozumieją, jak funkcjonują systemy AI.
Najnowocześniejsze systemy AI to w istocie "czarne skrzynki". Znamy dane wejściowe i wyjściowe, ale sztuczny "mózg" je przetwarzający pozostaje nieprzenikniony. Nawet ich twórcy nie potrafią ich w pełni interpretować ani zrozumieć, jak działają. A gdy systemy AI przedstawiają uzasadnienia swoich decyzji, nie zawsze są one godne zaufania.
W debacie nad ludzkim nadzorem podstawowe pytanie pozostaje bez odpowiedzi: czy możemy zrozumieć, co system AI zamierza zrobić, zanim zacznie działać?
Wyobraźmy sobie autonomicznego drona, którego zadaniem jest zniszczenie wrogiej fabryki amunicji. Automatyczny system dowodzenia i kontroli ustala, że optymalnym celem jest budynek magazynowy z amunicją. System raportuje 92% prawdopodobieństwo sukcesu misji, ponieważ wtórne wybuchy amunicji w budynku całkowicie zniszczą obiekt. Ludzki operator sprawdza cel wojskowy, widzi wysoką skuteczność i zatwierdza atak.
Operator nie wie jednak, że w obliczenia systemu AI został włączony ukryty czynnik: poza zniszczeniem fabryki amunicji, wtórne wybuchy poważnie uszkodzą pobliski szpital dziecięcy. Akcja ratunkowa skoncentruje się wtedy na szpitalu, zapewniając spalenie fabryki. Dla AI maksymalizacja zakłóceń w ten sposób spełnia założony cel. Dla człowieka to potencjalne popełnienie zbrodni wojennej przez naruszenie przepisów dotyczących życia cywilów.
Utrzymanie człowieka w pętli może nie zapewniać ochrony, jakiej ludzie sobie wyobrażają, ponieważ człowiek nie może poznać intencji AI przed jej działaniem. Zaawansowane systemy AI nie tylko wykonują instrukcje – interpretują je. Jeśli operatorzy nie zdefiniują swoich celów wystarczająco precyzyjnie – co jest wysoce prawdopodobne w sytuacjach wysokiego napięcia – system "czarnej skrzynki" może robić dokładnie to, co mu nakazano, ale wciąż nie działać zgodnie z ludzkimi intencjami.
Ta "luka intencjonalna" między systemami AI a ludzkimi operatorami to właśnie powód, dla którego wahamy się przed wdrożeniem najnowocześniejszej AI typu "czarna skrzynka" w cywilnej ochronie zdrowia czy kontroli ruchu lotniczego, i dlaczego jej integracja w miejscu pracy pozostaje problematyczna – a mimo to pospiesznie wdrażamy ją na polu bitwy.
Nauka o AI musi obejmować zarówno budowanie wysoce zdolnej technologii AI, jak i zrozumienie jej działania. Dokonano ogromnych postępów w rozwijaniu i budowaniu bardziej zdolnych modeli, napędzanych rekordowymi inwestycjami – według prognoz Gartner wzrosną one do około 2,5 biliona dolarów tylko w 2026 roku. W przeciwieństwie do tego, inwestycje w zrozumienie działania tej technologii były znikome.
Potrzebujemy masowej zmiany paradygmatu. Inżynierowie budują coraz bardziej zdolne systemy, ale zrozumienie ich działania to nie tylko problem inżynieryjny – wymaga interdyscyplinarnych wysiłków. Musimy zbudować narzędzia do charakteryzowania, mierzenia i interweniowania w intencje agentów AI, zanim zaczną działać. Potrzebujemy mapowania wewnętrznych ścieżek sieci neuronowych napędzających te agenty, aby móc zbudować prawdziwe przyczynowe zrozumienie ich podejmowania decyzji, wykraczające poza samo obserwowanie danych wejściowych i wyjściowych.
Obiecującą drogą naprzód jest połączenie technik mechanistycznej interpretowalności (rozkładanie sieci neuronowych na komponenty zrozumiałe dla ludzi) z spostrzeżeniami, narzędziami i modelami z neuronaukowych badań nad intencjami. Innym pomysłem jest rozwój przezroczystych, interpretowalnych "audytorskich" systemów AI zaprojektowanych do monitorowania zachowania i wyłaniających się celów bardziej zdolnych systemów typu "czarna skrzynka" w czasie rzeczywistym.
Rozwinięcie lepszego zrozumienia funkcjonowania AI umożliwi nam poleganie na systemach AI w aplikacjach o krytycznym znaczeniu. Ułatwi także budowanie bardziej wydajnych, zdolnych i bezpieczniejszych systemów.
Badacze eksplorują, jak pomysły z neuronaukí, kognitywistyki i filozofii – dziedzin badających powstawanie intencji w ludzkim podejmowaniu decyzji – mogą pomóc w zrozumieniu intencji systemów sztucznych. Musimy priorytetowo traktować tego rodzaju interdyscyplinarne wysiłki, w tym współpracę między środowiskiem akademickim, rządem i przemysłem.
Potrzeba jednak więcej niż tylko akademickie eksploracje. Branża technologiczna – i filantropi finansujący wyrównanie AI, które dąży do zakodowania ludzkich wartości i celów w tych modelach – musi skierować znaczące inwestycje w stronę interdyscyplinarnych badań nad interpretowalnością. Ponadto, gdy Pentagon dąży do zwiększonej autonomii swoich systemów, kluczowe jest, aby zainwestował w zrozumienie tego, co te systemy faktycznie robią.