Model AI Mythos odkrył tysiące krytycznych luk w Firefoksie, zwiększając liczbę naprawionych błędów z 31 do 423 miesięcznie.

Źródło zdjęcia: TechCrunch

Dokumenty sądowe ujawniają, jak Microsoft obawiał się utraty OpenAI na rzecz Amazon i negatywnych komentarzy o platformie Azure w 2017–2018 roku.

Badacze opracowali BALAR — algorytm umożliwiający AI strukturalne prowadzenie rozmów i zadawanie celnych pytań doprecyzowujących.
Model Mythos firmy Anthropic wywołał rewolucję w podejściu Firefoksa do cyberbezpieczeństwa, odkrywając tysiące krytycznych luk w zabezpieczeniach, które przez lata pozostawały ukryte w kodzie przeglądarki. Mozilla opublikowała w czwartek szczegółowy raport o tym, jak nowy model AI radykalnie zmienił proces znajdowania błędów w ich oprogramowaniu.
Kiedy Anthropic zaprezentowało Mythos w kwietniu, ostrzegło jednocześnie deweloperów oprogramowania o potężnych możliwościach modelu w wykrywaniu podatności. Firma twierdzi, że system odkrył tysiące błędów o wysokiej krytyczności, które musiały zostać naprawione przed publicznym udostępnieniem modelu.
Jeszcze sześć miesięcy temu narzędzia AI do wyszukiwania błędów miały poważne ograniczenia, często zalewając zespoły bezpieczeństwa raportami niskiej jakości i fałszywymi alarmami. Mozilla podkreśla, że najnowsza generacja narzędzi przeszła punkt zwrotny, szczególnie dzięki systemom agentowym, które potrafią ocenić własną pracę i odfiltrować błędne wyniki.
„Trudno przecenić, jak bardzo ta dynamika zmieniła się dla nas w ciągu kilku krótkich miesięcy” — napisali badacze. „Po pierwsze, modele stały się znacznie bardziej wydajne. Po drugie, dramatycznie poprawiliśmy nasze techniki wykorzystywania tych modeli.”
Zespół Firefoksa opublikował szczegóły 12 odkrytych błędów, które obejmują nietypowe podatności sandbox oraz wspomniany 15-letni błąd w parsowaniu HTML. Brian Grinstead, wyróżniony inżynier Mozilla, potwierdził w rozmowie z TechCrunch: „Te rzeczy są nagle naprawdę bardzo dobre. Widzimy to w naszym własnym skanowaniu wewnętrznym, w zewnętrznych raportach o błędach i we wszystkich sygnałach z branży.”
Odkrywanie podatności w systemie sandbox Firefoksa jest szczególnie imponujące, biorąc pod uwagę złożoność wymaganych ataków. Model musi napisać skompromitowany patch dla przeglądarki, a następnie zaatakować najbezpieczniejszą część oprogramowania z nowo zaimplementowanym kodem. To delikatny, wieloetapowy proces wymagający zarówno kreatywności, jak i skrupulatnej uwagi.
Program bug bounty Mozilli oferuje badaczom do 20 000 dolarów za znalezienie błędu w sandbox Firefoksa — najwyższą dostępną nagrodę. Mimo wysokiej premii, Grinstead przyznaje, że Mythos znajduje więcej problemów z sandbox niż kiedykolwiek robili to ludzie. „Otrzymujemy je, ale nie w takiej objętości, jaką jesteśmy w stanie znaleźć za pomocą tej techniki” — powiedział.
Zespół Firefoksa nadal nie używa AI do naprawiania błędów, mimo udokumentowanych postępów w narzędziach do kodowania AI. Zespół prosi AI o napisanie poprawek dla każdego błędu, ale powstały kod zwykle nie może zostać wdrożony bezpośrednio i służy jako wzór dla ludzkiego inżyniera.
Miesiąc po zaprezentowaniu Mythos większość odkrytych błędów prawdopodobnie nie została jeszcze załatana, co utrudnia ocenę pełnego zakresu ich wpływu. Anthropic skrupulatnie przestrzega norm odpowiedzialnego ujawniania, ale prawdopodobnie źli aktorzy używają podobnych technik za kulisami, nawet jeśli ich modele nie są tak dobre.
CEO Anthropic Dario Amodei wyraził optymizm na niedawnym wydarzeniu, że nowe narzędzia ostatecznie będą faworyzować obrońców. „Jeśli dobrze się tym zajmiemy, możemy być w lepszej pozycji niż na początku, ponieważ naprawiliśmy wszystkie te błędy. Jest tylko tyle błędów do znalezienia. Myślę, że po drugiej stronie jest lepszy świat.”
Grinstead, mając do czynienia ze szczegółami technicznymi, prezentuje bardziej wyważone stanowisko: „To przydatne zarówno dla atakujących, jak i obrońców, ale posiadanie tego narzędzia przesuwa przewagę trochę na stronę obrony. Realistycznie, nikt jeszcze nie zna odpowiedzi na to pytanie.”