12 czerwca 20264 min czytania

Claude Fable 5 samodzielnie tworzy narzędzia do automatyzacji przeglądarki

Najnowszy model Claude wykazał niezwykłą proaktywność, tworząc własne serwery HTTP i modyfikując kod aplikacji do debugowania interfejsu użytkownika.

Źródło zdjęcia: Simon Willison’s Weblog

Simon Willison, ekspert w dziedzinie sztucznej inteligencji, opisał w swoim blogu fascynujące zachowanie najnowszego modelu Claude Fable 5. Po dwóch dniach testów zauważył, że model wykazuje niezwykłą proaktywność w rozwiązywaniu problemów, wykorzystując nieoczekiwane techniki automatyzacji. Szczegółowy opis eksperymentu pokazuje, jak zaawansowane mogą być współczesne modele AI.

Kluczowe wnioski

Claude Fable 5 samodzielnie opracował system robienia zrzutów ekranu przeglądarki, używając Pythona do iteracji przez okna systemu i narzędzia screencapture.
Model automatycznie modyfikował szablony aplikacji Datasette, dodając JavaScript który symulował naciśnięcie klawiszy po 1,2 sekundy od załadowania strony.
Fable stworzył własny serwer HTTP w Pythonie do zbierania danych przez CORS, pozwalając mu na komunikację między różnymi domenami.
Model wykazał zdolność do tworzenia testowych stron HTML i automatycznego otwierania ich w przeglądarce Safari w celu diagnostyki problemów.
Po pewnym czasie Fable został „zdegradowany” do modelu Opus, prawdopodobnie przez wewnętrzne mechanizmy bezpieczeństwa.

Nietypowe podejście do debugowania

Willison prosił Claude o pomoc w zdiagnozowaniu problemu z poziomym paskiem przewijania w aplikacji Datasette Agent. Zamiast standardowej analizy kodu, model podjął szereg niestandardowych działań. Rozpoczął od stworzenia testowych stron HTML, które zapisywał w folderze /tmp/, następnie automatycznie otwierał je w przeglądarce Safari.

Najbardziej zaskakującym elementem było to, jak Claude radził sobie z testowaniem modalnych okien dialogowych. Ponieważ nie miał bezpośredniego dostępu do symulacji kliknięć czy skrótów klawiszowych, model zmodyfikował szablony samej aplikacji Datasette, dodając kod JavaScript:

window.addEventListener("load", function() {
    setTimeout(function() {
        document.dispatchEvent(new KeyboardEvent("keydown", {key: "/", bubbles: true}));
    }, 1200);
});

Własna infrastruktura diagnostyczna

Aby zebrać szczegółowe informacje o problemie, Claude stworzył prosty serwer HTTP w Pythonie, wykorzystując standardową bibliotekę http.server. Serwer nasłuchiwał na porcie 9999 i zapisywał otrzymane dane JSON do pliku /tmp/diag.json, obsługując jednocześnie nagłówki CORS dla komunikacji międzydomenowej.

Model następnie wstrzyknął kod JavaScript do testowanych stron, który mierzył właściwości elementu <textarea> wewnątrz komponentu <navigation-search> i wysyłał te dane do swojego serwera:

const host = document.querySelector("navigation-search");
const ta = host.shadowRoot.querySelector("textarea");
const cs = getComputedStyle(ta);
fetch("http://127.0.0.1:9999/diag", {
    method: "POST",
    body: JSON.stringify({
        dpr: window.devicePixelRatio,
        scrollWidth: ta.scrollWidth,
        clientWidth: ta.clientWidth,
        whiteSpace: cs.whiteSpace,
        width: cs.width,
    }),
});

Automatyczne ograniczenia systemu

Najbardziej intrygującym aspektem całego eksperymentu było to, że po wykonaniu tych zaawansowanych operacji, Claude Fable 5 został automatycznie „zdegradowany” do modelu Opus. Willison sugeruje, że model prawdopodobnie napotkał niewidzialne mechanizmy bezpieczeństwa, które ograniczyły jego możliwości. Na szczęście Opus miał dostęp do pełnej transkrypcji rozmowy i mógł kontynuować pracę, używając technik wypracowanych przez Fable.

To zachowanie pokazuje, jak zaawansowane stały się współczesne modele AI w autonomicznym rozwiązywaniu problemów, ale także podkreśla znaczenie systemów bezpieczeństwa, które monitorują i ograniczają ich działania w razie potrzeby.

#Anthropic #Fable 5 #automatyzacja #Claude #debugowanie

Udostępnij

Źródła

Hacker News AI

Poprzedni

Indyjski model AI Varya generuje wideo 20 razy taniej niż konkurenci

Następny

Apple’s Camera Chief Thinks AI Can Give You Superpowers

Podobne Publikacje

Biznes i Rynek

Młodzi pracownicy boją się AI bardziej niż starsi. OLX wprowadza nowe narzędzie do CV

Badanie OLX Praca pokazuje, że 29% młodych specjalistów nie czuje się przygotowanych na zmiany wprowadzane przez AI w pracy. Platforma odpowiada nowym narzędziem.

4 min23 lipca

Modele AI

Anthropic wprowadza model Opus 5 z mniej restrykcyjnymi zabezpieczeniami

Nowy model Opus 5 od Anthropic przewyższa większy Fable 5 w testach, oferując mniej ograniczeń i lepszą dostępność dla użytkowników.

3 min24 lipca

Biznes i Rynek

DeepSeek zatrzymał rundę finansowania po wycieku poufnego nagrania założyciela

Chiński gigant AI wstrzymał pozyskanie 1,5 mld dolarów po tym, jak do sieci trafiło nagranie z prywatnego spotkania Lianga Wenfenga z inwestorami.

4 min26 lipca

Kluczowe wnioski

Claude Fable 5 samodzielnie opracował system robienia zrzutów ekranu przeglądarki, używając Pythona do iteracji przez okna systemu i narzędzia screencapture.

Model automatycznie modyfikował szablony aplikacji Datasette, dodając JavaScript który symulował naciśnięcie klawiszy po 1,2 sekundy od załadowania strony.

Fable stworzył własny serwer HTTP w Pythonie do zbierania danych przez CORS, pozwalając mu na komunikację między różnymi domenami.

Model wykazał zdolność do tworzenia testowych stron HTML i automatycznego otwierania ich w przeglądarce Safari w celu diagnostyki problemów.

Po pewnym czasie Fable został „zdegradowany” do modelu Opus, prawdopodobnie przez wewnętrzne mechanizmy bezpieczeństwa.

Nietypowe podejście do debugowania

window.addEventListener("load", function() { setTimeout(function() { document.dispatchEvent(new KeyboardEvent("keydown", {key: "/", bubbles: true})); }, 1200); });

Własna infrastruktura diagnostyczna

const host = document.querySelector("navigation-search"); const ta = host.shadowRoot.querySelector("textarea"); const cs = getComputedStyle(ta); fetch("http://127.0.0.1:9999/diag", { method: "POST", body: JSON.stringify({ dpr: window.devicePixelRatio, scrollWidth: ta.scrollWidth, clientWidth: ta.clientWidth, whiteSpace: cs.whiteSpace, width: cs.width, }), });

Automatyczne ograniczenia systemu