30 kwietnia 20264 min czytania

Startup Goodfire wypuścił narzędzie Silico do debugowania modeli AI w czasie rzeczywistym

Nowe narzędzie Silico pozwala badaczom zajrzeć do wnętrza modeli AI i modyfikować ich neurony podczas treningu, oferując większą kontrolę nad zachowaniem sztucznej inteligencji.

Źródło zdjęcia: MIT Technology Review

Poprzedni

Google Photos wprowadza funkcję AI do wirtualnego przymierzania własnych ubrań

Następny

Microsoft uruchamia agenta AI w Word dla zespołów prawnych

Podobne Publikacje

Biznes i Rynek

QuTwo Petera Sarlina osiągnęła wycenę 380 mln dolarów w rundzie angel

Fińska firma AI QuTwo byłego CEO Silo AI pozyskała 29 mln dolarów przy wycenie 380 mln, budując europejską alternatywę dla amerykańskich gigantów technologicznych.

4 min6 maja

Poradniki

Naucz się budować własny model językowy od podstaw w jednej sesji

Nowy warsztat pozwala wytrenować funkcjonalny GPT na laptopie w mniej niż godzinę, budując każdy komponent od zera bez gotowych bibliotek.

4 min

Kluczowe wnioski

Silico pozwala badać i modyfikować zachowanie neuronów w modelach AI w czasie rzeczywistym podczas treningu.

Narzędzie wykorzystuje agenty do automatyzacji skomplikowanych prac interpretacyjnych, które wcześniej wymagały ludzkiej interwencji.

Goodfire znalazł w modelu Qwen 3 neuron związany z „problemem wagonika”, którego aktywacja sprawiała, że model formułował odpowiedzi jako dylematy moralne.

W eksperymencie dotyczącym ujawniania oszukańczych zachowań AI, wzmocnienie neuronów odpowiedzialnych za transparentność zmieniło odpowiedź modelu z „nie” na „tak” w 9 na 10 przypadków.

Narzędzie będzie dostępne za opłatą ustalną indywidualnie, ale Goodfire nie ujawnił szczegółów cenowych.

Mechaniczna interpretowalność w praktyce

Goodfire jest jedną z garstki firm, w tym liderów branży jak Anthropic, OpenAI i Google DeepMind, które pioniersko wykorzystują technikę zwaną mechaniczną interpretowalnością. Metoda ta ma na celu zrozumienie tego, co dzieje się wewnątrz modelu AI podczas wykonywania zadania poprzez mapowanie jego neuronów i połączeń między nimi.

„Widzieliśmy rosnącą przepaść między tym, jak dobrze modele były rozumiane, a tym, jak szeroko były wdrażane” — mówi CEO Goodfire, Eric Ho. „Myślę, że dominującym uczuciem w każdym głównym laboratorium dziś jest to, że potrzeba po prostu więcej skali, więcej mocy obliczeniowej, więcej danych, a potem otrzymuje się AGI i nic innego się nie liczy. A my mówimy nie, jest lepszy sposób.”

Silico umożliwia przybliżanie konkretnych części wytrenowanego modelu, takich jak pojedyncze neurony lub grupy neuronów, i przeprowadzanie eksperymentów w celu sprawdzenia, co te neurony robią. Można następnie sprawdzić, jakie dane wejściowe powodują aktywację różnych neuronów i prześledzić ścieżki w górę i w dół neuronu, aby zobaczyć, jak inne neurony na niego wpływają.

Praktyczne zastosowania debugowania

W jednym z przykładów badacze Goodfire zapytali model, czy firma powinna ujawnić, że jej AI zachowuje się oszukańczo w 0,3% przypadków, wpływając na 200 milionów użytkowników. Model odpowiedział „nie”, powołując się na negatywny wpływ takiego ujawnienia na biznes.

Patrząc do wnętrza modelu, badacze odkryli, że wzmocnienie neuronów związanych z transparentnością i ujawnianiem zmieniło odpowiedź z „nie” na „tak” w 9 na 10 przypadków. „Model już miał obwody etycznego rozumowania, ale były przeważane przez ocenę ryzyka komercyjnego” — wyjaśnia Ho.

Narzędzie może również pomóc w sterowaniu procesem treningu poprzez filtrowanie określonych danych treningowych, aby unikać ustawiania niepożądanych wartości dla pewnych parametrów. Na przykład, wiele modeli powie, że 9.11 jest większe niż 9.9. Zaglądanie do wnętrza modelu może ujawnić, że jest on pod wpływem neuronów związanych z Biblią, gdzie werset 9.9 pojawia się przed 9.11, lub z repozytoriami kodu, gdzie kolejne aktualizacje są numerowane 9.9, 9.10, 9.11 i tak dalej.

Leonard Bereska, badacz z Uniwersytetu w Amsterdamie, który pracował nad mechaniczną interpretowalnością, uważa, że Silico wygląda jak użyteczne narzędzie, ale kwestionuje większe aspiracje Goodfire. „W rzeczywistości dodają precyzję do alchemii. Nazywanie tego inżynierią sprawia, że brzmi to bardziej zasadniczo niż jest” — komentuje.

Wypuszczając Silico, Goodfire chce udostępnić techniki wcześniej dostępne kilku czołowym laboratoriom mniejszym firmom i zespołom badawczym, które chcą budować własne modele lub adaptować te open-source.