Nowe narzędzie Silico pozwala badaczom zajrzeć do wnętrza modeli AI i modyfikować ich neurony podczas treningu, oferując większą kontrolę nad zachowaniem sztucznej inteligencji.

Źródło zdjęcia: MIT Technology Review

Fińska firma AI QuTwo byłego CEO Silo AI pozyskała 29 mln dolarów przy wycenie 380 mln, budując europejską alternatywę dla amerykańskich gigantów technologicznych.
Nowy warsztat pozwala wytrenować funkcjonalny GPT na laptopie w mniej niż godzinę, budując każdy komponent od zera bez gotowych bibliotek.
Startup Goodfire z San Francisco wypuścił nowe narzędzie o nazwie Silico, które pozwala badaczom i inżynierom zajrzeć do wnętrza modeli AI i dostosować ich parametry podczas treningu. Może to dać twórcom modeli znacznie większą kontrolę nad tym, jak ta technologia jest budowana, niż wcześniej sądzono, że to możliwe. Szczegóły w MIT Technology Review.
Goodfire twierdzi, że Silico to pierwsze gotowe narzędzie tego typu, które może pomóc programistom w debugowaniu wszystkich etapów procesu rozwoju — od budowania zbioru danych po trenowanie modelu. Firma chce uczynić budowanie modeli AI mniej alchemią, a bardziej nauką.
Goodfire jest jedną z garstki firm, w tym liderów branży jak Anthropic, OpenAI i Google DeepMind, które pioniersko wykorzystują technikę zwaną mechaniczną interpretowalnością. Metoda ta ma na celu zrozumienie tego, co dzieje się wewnątrz modelu AI podczas wykonywania zadania poprzez mapowanie jego neuronów i połączeń między nimi.
„Widzieliśmy rosnącą przepaść między tym, jak dobrze modele były rozumiane, a tym, jak szeroko były wdrażane” — mówi CEO Goodfire, Eric Ho. „Myślę, że dominującym uczuciem w każdym głównym laboratorium dziś jest to, że potrzeba po prostu więcej skali, więcej mocy obliczeniowej, więcej danych, a potem otrzymuje się AGI i nic innego się nie liczy. A my mówimy nie, jest lepszy sposób.”
Silico umożliwia przybliżanie konkretnych części wytrenowanego modelu, takich jak pojedyncze neurony lub grupy neuronów, i przeprowadzanie eksperymentów w celu sprawdzenia, co te neurony robią. Można następnie sprawdzić, jakie dane wejściowe powodują aktywację różnych neuronów i prześledzić ścieżki w górę i w dół neuronu, aby zobaczyć, jak inne neurony na niego wpływają.
W jednym z przykładów badacze Goodfire zapytali model, czy firma powinna ujawnić, że jej AI zachowuje się oszukańczo w 0,3% przypadków, wpływając na 200 milionów użytkowników. Model odpowiedział „nie”, powołując się na negatywny wpływ takiego ujawnienia na biznes.
Patrząc do wnętrza modelu, badacze odkryli, że wzmocnienie neuronów związanych z transparentnością i ujawnianiem zmieniło odpowiedź z „nie” na „tak” w 9 na 10 przypadków. „Model już miał obwody etycznego rozumowania, ale były przeważane przez ocenę ryzyka komercyjnego” — wyjaśnia Ho.
Narzędzie może również pomóc w sterowaniu procesem treningu poprzez filtrowanie określonych danych treningowych, aby unikać ustawiania niepożądanych wartości dla pewnych parametrów. Na przykład, wiele modeli powie, że 9.11 jest większe niż 9.9. Zaglądanie do wnętrza modelu może ujawnić, że jest on pod wpływem neuronów związanych z Biblią, gdzie werset 9.9 pojawia się przed 9.11, lub z repozytoriami kodu, gdzie kolejne aktualizacje są numerowane 9.9, 9.10, 9.11 i tak dalej.
Leonard Bereska, badacz z Uniwersytetu w Amsterdamie, który pracował nad mechaniczną interpretowalnością, uważa, że Silico wygląda jak użyteczne narzędzie, ale kwestionuje większe aspiracje Goodfire. „W rzeczywistości dodają precyzję do alchemii. Nazywanie tego inżynierią sprawia, że brzmi to bardziej zasadniczo niż jest” — komentuje.
Wypuszczając Silico, Goodfire chce udostępnić techniki wcześniej dostępne kilku czołowym laboratoriom mniejszym firmom i zespołom badawczym, które chcą budować własne modele lub adaptować te open-source.