Nowe narzędzie Silico pozwala badaczom zajrzeć do wnętrza modeli AI i modyfikować ich neurony podczas treningu, oferując większą kontrolę nad zachowaniem sztucznej inteligencji.

Źródło zdjęcia: MIT Technology Review
Startup Goodfire z San Francisco wypuścił nowe narzędzie o nazwie Silico, które pozwala badaczom i inżynierom zajrzeć do wnętrza modeli AI i dostosować ich parametry podczas treningu. Może to dać twórcom modeli znacznie większą kontrolę nad tym, jak ta technologia jest budowana, niż wcześniej sądzono, że to możliwe. Szczegóły w MIT Technology Review.
Goodfire twierdzi, że Silico to pierwsze gotowe narzędzie tego typu, które może pomóc programistom w debugowaniu wszystkich etapów procesu rozwoju — od budowania zbioru danych po trenowanie modelu. Firma chce uczynić budowanie modeli AI mniej alchemią, a bardziej nauką.
Goodfire jest jedną z garstki firm, w tym liderów branży jak Anthropic, OpenAI i Google DeepMind, które pioniersko wykorzystują technikę zwaną mechaniczną interpretowalnością. Metoda ta ma na celu zrozumienie tego, co dzieje się wewnątrz modelu AI podczas wykonywania zadania poprzez mapowanie jego neuronów i połączeń między nimi.
„Widzieliśmy rosnącą przepaść między tym, jak dobrze modele były rozumiane, a tym, jak szeroko były wdrażane” — mówi CEO Goodfire, Eric Ho. „Myślę, że dominującym uczuciem w każdym głównym laboratorium dziś jest to, że potrzeba po prostu więcej skali, więcej mocy obliczeniowej, więcej danych, a potem otrzymuje się AGI i nic innego się nie liczy. A my mówimy nie, jest lepszy sposób.”
Silico umożliwia przybliżanie konkretnych części wytrenowanego modelu, takich jak pojedyncze neurony lub grupy neuronów, i przeprowadzanie eksperymentów w celu sprawdzenia, co te neurony robią. Można następnie sprawdzić, jakie dane wejściowe powodują aktywację różnych neuronów i prześledzić ścieżki w górę i w dół neuronu, aby zobaczyć, jak inne neurony na niego wpływają.
W jednym z przykładów badacze Goodfire zapytali model, czy firma powinna ujawnić, że jej AI zachowuje się oszukańczo w 0,3% przypadków, wpływając na 200 milionów użytkowników. Model odpowiedział „nie”, powołując się na negatywny wpływ takiego ujawnienia na biznes.
Patrząc do wnętrza modelu, badacze odkryli, że wzmocnienie neuronów związanych z transparentnością i ujawnianiem zmieniło odpowiedź z „nie” na „tak” w 9 na 10 przypadków. „Model już miał obwody etycznego rozumowania, ale były przeważane przez ocenę ryzyka komercyjnego” — wyjaśnia Ho.
Narzędzie może również pomóc w sterowaniu procesem treningu poprzez filtrowanie określonych danych treningowych, aby unikać ustawiania niepożądanych wartości dla pewnych parametrów. Na przykład, wiele modeli powie, że 9.11 jest większe niż 9.9. Zaglądanie do wnętrza modelu może ujawnić, że jest on pod wpływem neuronów związanych z Biblią, gdzie werset 9.9 pojawia się przed 9.11, lub z repozytoriami kodu, gdzie kolejne aktualizacje są numerowane 9.9, 9.10, 9.11 i tak dalej.
Leonard Bereska, badacz z Uniwersytetu w Amsterdamie, który pracował nad mechaniczną interpretowalnością, uważa, że Silico wygląda jak użyteczne narzędzie, ale kwestionuje większe aspiracje Goodfire. „W rzeczywistości dodają precyzję do alchemii. Nazywanie tego inżynierią sprawia, że brzmi to bardziej zasadniczo niż jest” — komentuje.
Wypuszczając Silico, Goodfire chce udostępnić techniki wcześniej dostępne kilku czołowym laboratoriom mniejszym firmom i zespołom badawczym, które chcą budować własne modele lub adaptować te open-source.

Studio Amazon MGM wycofało się z wydania filmu „Artificial” o CEO OpenAI. Produkcja z Andrew Garfieldem opowiada o dramatycznym zwolnieniu i przywróceniu Altmana.

Nowe badanie Pew Research pokazuje paradoks: użytkowanie chatbotów AI rośnie dynamicznie, ale 63% Amerykanów obawia się tempa rozwoju technologii.

Apple wprowadzi AirPods z kamerami w 2027 roku dla wsparcia AI oraz drugą generację składanego iPhone'a. Planuje też specjalną wersję na 20. rocznicę.