Badanie AllenAI ujawnia, że modele hybrydowe przewyższają transformery przy słowach znaczących, ale przegrywają przy powtórzeniach i zamykających nawiasach.

Źródło zdjęcia: huggingface.co
Zespół AllenAI opublikował szczegółowe badanie porównujące zachowanie modeli hybrydowych i transformerów na poziomie pojedynczych tokenów. Analiza dostępna na Hugging Face ujawnia, w jakich obszarach architektura hybrydowa Olmo Hybrid przewyższa tradycyjny transformer Olmo 3, a gdzie przegrywa.
Badacze z AllenAI przeprowadzili bezpośrednie porównanie swoich najsilniejszych modeli 7B — transformera Olmo 3 i hybrydowego Olmo Hybrid — analizując różnice w przewidywaniu poszczególnych typów tokenów w różnych rodzajach tekstu.
Kluczem do wiarygodności badania było zapewnienie identycznych warunków dla obu modeli. Olmo 3 i Olmo Hybrid zostały zbudowane z użyciem tych samych danych treningowych, tokenizera i przepisu treningowego — jedyna różnica to architektura. Pozwoliło to na izolację wpływu samej struktury modelu na jakość przewidywań.
Model transformerowy wykorzystuje mechanizm uwagi we wszystkich warstwach, umożliwiając bezpośredni dostęp do każdego wcześniejszego tokenu jednocześnie. To sprawia, że transformer doskonale radzi sobie z przywoływaniem konkretnych tokenów, nawet z odległych fragmentów tekstu. Koszt obliczeniowy rośnie jednak gwałtownie wraz z długością wejścia.
Model hybrydowy zachowuje kilka warstw uwagi, ale zastępuje pozostałe warstwami rekurencyjnymi. Te ostatnie przetwarzają tokeny sekwencyjnie od lewej do prawej, utrzymując pamięć o stałym rozmiarze. Choć ta pamięć jest skompresowana i stratna, doskonale nadaje się do śledzenia informacji zmieniających się w czasie.
W tekstach prozatorskich najwyraźniejszy podział występuje między słowami treściowymi a funkcyjnymi. Model hybrydowy osiąga szczególnie dużą przewagę przy przysłówkach i przymiotnikach, a także przy niektórych kategoriach słów funkcyjnych jak „there” w konstrukcjach egzystencjalnych.
Badacze przeanalizowali również zachowanie modeli przy różnych typach strukturalnych. Zamykające nawiasy klamrowe — w przeciwieństwie do otwierających — pokazały znikomą przewagę modelu hybrydowego. To potwierdza teoretyczne oczekiwania: mechanizm uwagi wystarczy do reprezentacji dopasowywania nawiasów.
Drugi obszar, gdzie przewaga hybrydów niemal znika, to tokeny powtarzające wcześniejsze fragmenty tekstu. Badacze identyfikowali takie przypadki poprzez wyszukiwanie powtarzających się n-gramów. Tu transformer wykorzystuje swoją siłę w bezpośrednim dostępie do wcześniejszych tokenów.
Wyniki potwierdzają teoretyczne przewagi każdej architektury: transformery dominują tam, gdzie potrzebne jest precyzyjne przywoływanie, podczas gdy modele hybrydowe przewyższają przy zadaniach wymagających sekwencyjnego przetwarzania i śledzenia kontekstu.

Naukowcy stworzyli RIFT-Bench — pierwszy zunifikowany framework do oceny bezpieczeństwa różnorodnych systemów agentowych AI w dynamicznym red-teamingu.

iOS 27 wprowadza funkcje AI zintegrowane z istniejącymi aplikacjami: dzielenie rachunków, aktualizowanie haseł i inteligentne sugestie w Wiadomościach.

NVIDIA i AWS wprowadzają nowe instancje EC2 G7 z GPU Blackwell oraz przyspieszenie wektorowe w OpenSearch dla łatwiejszego wdrażania AI.