15 maja 20264 min czytania

IBM Granite Embedding R2 — najlepsze wielojęzyczne embeddingi poniżej 100M parametrów

Nowe modele IBM obsługują 200+ języków z kontekstem 32K tokenów. Model 97M parametrów osiąga rekordowy wynik 60.3 na MTEB Multilingual Retrieval.

Źródło zdjęcia: huggingface.co

Poprzedni

Claude Mythos Preview pierwszym modelem AI, który przeszedł wszystkie testy cyberataków brytyjskiej agencji

Następny

Mira Murati buduje AI współpracującą z człowiekiem zamiast go zastępującą

Podobne Publikacje

Narzędzia i Aplikacje

Sea Limited wdraża Codex na szeroką skalę — 87% programistów używa AI codziennie

Singapurski gigant technologiczny Sea Limited osiągnął 87% adopcji Codex wśród developerów, zmieniając sposób tworzenia oprogramowania w Azji.

4 min15 maja

Etyka i Bezpieczeństwo

Zaawansowane AI zakończyło erę tradycyjnych zawodów CTF

Doświadczony gracz CTF wyjaśnia, jak modele takie jak GPT-5.5 i Claude Opus przekształciły konkursy cyberbezpieczeństwa w zawody automatyzacji zamiast testów umiejętności.

6 min

Kluczowe wnioski

Model kompaktowy 97M parametrów osiąga wynik 60.3 na benchmark MTEB Multilingual Retrieval — najlepszy rezultat wśród otwartych modeli poniżej 100M parametrów.

Pełnowymiarowy model 311M parametrów uzyskuje 65.2 punktów na tym samym teście, plasując się na 2. miejscu wśród otwartych modeli poniżej 500M parametrów.

Oba modele obsługują kontekst do 32 768 tokenów (64x więcej niż poprzednia generacja R1) i są wytrenowane na 52 językach z rozszerzoną obsługą retrieval.

Modele wspierają również wyszukiwanie kodu w 9 językach programowania oraz oferują wsparcie dla embeddings Matryoshka.

Dostępne są wagi ONNX i OpenVINO dla zoptymalizowanego wnioskowania na CPU oraz kompatybilność z popularnymi frameworkami jak LangChain i LlamaIndex.

Przełom w modelach kompaktowych

Największym osiągnięciem tej wersji jest granite-embedding-97m-multilingual-r2, który przy 97 milionach parametrów osiąga wynik 60.3 na benchmark Multilingual MTEB Retrieval dla 18 języków. To najwyższy wynik spośród wszystkich otwartych wielojęzycznych modeli embeddingów poniżej 100 milionów parametrów. Dla porównania, dotychczasowy lider w tej kategorii, multilingual-e5-small, osiąga wynik 50.9 punktów — różnica wynosi 9.4 punktu na dojrzałym benchmarku.

Model kompaktowy zachowuje większość jakości retrieval swojego pełnowymiarowego odpowiednika przy jednej trzeciej jego rozmiaru. Osiągnął wzrost o 12.2 punktu na MTEB Multilingual Retrieval w porównaniu z bezpośrednim poprzednikiem, co wynika z nowej architektury, lepszych danych treningowych i nowatorskiej metodologii przycinania modelu.

Architektura i możliwości techniczne

Modele Granite Embedding Multilingual R2 zostały zbudowane na bazie ModernBERT, co stanowi zmianę w stosunku do poprzedniej generacji opartej na XLM-RoBERTa. Pełnowymiarowy model granite-embedding-311m-multilingual-r2 oferuje 768-wymiarowe embeddingi z wsparciem dla wymiarów Matryoshka, podczas gdy kompaktowy model dostarcza 384-wymiarowe embeddingi.

Oba modele obsługują ponad 200 języków, przy czym 52 języki otrzymują rozszerzone wsparcie retrieval dzięki specjalnemu treningowi na parach retrieval i treningowi międzyjęzykowemu. Lista obejmuje języki takie jak polski, angielski, chiński, arabski, hindi, oraz wiele innych. Dodatkowo modele są wytrenowane na kodzie programistycznym w dziewięciu językach: Python, Go, Java, JavaScript, PHP, Ruby, SQL, C i C++.

Gotowość dla przedsiębiorstw

IBM projektowało modele z myślą o zastosowaniach biznesowych. Są one wytrenowane na mieszance zbiorów danych kuratorowanych przez IBM, publicznie dostępnych danych oraz wewnętrznie generowanych lub syntetycznych danych. Zespół celowo unikał używania zbioru treningowego MS-MARCO oraz zbiorów danych z wyraźnymi ograniczeniami licencyjnymi non-commercial.

Modele są kompatybilne jako bezpośrednie zastąpienia w popularnych frameworkach takich jak LangChain, LlamaIndex, Haystack i Milvus — wymagają jedynie zmiany nazwy modelu w jednej linii kodu. Dla frameworków obecnie używających domyślnie modeli wyłącznie anglojęzycznych, ta jedna zmiana zapewnia wszystkim użytkownikom wsparcie dla ponad 200 języków bez konieczności zmian w API czy nowych zależności.

Modele Granite Embedding Multilingual R2 reprezentują znaczący krok naprzód w dziedzinie wielojęzycznych embeddingów, oferując enterprise'om i deweloperom wydajne narzędzia do pracy z treścią w wielu językach przy zachowaniu wysokiej jakości retrieval i łatwości wdrożenia.