Nowe modele IBM obsługują 200+ języków z kontekstem 32K tokenów. Model 97M parametrów osiąga rekordowy wynik 60.3 na MTEB Multilingual Retrieval.
Źródło zdjęcia: huggingface.co
Singapurski gigant technologiczny Sea Limited osiągnął 87% adopcji Codex wśród developerów, zmieniając sposób tworzenia oprogramowania w Azji.
Doświadczony gracz CTF wyjaśnia, jak modele takie jak GPT-5.5 i Claude Opus przekształciły konkursy cyberbezpieczeństwa w zawody automatyzacji zamiast testów umiejętności.
IBM zaprezentowało nowe modele embeddingów wielojęzycznych Granite Embedding Multilingual R2, które oferują wsparcie dla ponad 200 języków i kontekst do 32 768 tokenów. Modele zostały udostępnione na licencji Apache 2.0 i są dostępne w dwóch wersjach na platformie Hugging Face.
Największym osiągnięciem tej wersji jest granite-embedding-97m-multilingual-r2, który przy 97 milionach parametrów osiąga wynik 60.3 na benchmark Multilingual MTEB Retrieval dla 18 języków. To najwyższy wynik spośród wszystkich otwartych wielojęzycznych modeli embeddingów poniżej 100 milionów parametrów. Dla porównania, dotychczasowy lider w tej kategorii, multilingual-e5-small, osiąga wynik 50.9 punktów — różnica wynosi 9.4 punktu na dojrzałym benchmarku.
Model kompaktowy zachowuje większość jakości retrieval swojego pełnowymiarowego odpowiednika przy jednej trzeciej jego rozmiaru. Osiągnął wzrost o 12.2 punktu na MTEB Multilingual Retrieval w porównaniu z bezpośrednim poprzednikiem, co wynika z nowej architektury, lepszych danych treningowych i nowatorskiej metodologii przycinania modelu.
Modele Granite Embedding Multilingual R2 zostały zbudowane na bazie ModernBERT, co stanowi zmianę w stosunku do poprzedniej generacji opartej na XLM-RoBERTa. Pełnowymiarowy model granite-embedding-311m-multilingual-r2 oferuje 768-wymiarowe embeddingi z wsparciem dla wymiarów Matryoshka, podczas gdy kompaktowy model dostarcza 384-wymiarowe embeddingi.
Oba modele obsługują ponad 200 języków, przy czym 52 języki otrzymują rozszerzone wsparcie retrieval dzięki specjalnemu treningowi na parach retrieval i treningowi międzyjęzykowemu. Lista obejmuje języki takie jak polski, angielski, chiński, arabski, hindi, oraz wiele innych. Dodatkowo modele są wytrenowane na kodzie programistycznym w dziewięciu językach: Python, Go, Java, JavaScript, PHP, Ruby, SQL, C i C++.
IBM projektowało modele z myślą o zastosowaniach biznesowych. Są one wytrenowane na mieszance zbiorów danych kuratorowanych przez IBM, publicznie dostępnych danych oraz wewnętrznie generowanych lub syntetycznych danych. Zespół celowo unikał używania zbioru treningowego MS-MARCO oraz zbiorów danych z wyraźnymi ograniczeniami licencyjnymi non-commercial.
Modele są kompatybilne jako bezpośrednie zastąpienia w popularnych frameworkach takich jak LangChain, LlamaIndex, Haystack i Milvus — wymagają jedynie zmiany nazwy modelu w jednej linii kodu. Dla frameworków obecnie używających domyślnie modeli wyłącznie anglojęzycznych, ta jedna zmiana zapewnia wszystkim użytkownikom wsparcie dla ponad 200 języków bez konieczności zmian w API czy nowych zależności.
Modele Granite Embedding Multilingual R2 reprezentują znaczący krok naprzód w dziedzinie wielojęzycznych embeddingów, oferując enterprise'om i deweloperom wydajne narzędzia do pracy z treścią w wielu językach przy zachowaniu wysokiej jakości retrieval i łatwości wdrożenia.