Badacze z UAE uruchomili QIMMA — jedyną platformę oceny modeli arabskich, która sprawdza jakość benchmarków przed testowaniem. Wykryto błędy w szanowanych testach.

Źródło zdjęcia: huggingface.co
Badacze z Technology Innovation Institute (TII) w Zjednoczonych Emiratach Arabskich uruchomili QIMMA قِمّة — pierwszy ranking modeli językowych dla języka arabskiego, który sprawdza jakość testów przed oceną modeli. Nowa platforma powstała w odpowiedzi na rosnące problemy z wiarygodnością oceny modeli AI w języku arabskim.
QIMMA (arabskie słowo oznaczające "szczyt") różni się od istniejących rankingów tym, że każdy test przechodzi przez rygorystyczny proces walidacji jakości, zanim zostanie użyty do oceny modeli. Platforma agreguje ponad 52 000 próbek z 14 benchmarków, obejmując siedem dziedzin od kultury i prawa po programowanie.
• Pierwsza walidacja jakości: QIMMA jako jedyna platforma systematycznie sprawdza jakość testów przed oceną modeli, wykrywając błędy w nawet szanowanych benchmarkach arabskich • Kompleksowa ocena: Platforma testuje 109 podzbiorów w 7 dziedzinach, w tym jako pierwsza dla języka arabskiego — ocenę umiejętności programowania • 99% natywnej arabszczyzny: W przeciwieństwie do innych platform, QIMMA bazuje niemal wyłącznie na oryginalnych arabskich testach, nie tłumaczeniach z angielskiego • Wykryte problemy systemowe: Pipeline walidacji ujawnił systematyczne błędy w benchmarkach — od nieprawidłowych odpowiedzi po problemy kulturowe • Pełna transparentność: Jako jedyna platforma udostępnia kod źródłowy, szczegółowe wyniki i wnioski z każdej próbki
Język arabski używa ponad 400 milionów ludzi w różnych dialektach i kontekstach kulturowych, jednak ocena modeli NLP dla arabskiego pozostaje rozproszona i problematyczna. Istniejące platformy borykają się z trzema kluczowymi problemami.
Większość arabskich benchmarków powstała przez tłumaczenie z angielskiego, co wprowadza zniekształcenia. Pytania naturalne w angielskim stają się niezręczne lub kulturowo nieadekwatne w arabskim. Dodatkowo, nawet natywne arabskie testy rzadko przechodzą rygorystną kontrolę jakości — badacze dokumentowali niespójności w adnotacjach, błędne odpowiedzi wzorcowe i błędy kodowania.
Platformy takie jak OALL, BALSAM czy AraGen pokrywają izolowane zadania i wąskie domeny, utrudniając holistyczną ocenę modeli. QIMMA jest jedyną platformą łączącą wszystkie pięć kluczowych właściwości: kod źródłowy, przeważnie natywną arabszczyznę, walidację jakości, ocenę programowania i publiczne wyniki.
Serce QIMMA stanowi dwuetapowy pipeline walidacji jakości. W pierwszym etapie każda próbka jest niezależnie oceniana przez dwa zaawansowane modele językowe: Qwen3-235B-A22B-Instruct i DeepSeek-V3-671B. Badacze wybrali modele o różnej kompozycji danych treningowych, aby ich wspólna ocena była bardziej wiarygodna.
Każdy model punktuje próbkę według 10-punktowej rubryki z binarnymi ocenami (0 lub 1) dla każdego kryterium. Próbka jest eliminowana, jeśli którykolwiek model oceni ją poniżej 7/10 punktów. Gdy oba modele zgadzają się na eliminację, próbka jest natychmiast odrzucana. W przypadku różnicy zdań próbka trafia do drugiego etapu.
W etapie ludzkim native speakerzy arabskiego z znajomością kontekstu kulturowego i dialektalnego podejmują ostateczne decyzje. Dla kulturowo wrażliwych treści uwzględnianych jest wiele perspektyw, ponieważ "poprawność" może rzeczywiście różnić się między regionami arabskimi.
Pipeline ujawnił powtarzające się problemy jakości we wszystkich benchmarkach — nie były to izolowane błędy, ale systematyczne wzorce odzwierciedlające luki w oryginalnej konstrukcji testów.
Najwyższy wskaźnik odrzucenia miał ArabicMMLU z 3,1% (436 z 14 163 próbek), następnie MizanQA z 2,3% i PalmX z 0,8%. Łącznie platforma odrzuciła próbki z różnych powodów: problemy z jakością odpowiedzi (fałszywe indeksy, faktycznie błędne odpowiedzi), problemy językowe (błędy gramatyczne, niejasność), kwestie kulturowe (stronniczość, nieadekwatność kontekstu) oraz problemy techniczne (błędy formatowania, kodowania).
QIMMA potwierdza, że nawet szeroko używane i szanowane arabskie benchmarki zawierają systematyczne problemy jakości, które mogą po cichu zakłócać wyniki oceny. Platforma oferuje bardziej wiarygodny sposób oceny rzeczywistych możliwości arabskich modeli językowych.