3 maja 20264 min czytania

Xiaomi MiMo-V2.5-Pro pisze kompilator w 4,3 godziny i konkuruje z Claude Opus

Nowy model Xiaomi z 1,02 biliona parametrów autonomicznie programuje przez godziny, zużywając o 40–60% mniej tokenów niż konkurencyjne systemy zachodnie.

Źródło zdjęcia: The Decoder

Xiaomi zaprezentowało MiMo-V2.5-Pro, nowy model sztucznej inteligencji z otwartymi wagami, który ma konkurować z najlepszymi systemami zachodnimi w dziedzinie programowania autonomicznego. Model, wyposażony w 1,02 biliona parametrów, wykazuje się imponującą efektywnością w długotrwałych zadaniach kodowania, jak podaje The Decoder.

Według wewnętrznych testów Xiaomi, MiMo-V2.5-Pro napisał kompletny kompilator w zaledwie 4,3 godziny i osiąga wyniki porównywalne z Claude Opus 4.6 w benchmarkach programistycznych, przy jednoczesnym zużyciu o 40–60% mniej tokenów niż konkurencyjne modele zachodnie.

Kluczowe wnioski

MiMo-V2.5-Pro to model typu mixture-of-experts z 1,02 biliona parametrów, z których 42 miliardy jest aktywnych przy każdym zapytaniu.
Model może przetwarzać do miliona tokenów jednocześnie i został zaprojektowany specjalnie do zadań trwających godzinami.
W testach napisał kompletny kompilator w 4,3 godziny (672 wywołania narzędzi) oraz edytor wideo z 8000 liniami kodu w 11,5 godziny.
Na benchmarku ClawEval osiąga 64% skuteczności przy zużyciu około 70 000 tokenów na zadanie, co stanowi o 40–60% mniej niż Claude Opus 4.6, Gemini 3.1 Pro czy GPT-5.4.
Xiaomi udostępnia również mniejsze wersje modelu oraz systemy TTS z możliwością klonowania głosu.

Autonomiczne programowanie na nowym poziomie

MiMo-V2.5-Pro wyróżnia się zdolnością do wykonywania złożonych, długotrwałych zadań programistycznych bez ludzkiej interwencji. Najspektakularniejszym przykładem jest stworzenie kompletnego kompilatora z kursu Uniwersytetu Pekińskiego — zadania, które zwykle zajmuje studentom informatyki kilka tygodni.

Model pracował nad projektem w czterech fazach przez 4,3 godziny, stopniowo poprawiając pokrycie testów z 59% przy pierwszej kompilacji do idealnych 100%. Xiaomi podkreśla, że najciekawsze jest podejście modelu: najpierw stworzył szkielet całego pipeline'u, następnie systematycznie pracował nad każdym etapem. Gdy podczas refaktoryzacji wprowadził regresję, samodzielnie zdiagnozował i naprawił problem.

W drugim demonstracji model stworzył desktopowy edytor wideo z około 8000 liniami kodu na podstawie kilku promptów, pracując autonomicznie przez 11,5 godziny i wykonując około 1870 wywołań narzędzi. Trzecia demonstracja pokazała projektowanie regulatora napięcia w symulatorze obwodów — model spełnił wszystkie sześć specyfikacji technicznych w ciągu godziny, przy czym cztery z nich przewyższyły pierwszą wersję o rząd wielkości.

Efektywność tokenów i wyniki benchmarków

Głównym argumentem sprzedażowym MiMo-V2.5-Pro jest stosunek wydajności do zużycia tokenów. Na własnym benchmarku ClawEval firmy Xiaomi model osiąga 64% skuteczności przy około 70 000 tokenów na zadanie — to o 40–60% mniej tokenów niż potrzebują Claude Opus 4.6, Gemini 3.1 Pro i GPT-5.4 do osiągnięcia podobnych wyników.

W benchmarkach programistycznych model zdobywa 78,9 punktów na SWE-bench Verified, 57,2 na SWE-Bench Pro i 68,4 na Terminal-Bench 2.0. Na wewnętrznym MiMo Coding Bench osiąga 73,7 punktów, plasując się blisko Claude Opus 4.6 (77,1) i znacznie przed Gemini 3.1 Pro (67,8). W zadaniach agentowych model uzyskuje 1581 punktów Elo na GDPVal-AA i 72,9 na tau3-bench.

Szczególnie imponujące są wyniki w pracy z długim kontekstem. Na benchmarku GraphWalks firmy OpenAI, gdzie model nawiguje po złożonych grafach węzłów, poprzednia wersja MiMo-V2-Pro spadała do zera przy milonie tokenów. MiMo-V2.5-Pro nadal osiąga 0,37 punktu w przeszukiwaniu wszerz i 0,62 w zapytaniach o węzły nadrzędne przy tej samej długości.

Rodzina modeli i dostępność

Oprócz flagowego modelu Pro, Xiaomi wprowadza trzy dodatkowe systemy. MiMo-V2.5 to mniejsza wersja z 310 miliardami parametrów (15 miliardów aktywnych), która obsługuje tekst, obrazy, wideo i dźwięk bezpośrednio oraz wspiera kontekst do miliona tokenów. Model trenowany na około 48 bilionach tokenów osiąga 87,7 punktów na benchmarku Video-MME, dorównując Gemini 3 Pro. Ta wersja jest dostępna z otwartymi wagami na Hugging Face.

MiMo-V2.5-TTS to rodzina trzech wariantów: jeden z predefiniowanymi głosami, drugi generujący nowe głosy z opisów tekstowych i trzeci klonujący głosy z krótkich próbek audio. Użytkownicy mogą kontrolować wymowę, dodając tagi kontrolne jak [crying] czy [whispers] bezpośrednio w tekście. Modele TTS są dostępne wyłącznie przez API platformy Xiaomi, obecnie bezpłatnie przez ograniczony czas.

MiMo-V2.5-Pro reprezentuje znaczący krok naprzód w dziedzinie autonomicznego programowania, łącząc imponującą wydajność z efektywnością tokenów. Model jest już dostępny z otwartymi wagami, co może przyspieszyć rozwój podobnych systemów w społeczności open source.

#Xiaomi #Claude Opus #programowanie #MiMo #open source

Udostępnij

Źródła

The Decoder

Poprzedni

Chińskie modele AI tracą dystans do USA według raportu amerykańskiej agencji

Następny

Google przedstawia aktualizacje AI z kwietnia 2026: era agentyczna, Gemma 4 i bezpłatne narzędzia

Podobne Publikacje

Biznes i Rynek

60% amerykańskich konsumentów odrzuca marki używające AI w komunikacji

Nowe badanie WordPress VIP pokazuje rosnącą nieufność konsumentów wobec AI w marketingu, mimo wzrostu ruchu z wyszukiwarek sztucznej inteligencji.

4 min16 czerwca

Badania i Nauka

Tylko 16 proc. Amerykanów wierzy w pozytywny wpływ AI na społeczeństwo

Nowe badanie Pew Research ujawnia paradoks: ChatGPT używa już 44 proc. Amerykanów, ale tylko 16 proc. wierzy w pozytywny wpływ AI na społeczeństwo.

4 min17 czerwca

Badania i Nauka

Naukowcy opracowali system AI do mierzenia zgodności programów informatycznych z wytycznymi CS2013 i CS2023

Pierwszy system analizy longitudinalnej programów studiów informatycznych wykorzystuje AI i weryfikację ekspercką do obiektywnej oceny zgodności z wytycznymi.

4 min20 czerwca

Kluczowe wnioski

MiMo-V2.5-Pro to model typu mixture-of-experts z 1,02 biliona parametrów, z których 42 miliardy jest aktywnych przy każdym zapytaniu.

Model może przetwarzać do miliona tokenów jednocześnie i został zaprojektowany specjalnie do zadań trwających godzinami.

W testach napisał kompletny kompilator w 4,3 godziny (672 wywołania narzędzi) oraz edytor wideo z 8000 liniami kodu w 11,5 godziny.

Na benchmarku ClawEval osiąga 64% skuteczności przy zużyciu około 70 000 tokenów na zadanie, co stanowi o 40–60% mniej niż Claude Opus 4.6, Gemini 3.1 Pro czy GPT-5.4.

Xiaomi udostępnia również mniejsze wersje modelu oraz systemy TTS z możliwością klonowania głosu.

Autonomiczne programowanie na nowym poziomie

Efektywność tokenów i wyniki benchmarków

Rodzina modeli i dostępność