Modele AI15 kwietnia 20264 min czytania

Model Gemma 2B przewyższył GPT-3.5 Turbo w teście MT-Bench działając na procesorze laptopa

Niewielki model Gemma 2B uzyskał wynik 8,0 w MT-Bench, wyprzedzając GPT-3.5 Turbo (7,94), działając tylko na CPU bez GPU.

Zespół SeqPU przedstawił zaskakujące wyniki porównania modeli językowych, dowodząc że niewielki model Gemma 2B może dorównać wydajnością GPT-3.5 Turbo w benchmarku MT-Bench, działając jedynie na procesorze laptopa. Szczegółowe wyniki badania opublikowano na SeqPU.com.

Model Gemma 2B, liczący zaledwie 2 miliardy parametrów, uzyskał wynik około 8,0 punktów w teście MT-Bench, podczas gdy GPT-3.5 Turbo osiąga 7,94 punktu. To oznacza, że model 87 razy mniejszy od GPT-3.5 Turbo (175 miliardów parametrów) może dorównać mu w wydajności, działając na zwykłym procesorze bez konieczności użycia GPU.

Metodologia i warunki testów

Badacze przeprowadzili pełen benchmark MT-Bench, składający się z 80 pytań otwartych w dwóch turach, obejmujący pisanie, odgrywanie ról, rozumowanie, matematykę, programowanie, ekstrakcję danych oraz nauki ścisłe i humanistyczne. Test wykonano na procesorze z 4 rdzeniami i 16 GB pamięci RAM — specyfikacji odpowiadającej typowemu laptopowi.

Kluczowe było podejście zespołu do testowania. Użyli jedynie 169-liniowego skryptu Python bez żadnych dodatkowych zabezpieczeń, tryków czy dodatkowego dostrajania. "Nie było scaffoldingu, nie było tryków thinking-mode, nie było fine-tuningu, nie było retrieval, nie było łańcuchów weryfikacji. Tylko model, szablon czatu i model.generate()" — wyjaśniają autorzy.

Analiza błędów i ulepszenia

Zespół SeqPU nie poprzestał na podstawowym wyniku. Przeprowadzili szczegółową analizę błędów modelu, identyfikując siedem kategorii problemów. Nie były to halucynacje, ale konkretne wzorce: błędy arytmetyczne gdzie model poprawnie liczył, ale zapisywał złą liczbę, zagadki logiczne gdzie udowadniał poprawną odpowiedź, a następnie podawał błędną, oraz problemy z utrzymywaniem ograniczeń i ról.

Na tej podstawie opracowali sześć chirurgicznych poprawek, każda licząca około 60 linii kodu Python. Po zastosowaniu tych usprawnień wynik modelu wzrósł do około 8,2 punktu, przewyższając tym samym GPT-3.5 Turbo.

Praktyczne zastosowania

Model jest dostępny jako 4 GB plik do pobrania z HuggingFace i może działać całkowicie offline po pierwszym pobraniu. Nie wymaga subskrypcji, klucza API, konta ani miesięcznych opłat. "Po pierwszym pobraniu działa offline na zawsze. Bez subskrypcji. Bez klucza API. Bez konta. Bez miesięcznego rachunku" — podkreślają badacze.

Zespół uruchomił również bota na Telegramie, który wykorzystuje surowy model bez żadnych poprawek, pozwalając użytkownikom na bezpośrednie przetestowanie jego możliwości. Bot jest dostępny pod adresem t.me/CPUAssistantBot i wymaga bezpłatnego klucza API z SeqPU.com.

Podobne Publikacje

Modele AI

ChatGPT odwrócił proporcje użytkowników - kobiety stanowią już ponad 50% użytkowników

OpenAI potwierdza demograficzny przełom - kobiety przewyższają mężczyzn wśród użytkowników ChatGPT. Chiny wydają na AI do 125 mld dolarów.

4 min16 kwietnia 2026

Modele AI

OpenAI wprowadza kontrolę aplikacji macOS w Codex jako odpowiedź na Claude Code

OpenAI aktualizuje Codex o kontrolę aplikacji macOS, funkcję pamięci i generowanie obrazów w odpowiedzi na sukces Claude Code firmy Anthropic.