Zespół SeqPU przedstawił zaskakujące wyniki porównania modeli językowych, dowodząc że niewielki model Gemma 2B może dorównać wydajnością GPT-3.5 Turbo w benchmarku MT-Bench, działając jedynie na procesorze laptopa. Szczegółowe wyniki badania opublikowano na SeqPU.com.
Model Gemma 2B, liczący zaledwie 2 miliardy parametrów, uzyskał wynik około 8,0 punktów w teście MT-Bench, podczas gdy GPT-3.5 Turbo osiąga 7,94 punktu. To oznacza, że model 87 razy mniejszy od GPT-3.5 Turbo (175 miliardów parametrów) może dorównać mu w wydajności, działając na zwykłym procesorze bez konieczności użycia GPU.
Badacze przeprowadzili pełen benchmark MT-Bench, składający się z 80 pytań otwartych w dwóch turach, obejmujący pisanie, odgrywanie ról, rozumowanie, matematykę, programowanie, ekstrakcję danych oraz nauki ścisłe i humanistyczne. Test wykonano na procesorze z 4 rdzeniami i 16 GB pamięci RAM — specyfikacji odpowiadającej typowemu laptopowi.
Kluczowe było podejście zespołu do testowania. Użyli jedynie 169-liniowego skryptu Python bez żadnych dodatkowych zabezpieczeń, tryków czy dodatkowego dostrajania. "Nie było scaffoldingu, nie było tryków thinking-mode, nie było fine-tuningu, nie było retrieval, nie było łańcuchów weryfikacji. Tylko model, szablon czatu i model.generate()" — wyjaśniają autorzy.
Zespół SeqPU nie poprzestał na podstawowym wyniku. Przeprowadzili szczegółową analizę błędów modelu, identyfikując siedem kategorii problemów. Nie były to halucynacje, ale konkretne wzorce: błędy arytmetyczne gdzie model poprawnie liczył, ale zapisywał złą liczbę, zagadki logiczne gdzie udowadniał poprawną odpowiedź, a następnie podawał błędną, oraz problemy z utrzymywaniem ograniczeń i ról.
Na tej podstawie opracowali sześć chirurgicznych poprawek, każda licząca około 60 linii kodu Python. Po zastosowaniu tych usprawnień wynik modelu wzrósł do około 8,2 punktu, przewyższając tym samym GPT-3.5 Turbo.
Model jest dostępny jako 4 GB plik do pobrania z HuggingFace i może działać całkowicie offline po pierwszym pobraniu. Nie wymaga subskrypcji, klucza API, konta ani miesięcznych opłat. "Po pierwszym pobraniu działa offline na zawsze. Bez subskrypcji. Bez klucza API. Bez konta. Bez miesięcznego rachunku" — podkreślają badacze.
Zespół uruchomił również bota na Telegramie, który wykorzystuje surowy model bez żadnych poprawek, pozwalając użytkownikom na bezpośrednie przetestowanie jego możliwości. Bot jest dostępny pod adresem t.me/CPUAssistantBot i wymaga bezpłatnego klucza API z SeqPU.com.

OpenAI potwierdza demograficzny przełom - kobiety przewyższają mężczyzn wśród użytkowników ChatGPT. Chiny wydają na AI do 125 mld dolarów.

OpenAI aktualizuje Codex o kontrolę aplikacji macOS, funkcję pamięci i generowanie obrazów w odpowiedzi na sukces Claude Code firmy Anthropic.
Wyniki badania kwestionują powszechne przekonanie o konieczności używania dużych modeli i kosztownych GPU do uzyskania wysokiej jakości odpowiedzi od systemów AI. "To, co dziedzina nazywała problemem obliczeniowym, to problem inżynierii oprogramowania — i każdy zmotywowany programista może zamknąć tę lukę w weekend" — konkludują autorzy.
Według zespołu SeqPU, open source nie nadgania zamkniętych modeli — już ich dogonił. Surowy model bez żadnych usprawnień dorównuje już GPT-3.5 Turbo, a to dopiero punkt wyjścia. Dodanie siedmiu chirurgicznych poprawek pozwala mu nawet przewyższyć ten wynik.
Dla użytkowników preferujących rozwiązania w chmurze, model można uruchomić na Cloudflare Containers za 5 dolarów miesięcznie. Usługa automatycznie skaluje się do zera, "śpi" gdy jest nieaktywna i "budzi się" na żądanie.
Wszystkie wyniki, kod i poprawki zostały udostępnione jako open source, umożliwiając innym programistom weryfikację wyników i dalszy rozwój rozwiązania. Zespół opublikował pełną "taśmę" testów — każde pytanie, każdą turę i każdy wynik — aby umożliwić niezależną weryfikację swoich ustaleń.