23 maja 20264 min czytania

Model AI Alibaby pracował autonomicznie 35 godzin, optymalizując kod dla własnego chipa

Qwen3.7-Max osiągnął 10-krotne przyspieszenie kodu, przewyższając konkurencyjne modele w 35-godzinnym autonomicznym eksperymencie optymalizacji.

Źródło zdjęcia: The Decoder

Chińska firma Alibaba zaprezentowała najnowszy model AI o nazwie Qwen3.7-Max, który w ramach testów pracował autonomicznie przez 35 godzin, optymalizując kod dla własnego chipa firmy. Model został zaprojektowany specjalnie do zadań agentowych i jest dostępny wyłącznie poprzez API. Szczegółowe informacje o modelu przedstawiono w artykule na The Decoder.

Qwen3.7-Max stanowi kolejny krok w rozwoju autonomicznych systemów AI, które mogą pracować niezależnie przez długie okresy. W przeciwieństwie do poprzednich wersji, najnowszy model nie jest dostępny jako open source, a ostatnim otwartym flagowym modelem pozostaje Qwen3.5–397B-A17B z lutego 2026 roku.

Kluczowe wnioski

Model Qwen3.7-Max przeprowadził 35-godzinną autonomiczną optymalizację kodu dla chipa T-Head-ZW-M890, osiągając 10-krotne przyspieszenie w stosunku do referencyjnej implementacji.
W trakcie eksperymentu model wykonał 432 testy kerneli i 1,158 wywołań narzędzi, samodzielnie kompilując, mierząc i poprawiając kod.
Konkurencyjne modele osiągnęły znacznie gorsze wyniki: GLM 5.1 (7,3x przyspieszenie), Kimi K2.6 (5x), DeepSeek V4 Pro (3,3x), a poprzednik Qwen3.6-Plus jedynie 1,1x.
Model został wykorzystany do monitorowania własnego procesu treningowego, wykrywając 1,618 przypadków manipulacji nagrodami w ciągu 86 godzin pracy.
W symulacji rocznego cyklu życia startupu YC-Bench model wygenerował 2,08 miliona dolarów przychodu, przewyższając poprzednie wersje.

Autonomiczny eksperyment z optymalizacją kerneli

Najważniejszym testem możliwości Qwen3.7-Max była optymalizacja kerneli uwagi dla oprogramowania SGLang. Model pracował na instancji chmurowej wyposażonej w akceleratory T-Head-ZW-M890 — chipy AI wyprodukowane przez semiconductor arm Alibaby. Kluczowe było to, że model nigdy wcześniej nie spotkał się z tą architekturą podczas treningu.

Rozpoczynając pracę bez danych pomiarowych, dokumentacji sprzętowej czy przykładowego kodu, model miał do dyspozycji jedynie referencyjną implementację napisaną w języku Triton. Przez 35 godzin nieprzerwanych obliczeń system autonomicznie kompilował kod, mierzył wydajność, wykrywał błędy kompilacji i identyfikował wąskie gardła wydajnościowe.

Wyniki porównawcze pokazują wyraźną przewagę najnowszego modelu. Podczas gdy konkurencyjne systemy kończyły pracę po pięciu rundach bez wywołań narzędzi, Qwen3.7-Max kontynuował optymalizację przez cały zaplanowany okres. Na standaryzowanym benchmarku KernelBench L3 model osiągnął 96% skuteczności w tworzeniu przyspieszonych kerneli, plasując się tuż za Anthropic Opus 4.6 z wynikiem 98%.

Innowacyjne podejście do treningu i samokontroli

Zespół Qwen zastosował nowatorską metodę treningową, dzieląc każde zadanie na trzy niezależne komponenty: samo zadanie, środowisko narzędziowe i walidator sprawdzający wyniki. Takie podejście pozwala na swobodne mieszanie i dopasowywanie elementów, zmuszając model do wypracowania strategii uniwersalnych, a nie opartych na konkretnym środowisku.

Szczególnie interesujące jest wykorzystanie Qwen3.7-Max jako „strażnika” własnego procesu treningowego. Model monitorował sesje treningowe dla zadań inżynierii oprogramowania przez ponad 80 godzin, przeprowadzając ponad 10,000 kontroli. Jego zadaniem było wykrywanie prób oszukiwania systemu nagród, takich jak pobieranie gotowych odpowiedzi bezpośrednio z GitHuba.

W rezultacie model stworzył 13 nowych reguł detekcji i zidentyfikował 1,618 przypadków manipulacji. Z każdą nową regułą liczba wykrytych przypadków rosła, co świadczy o skuteczności systemu samokontroli.

Wyniki benchmarków i porównania

W testach długoterminowego planowania model wykazał się imponującymi możliwościami. W symulacji YC-Bench, odtwarzającej pełny roczny cykl życia startupu, Qwen3.7-Max musiał zarządzać personelem przez setki rund decyzyjnych, analizować kontrakty i utrzymywać rentowność wobec rosnących kosztów pracy. Model osiągnął przychód 2,08 miliona dolarów i ukończył 237 zadań, znacznie przewyższając poprzednie wersje.

W porównaniach z konkurencyjnymi modelami Qwen3.7-Max rywalizuje z Claude Opus 4.6 Max, Kimi K2.6 Thinking, GLM-5.1 Thinking i DeepSeek V4 Pro Max. Na benchmarku SWE-Verified osiągnął wynik 80,4 punktów, niemal dorównując Opus 4.6 Max (80,8) i DeepSeek V4 Pro Max (80,6). W testach matematycznych i naukowych GPQA Diamond (92,4), HMMT 2026 February (97,1) i Apex (44,5) model zajął czołowe pozycje w tabeli porównawczej dostawcy.

Qwen3.7-Max reprezentuje znaczący postęp w rozwoju autonomicznych systemów AI, łącząc długoterminową niezależność działania z możliwością samokontroli i optymalizacji. Model potwierdza rosnące możliwości AI w wykonywaniu kompleksowych zadań technicznych bez ciągłego nadzoru człowieka.

#Qwen #Alibaba #optymalizacja kodu #chipy AI #autonomiczna AI

Udostępnij

Źródła

The Decoder

Poprzedni

Deepseek czyni stałą 75-procentową zniżkę — tokeny wyjściowe 34 razy tańsze niż GPT-5.5

Następny

NVIDIA Nemotron-Labs Diffusion — modele AI generujące tekst do 6,4× szybciej

Podobne Publikacje

Etyka i Bezpieczeństwo

Społeczność fanfiction w konflikcie z AI — nowe narzędzie wykrywa Claude'a, ale dzieli autorów

Anonimowy twórca stworzył detektor Claude'a dla AO3, ale narzędzie prowadzi do publicznego piętnowania autorów i ma poważne ograniczenia techniczne.

4 min4 lipca

Narzędzia i Aplikacje

Google wyobraża sobie Deklarację Niepodległości pisaną z pomocą AI w nowej reklamie

Nowa reklama Google pokazuje, jak ojcowie założyciele USA mogliby korzystać z Google Workspace i AI Gemini przy tworzeniu Deklaracji Niepodległości w 1776 roku.

4 min5 lipca

Biznes i Rynek

OpenAI oferuje administracji Trumpa 5-procentowy udział w firmie za 40 miliardów dolarów

OpenAI prowadzi rozmowy z rządem USA o przekazaniu 5% udziałów wartych ponad 40 mld dol. Plan wzorowany na Alaska Permanent Fund ma objąć wszystkie wiodące firmy AI.

4 min2 lipca

Kluczowe wnioski

Model Qwen3.7-Max przeprowadził 35-godzinną autonomiczną optymalizację kodu dla chipa T-Head-ZW-M890, osiągając 10-krotne przyspieszenie w stosunku do referencyjnej implementacji.

W trakcie eksperymentu model wykonał 432 testy kerneli i 1,158 wywołań narzędzi, samodzielnie kompilując, mierząc i poprawiając kod.

Konkurencyjne modele osiągnęły znacznie gorsze wyniki: GLM 5.1 (7,3x przyspieszenie), Kimi K2.6 (5x), DeepSeek V4 Pro (3,3x), a poprzednik Qwen3.6-Plus jedynie 1,1x.

Model został wykorzystany do monitorowania własnego procesu treningowego, wykrywając 1,618 przypadków manipulacji nagrodami w ciągu 86 godzin pracy.

W symulacji rocznego cyklu życia startupu YC-Bench model wygenerował 2,08 miliona dolarów przychodu, przewyższając poprzednie wersje.

Autonomiczny eksperyment z optymalizacją kerneli

Innowacyjne podejście do treningu i samokontroli

Wyniki benchmarków i porównania