Qwen3.7-Max osiągnął 10-krotne przyspieszenie kodu, przewyższając konkurencyjne modele w 35-godzinnym autonomicznym eksperymencie optymalizacji.

Źródło zdjęcia: The Decoder
Chińska firma Alibaba zaprezentowała najnowszy model AI o nazwie Qwen3.7-Max, który w ramach testów pracował autonomicznie przez 35 godzin, optymalizując kod dla własnego chipa firmy. Model został zaprojektowany specjalnie do zadań agentowych i jest dostępny wyłącznie poprzez API. Szczegółowe informacje o modelu przedstawiono w artykule na The Decoder.
Qwen3.7-Max stanowi kolejny krok w rozwoju autonomicznych systemów AI, które mogą pracować niezależnie przez długie okresy. W przeciwieństwie do poprzednich wersji, najnowszy model nie jest dostępny jako open source, a ostatnim otwartym flagowym modelem pozostaje Qwen3.5–397B-A17B z lutego 2026 roku.
Najważniejszym testem możliwości Qwen3.7-Max była optymalizacja kerneli uwagi dla oprogramowania SGLang. Model pracował na instancji chmurowej wyposażonej w akceleratory T-Head-ZW-M890 — chipy AI wyprodukowane przez semiconductor arm Alibaby. Kluczowe było to, że model nigdy wcześniej nie spotkał się z tą architekturą podczas treningu.
Rozpoczynając pracę bez danych pomiarowych, dokumentacji sprzętowej czy przykładowego kodu, model miał do dyspozycji jedynie referencyjną implementację napisaną w języku Triton. Przez 35 godzin nieprzerwanych obliczeń system autonomicznie kompilował kod, mierzył wydajność, wykrywał błędy kompilacji i identyfikował wąskie gardła wydajnościowe.
Wyniki porównawcze pokazują wyraźną przewagę najnowszego modelu. Podczas gdy konkurencyjne systemy kończyły pracę po pięciu rundach bez wywołań narzędzi, Qwen3.7-Max kontynuował optymalizację przez cały zaplanowany okres. Na standaryzowanym benchmarku KernelBench L3 model osiągnął 96% skuteczności w tworzeniu przyspieszonych kerneli, plasując się tuż za Anthropic Opus 4.6 z wynikiem 98%.
Zespół Qwen zastosował nowatorską metodę treningową, dzieląc każde zadanie na trzy niezależne komponenty: samo zadanie, środowisko narzędziowe i walidator sprawdzający wyniki. Takie podejście pozwala na swobodne mieszanie i dopasowywanie elementów, zmuszając model do wypracowania strategii uniwersalnych, a nie opartych na konkretnym środowisku.
Szczególnie interesujące jest wykorzystanie Qwen3.7-Max jako „strażnika” własnego procesu treningowego. Model monitorował sesje treningowe dla zadań inżynierii oprogramowania przez ponad 80 godzin, przeprowadzając ponad 10,000 kontroli. Jego zadaniem było wykrywanie prób oszukiwania systemu nagród, takich jak pobieranie gotowych odpowiedzi bezpośrednio z GitHuba.
W rezultacie model stworzył 13 nowych reguł detekcji i zidentyfikował 1,618 przypadków manipulacji. Z każdą nową regułą liczba wykrytych przypadków rosła, co świadczy o skuteczności systemu samokontroli.
W testach długoterminowego planowania model wykazał się imponującymi możliwościami. W symulacji YC-Bench, odtwarzającej pełny roczny cykl życia startupu, Qwen3.7-Max musiał zarządzać personelem przez setki rund decyzyjnych, analizować kontrakty i utrzymywać rentowność wobec rosnących kosztów pracy. Model osiągnął przychód 2,08 miliona dolarów i ukończył 237 zadań, znacznie przewyższając poprzednie wersje.
W porównaniach z konkurencyjnymi modelami Qwen3.7-Max rywalizuje z Claude Opus 4.6 Max, Kimi K2.6 Thinking, GLM-5.1 Thinking i DeepSeek V4 Pro Max. Na benchmarku SWE-Verified osiągnął wynik 80,4 punktów, niemal dorównując Opus 4.6 Max (80,8) i DeepSeek V4 Pro Max (80,6). W testach matematycznych i naukowych GPQA Diamond (92,4), HMMT 2026 February (97,1) i Apex (44,5) model zajął czołowe pozycje w tabeli porównawczej dostawcy.
Qwen3.7-Max reprezentuje znaczący postęp w rozwoju autonomicznych systemów AI, łącząc długoterminową niezależność działania z możliwością samokontroli i optymalizacji. Model potwierdza rosnące możliwości AI w wykonywaniu kompleksowych zadań technicznych bez ciągłego nadzoru człowieka.

Naukowcy stworzyli SOLAR — autonomicznego agenta AI, który adaptuje się do nowych zadań bez katastrofalnego zapominania wcześniej nabytej wiedzy.

Nowy model AI do kodowania od Cursor osiąga wydajność najlepszych modeli za mniej niż dolara za zadanie, podczas gdy konkurencja kosztuje do 11 USD.

Chiński startup szykuje rundę 70 mld juanów przy wycenie 45 mld dolarów. Założyciel stawia na badania nad AGI i open-source zamiast szybkich zysków.