24 czerwca 20264 min czytania

CEO Snowflake: chiński GLM-5.2 konkuruje z Opus 4.7 za ułamek ceny

Test programistyczny pokazał zbliżoną skuteczność GLM-5.2 i Opus 4.7, ale dramatyczna różnica w cenie może wywrócić rynek AI do góry nogami.

Źródło zdjęcia: The Decoder

CEO Snowflake porównał w praktycznym teście chiński model GLM-5.2 z Anthropic Opus 4.7, sprawdzając ich wydajność w zadaniach programistycznych. Wyniki pokazują, że mimo zbliżonej skuteczności końcowej, różnice w cenie mogą znacząco wpłynąć na rynek zachodnich firm AI. Pełne szczegóły testu i analizy dostępne są w oryginalnym artykule opublikowanym przez The Decoder.

Kluczowe wnioski

GLM-5.2 i Opus 4.7 osiągnęły niemal identyczne wyniki końcowe w teście programistycznym — 66% vs 67% rozwiązanych zadań przy trzech próbach na zadanie.
Opus przewyższa GLM-5.2 w pierwszej próbie (53,7% vs 47,6%) i jest bardziej efektywny — wymaga średnio 80 iteracji na zadanie wobec 99 dla GLM i zużywa prawie dwukrotnie mniej tokenów.
GLM-5.2 kosztuje dramatycznie mniej: 4,40$ za milion tokenów wyjściowych wobec 25$ dla Claude Opus 4.7 i 30$ dla GPT-5.5, co tworzy poważną presję cenową na zachodnie firmy AI.
Chiński model wykazuje silne strony w walidacji kodu na różnych platformach jednocześnie, ale ma skłonność do przedwczesnego poddawania się i obsesyjnego sprawdzania błędnych elementów.

Szczegóły testu programistycznego

Test przeprowadzony przez Snowflake obejmował 103 zadania, każde wykonywane trzykrotnie. Modele musiały napisać kod działający zarówno na DuckDB, jak i Snowflake. CEO Snowflake Sridhar Ramaswamy podkreślił, że GLM-5.2 wykazał szczególną siłę w jednoczesnej walidacji kodu na obu platformach, co pozwoliło mu rozwiązać niektóre zadania, z którymi nie poradził sobie Opus.

Jednak chiński model ma również wyraźne słabości. W jednym z zadań GLM wykonał 411 wywołań narzędzi w ciągu 24 minut, sprawdzając liczbę wierszy, rozkłady, wartości null i typy kolumn, ale nadal nie zdołał rozwiązać zadania w żadnej z trzech prób. Opus rozwiązał to samo zadanie używając 49 wywołań w 9 minut.

Ramaswamy zauważył, że twierdzenie o „czystszym kodzie” produkowanym przez GLM nie potwierdziło się w testach. Więcej sprawdzeń nie prowadzi do bardziej poprawnych rezultatów.

Presja cenowa na zachodni rynek AI

Różnice w cenie są kluczowe dla interpretacji wyników. Według oficjalnego cennika Zhipu, GLM-5.2 kosztuje 1,40$ za milion tokenów wejściowych i 4,40$ za tokeny wyjściowe. Niektórzy zewnętrzni dostawcy oferują jeszcze niższe ceny. Dla porównania, Claude Opus 4.7 kosztuje 5$ za wejście i 25$ za wyjście, podczas gdy GPT-5.5 wymaga 5$ za wejście i 30$ za wyjście.

Wyższe zużycie tokenów przez GLM częściowo zmniejsza tę przewagę cenową. Jednak Anthropic i OpenAI stoją przed poważną presją cenową, szczególnie w obszarze kodowania — flagowym przypadku użycia, na który stawiają obie zachodnie firmy.

Jeśli ta presja spowolni wzrost przychodów lub co gorsza je zmniejszy, już i tak zawyżony rynek AI może stanąć przed prawdziwym testem wytrzymałościowym. Wyceny OpenAI i Anthropic opierają się na założeniu, że przychody będą nadal szybko rosły. Te wyceny są powiązane z miliardowymi inwestycjami w infrastrukturę AI, od centrów danych po zamówienia chipów.

Mimo efektywnościowych przewag Opus 4.7, zespół Snowflake jest podekscytowany możliwościami GLM-5.2 i planuje udostępnić go swoim klientom.

#GLM-5.2 #Anthropic #Opus #Snowflake #porównanie modeli

Udostępnij

Źródła

The Decoder

Poprzedni

GPT-5.5-Cyber przewyższa model Mythos w cyberbezpieczeństwie

Następny

Google wprowadza funkcję computer use do Gemini 3.5 Flash

Podobne Publikacje

Biznes i Rynek

MoEngage przejmuje Aampe za dziesiątki milionów dolarów, stawiając na agentów AI w marketingu

Indyjska firma MoEngage kupiła startup Aampe, rozwijający agentów AI do personalizacji marketingu. Transakcja ma pomóc konkurować z Salesforce i Adobe.

3 min24 czerwca

Narzędzia i Aplikacje

Test Authors Guild: niektóre detektory AI idealnie rozpoznają ludzkie teksty, inne zawodzą przy każdym

Badanie największej organizacji pisarzy USA pokazuje dramatyczne różnice między detektorami AI — od 100% skuteczności do całkowitej porażki.

4 min25 czerwca

Modele AI

Apertus Mini — 16 małych modeli językowych demonstrujących techniki destylacji i kwantyzacji

Zespół Apertus AI wydał kolekcję 16 małych modeli językowych jako demonstrację zaawansowanych technik optymalizacji w ramach projektu suwerennej AI.

2 min22 czerwca

Kluczowe wnioski

GLM-5.2 i Opus 4.7 osiągnęły niemal identyczne wyniki końcowe w teście programistycznym — 66% vs 67% rozwiązanych zadań przy trzech próbach na zadanie.

Opus przewyższa GLM-5.2 w pierwszej próbie (53,7% vs 47,6%) i jest bardziej efektywny — wymaga średnio 80 iteracji na zadanie wobec 99 dla GLM i zużywa prawie dwukrotnie mniej tokenów.

GLM-5.2 kosztuje dramatycznie mniej: 4,40$ za milion tokenów wyjściowych wobec 25$ dla Claude Opus 4.7 i 30$ dla GPT-5.5, co tworzy poważną presję cenową na zachodnie firmy AI.

Chiński model wykazuje silne strony w walidacji kodu na różnych platformach jednocześnie, ale ma skłonność do przedwczesnego poddawania się i obsesyjnego sprawdzania błędnych elementów.

Szczegóły testu programistycznego

Ramaswamy zauważył, że twierdzenie o „czystszym kodzie” produkowanym przez GLM nie potwierdziło się w testach. Więcej sprawdzeń nie prowadzi do bardziej poprawnych rezultatów.

Presja cenowa na zachodni rynek AI

Mimo efektywnościowych przewag Opus 4.7, zespół Snowflake jest podekscytowany możliwościami GLM-5.2 i planuje udostępnić go swoim klientom.