Test programistyczny pokazał zbliżoną skuteczność GLM-5.2 i Opus 4.7, ale dramatyczna różnica w cenie może wywrócić rynek AI do góry nogami.

Źródło zdjęcia: The Decoder
CEO Snowflake porównał w praktycznym teście chiński model GLM-5.2 z Anthropic Opus 4.7, sprawdzając ich wydajność w zadaniach programistycznych. Wyniki pokazują, że mimo zbliżonej skuteczności końcowej, różnice w cenie mogą znacząco wpłynąć na rynek zachodnich firm AI. Pełne szczegóły testu i analizy dostępne są w oryginalnym artykule opublikowanym przez The Decoder.
Test przeprowadzony przez Snowflake obejmował 103 zadania, każde wykonywane trzykrotnie. Modele musiały napisać kod działający zarówno na DuckDB, jak i Snowflake. CEO Snowflake Sridhar Ramaswamy podkreślił, że GLM-5.2 wykazał szczególną siłę w jednoczesnej walidacji kodu na obu platformach, co pozwoliło mu rozwiązać niektóre zadania, z którymi nie poradził sobie Opus.
Jednak chiński model ma również wyraźne słabości. W jednym z zadań GLM wykonał 411 wywołań narzędzi w ciągu 24 minut, sprawdzając liczbę wierszy, rozkłady, wartości null i typy kolumn, ale nadal nie zdołał rozwiązać zadania w żadnej z trzech prób. Opus rozwiązał to samo zadanie używając 49 wywołań w 9 minut.
Ramaswamy zauważył, że twierdzenie o „czystszym kodzie” produkowanym przez GLM nie potwierdziło się w testach. Więcej sprawdzeń nie prowadzi do bardziej poprawnych rezultatów.
Różnice w cenie są kluczowe dla interpretacji wyników. Według oficjalnego cennika Zhipu, GLM-5.2 kosztuje 1,40$ za milion tokenów wejściowych i 4,40$ za tokeny wyjściowe. Niektórzy zewnętrzni dostawcy oferują jeszcze niższe ceny. Dla porównania, Claude Opus 4.7 kosztuje 5$ za wejście i 25$ za wyjście, podczas gdy GPT-5.5 wymaga 5$ za wejście i 30$ za wyjście.
Wyższe zużycie tokenów przez GLM częściowo zmniejsza tę przewagę cenową. Jednak Anthropic i OpenAI stoją przed poważną presją cenową, szczególnie w obszarze kodowania — flagowym przypadku użycia, na który stawiają obie zachodnie firmy.
Jeśli ta presja spowolni wzrost przychodów lub co gorsza je zmniejszy, już i tak zawyżony rynek AI może stanąć przed prawdziwym testem wytrzymałościowym. Wyceny OpenAI i Anthropic opierają się na założeniu, że przychody będą nadal szybko rosły. Te wyceny są powiązane z miliardowymi inwestycjami w infrastrukturę AI, od centrów danych po zamówienia chipów.
Mimo efektywnościowych przewag Opus 4.7, zespół Snowflake jest podekscytowany możliwościami GLM-5.2 i planuje udostępnić go swoim klientom.

Indyjska firma MoEngage kupiła startup Aampe, rozwijający agentów AI do personalizacji marketingu. Transakcja ma pomóc konkurować z Salesforce i Adobe.

Badanie największej organizacji pisarzy USA pokazuje dramatyczne różnice między detektorami AI — od 100% skuteczności do całkowitej porażki.
Zespół Apertus AI wydał kolekcję 16 małych modeli językowych jako demonstrację zaawansowanych technik optymalizacji w ramach projektu suwerennej AI.