Źródło zdjęcia: Claude Code Camp
Badacz niezależnie zmierzył rzeczywiste koszty tokenizerów w nowym modelu Claude Opus 4.7 firmy Anthropic i odkrył, że oficjalne szacunki mogą nie oddawać pełnego obrazu. Podczas gdy dokumentacja Anthropic przewiduje wzrost liczby tokenów o 1,0-1,35x w porównaniu do wersji 4.6, rzeczywiste pomiary pokazują nawet 1,47x więcej tokenów w przypadku dokumentacji technicznej.
Autor przeprowadził eksperymenty wykorzystując API Anthropic /v1/messages/count_tokens do bezpośredniego porównania liczby tokenów między modelami 4.6 i 4.7. Pierwsza grupa testów obejmowała siedem próbek rzeczywistych treści używanych przez programistów Claude Code: pliki CLAUDE.md, prompty użytkowników, posty blogowe, logi git, dane terminala, ślady błędów i diffy kodu.
Druga grupa zawierała dwanaście syntetycznych próbek różnych typów treści - od prozy angielskiej przez kod po dane strukturalne i języki CJK. Wszystkie pomiary wykorzystywały identyczne treści testowane na obu modelach, izolując w ten sposób wpływ samego tokenizera.
Wyniki pokazują wyraźny wzorzec: treści w językach angielskim i kodzie doświadczają znacznie większego wzrostu liczby tokenów (1,20-1,47x) niż treści w językach CJK, emoji czy symbole (1,005-1,07x).
Dane wskazują, że tokenizer 4.7 używa krótszych lub mniej częstych połączeń pod-słów dla popularnych wzorców angielskich i kodu. Stosunek znaków do tokenów dla języka angielskiego spadł z 4,33 do 3,60, a dla TypeScript z 3,66 do 2,69, co oznacza reprezentowanie tego samego tekstu w mniejszych fragmentach.

Nowy model Google DeepMind poprawia zdolności robotów do planowania i percepcji. Współpraca z Boston Dynamics przynosi przełom w odczycie przyrządów.

OpenAI traci kolejnych kluczowych pracowników — po rezygnacji z rozwoju narzędzia do generowania wideo Sora w marcu, firmę opuścił Bill Peebles, który kierował tym projektem. Odchodzi również Kevin We
Kod jest szczególnie dotknięty ze względu na częste powtarzanie ciągów o wysokiej częstotliwości - słów kluczowych, importów, identyfikatorów - dokładnie tych wzorców, które poprzedni tokenizer kompresował w długie połączenia.
Anthropic twierdzi, że kompensatą za wyższe koszty tokenów jest "bardziej dosłowne wykonywanie instrukcji, szczególnie przy niższym poziomie wysiłku". Mniejsze tokeny zmuszają model do zwracania uwagi na poszczególne słowa, co jest udokumentowanym mechanizmem poprawy precyzji w zadaniach na poziomie znaków i wywołań narzędzi.
Testy na benchmarku IFEval potwierdzają niewielką, ale konsekwentną poprawę w ścisłym wykonywaniu instrukcji - wzrost z 85% do 90% na poziomie promptów i z 86% do 90% na poziomie instrukcji. Jednak skala tej poprawy może nie uzasadniać znacząco wyższych kosztów operacyjnych dla wszystkich przypadków użycia.