
Źródło zdjęcia: The Decoder
Google wprowadza swój najnowszy model text-to-speech oparty na Gemini 3.1 Flash, który firma określa jako najbardziej naturalny i ekspresyjny system syntezy mowy w swojej ofercie. Nowy model obsługuje ponad 70 języków i oferuje zaawansowane funkcje kontroli stylu wypowiedzi.
Kluczową nowością w modelu Gemini 3.1 Flash TTS są tzw. "audio tags" — proste komendy tekstowe, które pozwalają programistom kontrolować styl, tempo, ton i akcent generowanej mowy. System umożliwia również tworzenie dialogów z wieloma rozmówcami, co znacząco rozszerza możliwości zastosowań.
Według rankingu Artificial Analysis, model osiąga rating Elo na poziomie 1,211 punktów i wyróżnia się szczególnie korzystnym stosunkiem jakości do ceny. W bezpośrednim porównaniu przewyższa jakościowo model Elevenlabs v3, plasując się tuż za Inworld 1.5 Max w ogólnej klasyfikacji.
Google oferuje dwa poziomy dostępu do swojego systemu TTS. Wariant bezpłatny pozwala na korzystanie z modelu, jednak firma wykorzystuje wówczas dane użytkowników do ulepszania swoich produktów. Płatna wersja kosztuje 1,00 dolara za milion tokenów dla wejścia tekstowego i 20,00 dolarów za milion tokenów dla wyjścia audio.
Dla użytkowników przetwarzających większe ilości danych dostępny jest tryb wsadowy, który obniża koszty o połowę — do 0,50 dolara i 10,00 dolarów odpowiednio. Ważną zaletą płatnej wersji jest gwarancja, że Google nie będzie wykorzystywać danych użytkowników do dalszego rozwoju produktu.
Model Gemini 3.1 Flash TTS jest dostępny w formie podglądu przez kilka kanałów dystrybucji. Programiści mogą korzystać z niego poprzez Gemini API oraz Google AI Studio, podczas gdy użytkownicy biznesowi mają dostęp przez platformę Vertex AI. Dodatkowo system jest zintegrowany z Google Vids dla użytkowników pakietu Workspace.
Każdy może bezpłatnie przetestować możliwości modelu w Google AI Studio. Wszystkie wygenerowane pliki audio są oznaczane wodnym znakiem SynthID od Google, który identyfikuje treści utworzone przez sztuczną inteligencję.
Wprowadzenie modelu Gemini 3.1 Flash TTS z obsługą ponad 70 języków stanowi istotny krok w rozwoju technologii syntezy mowy. Kombinacja wysokiej jakości dźwięku, zaawansowanych funkcji kontroli stylu oraz konkurencyjnych cen może znacząco wpłynąć na rynek rozwiązań text-to-speech, szczególnie w kontekście aplikacji wielojęzycznych i międzynarodowych projektów.

OpenAI potwierdza demograficzny przełom - kobiety przewyższają mężczyzn wśród użytkowników ChatGPT. Chiny wydają na AI do 125 mld dolarów.

OpenAI aktualizuje Codex o kontrolę aplikacji macOS, funkcję pamięci i generowanie obrazów w odpowiedzi na sukces Claude Code firmy Anthropic.
Dostępność funkcji audio tags otwiera nowe możliwości dla twórców treści, programistów aplikacji i firm zajmujących się automatyzacją komunikacji głosowej.