Modele AI15 kwietnia 20263 min czytania

Google wprowadza najbardziej ekspresyjny model Gemini 3.1 TTS z obsługą ponad 70 języków

Nowy system text-to-speech od Google oferuje zaawansowaną kontrolę stylu mowy i konkurencyjne ceny przy wysokiej jakości dźwięku.

Źródło zdjęcia: The Decoder

Google wprowadza swój najnowszy model text-to-speech oparty na Gemini 3.1 Flash, który firma określa jako najbardziej naturalny i ekspresyjny system syntezy mowy w swojej ofercie. Nowy model obsługuje ponad 70 języków i oferuje zaawansowane funkcje kontroli stylu wypowiedzi.

Zaawansowane funkcje kontroli mowy

Kluczową nowością w modelu Gemini 3.1 Flash TTS są tzw. "audio tags" — proste komendy tekstowe, które pozwalają programistom kontrolować styl, tempo, ton i akcent generowanej mowy. System umożliwia również tworzenie dialogów z wieloma rozmówcami, co znacząco rozszerza możliwości zastosowań.

Pozycja na rynku i wydajność

Według rankingu Artificial Analysis, model osiąga rating Elo na poziomie 1,211 punktów i wyróżnia się szczególnie korzystnym stosunkiem jakości do ceny. W bezpośrednim porównaniu przewyższa jakościowo model Elevenlabs v3, plasując się tuż za Inworld 1.5 Max w ogólnej klasyfikacji.

Model cenowy i dostępność

Google oferuje dwa poziomy dostępu do swojego systemu TTS. Wariant bezpłatny pozwala na korzystanie z modelu, jednak firma wykorzystuje wówczas dane użytkowników do ulepszania swoich produktów. Płatna wersja kosztuje 1,00 dolara za milion tokenów dla wejścia tekstowego i 20,00 dolarów za milion tokenów dla wyjścia audio.

Dla użytkowników przetwarzających większe ilości danych dostępny jest tryb wsadowy, który obniża koszty o połowę — do 0,50 dolara i 10,00 dolarów odpowiednio. Ważną zaletą płatnej wersji jest gwarancja, że Google nie będzie wykorzystywać danych użytkowników do dalszego rozwoju produktu.

Dostęp i zabezpieczenia

Model Gemini 3.1 Flash TTS jest dostępny w formie podglądu przez kilka kanałów dystrybucji. Programiści mogą korzystać z niego poprzez Gemini API oraz Google AI Studio, podczas gdy użytkownicy biznesowi mają dostęp przez platformę Vertex AI. Dodatkowo system jest zintegrowany z Google Vids dla użytkowników pakietu Workspace.

Każdy może bezpłatnie przetestować możliwości modelu w Google AI Studio. Wszystkie wygenerowane pliki audio są oznaczane wodnym znakiem SynthID od Google, który identyfikuje treści utworzone przez sztuczną inteligencję.

Znaczenie dla branży

Wprowadzenie modelu Gemini 3.1 Flash TTS z obsługą ponad 70 języków stanowi istotny krok w rozwoju technologii syntezy mowy. Kombinacja wysokiej jakości dźwięku, zaawansowanych funkcji kontroli stylu oraz konkurencyjnych cen może znacząco wpłynąć na rynek rozwiązań text-to-speech, szczególnie w kontekście aplikacji wielojęzycznych i międzynarodowych projektów.

Podobne Publikacje

Modele AI

ChatGPT odwrócił proporcje użytkowników - kobiety stanowią już ponad 50% użytkowników

OpenAI potwierdza demograficzny przełom - kobiety przewyższają mężczyzn wśród użytkowników ChatGPT. Chiny wydają na AI do 125 mld dolarów.

4 min16 kwietnia 2026