
Źródło zdjęcia: Google
Google przedstawiło dziś Gemini 3.1 Flash TTS, najnowszy model zamiany tekstu na mowę, który oferuje ulepszoną kontrolę, ekspresyjność i jakość dźwięku. Nowa technologia ma umożliwić deweloperom, przedsiębiorstwom i użytkownikom tworzenie nowej generacji aplikacji wykorzystujących sztuczną mowę.
Kluczową nowością w Gemini 3.1 Flash TTS jest wprowadzenie tagów audio — intuicyjnego sposobu kontrolowania stylu głosu, tempa i sposobu wypowiedzi. Użytkownicy mogą teraz osadzać komendy w języku naturalnym bezpośrednio w tekście wejściowym, uzyskując precyzyjną kontrolę nad generowaną mową.
Model osiągnął imponujący wynik 1,211 punktów w skali Elo na rankingu Artificial Analysis TTS, który ocenia preferencje tysięcy użytkowników w ślepych testach. Artificial Analysis umieściło również Gemini 3.1 Flash TTS w "najbardziej atrakcyjnym kwadrancie" ze względu na idealne połączenie wysokiej jakości generowania mowy i niskich kosztów.
W Google AI Studio deweloperzy otrzymują dostęp do konfigurowalnych elementów sterowania, które stawiają ich w pozycji "reżysera":
Dzięki tym konfiguracjom deweloperzy mogą zwiększyć precyzję dla konkretnych scenariuszy, tworząc zapadające w pamięć postacie i immersyjne doświadczenia audio.
Gemini 3.1 Flash TTS zapewnia wysokiej jakości mowę i precyzyjną kontrolę w ponad 70 językach. Te podstawowe optymalizacje wprowadzają zaawansowaną kontrolę stylu, tempa i akcentu na głównych rynkach, pomagając deweloperom tworzyć zlokalizowane, ekspresyjne doświadczenia mowy dla użytkowników na skalę globalną.
Model jest obecnie wdrażany:

OpenAI potwierdza demograficzny przełom - kobiety przewyższają mężczyzn wśród użytkowników ChatGPT. Chiny wydają na AI do 125 mld dolarów.

OpenAI aktualizuje Codex o kontrolę aplikacji macOS, funkcję pamięci i generowanie obrazów w odpowiedzi na sukces Claude Code firmy Anthropic.
Wszystkie pliki audio generowane przez Gemini 3.1 Flash TTS są oznaczone watermarkiem SynthID. Ten niezauważalny znak wodny jest wpleciony bezpośrednio w dane audio, umożliwiając niezawodne wykrywanie treści generowanych przez AI w celu zapobiegania dezinformacji.
Wcześni testerzy z kręgów deweloperskich i przedsiębiorczych już dostrzegają wpływ 3.1 Flash TTS, podkreślając jego imponującą kontrolowalność i ekspresyjność. Jak informuje Google, użytkownicy wyrażają zadowolenie z tego, jak tagi audio zapewniają nowy poziom precyzji twórczej, transformując prosty tekst w wysokiej jakości występ wokalny.
Nowy model reprezentuje znaczący krok naprzód w technologii zamiany tekstu na mowę, oferując połączenie naturalności, kontroli i skalowalności, które może otworzyć nowe możliwości w aplikacjach od asystentów głosowych po narzędzia edukacyjne i rozrywkowe.