Modele AI15 kwietnia 20263 min czytania

Google wprowadza Gemini 3.1 Flash TTS z precyzyjną kontrolą mowy AI

Nowy model text-to-speech z tagami audio pozwala na dokładne sterowanie stylem głosu w ponad 70 językach.

Źródło zdjęcia: Google

Google przedstawiło dziś Gemini 3.1 Flash TTS, najnowszy model zamiany tekstu na mowę, który oferuje ulepszoną kontrolę, ekspresyjność i jakość dźwięku. Nowa technologia ma umożliwić deweloperom, przedsiębiorstwom i użytkownikom tworzenie nowej generacji aplikacji wykorzystujących sztuczną mowę.

Lepsze sterowanie głosem dzięki tagom audio

Kluczową nowością w Gemini 3.1 Flash TTS jest wprowadzenie tagów audio — intuicyjnego sposobu kontrolowania stylu głosu, tempa i sposobu wypowiedzi. Użytkownicy mogą teraz osadzać komendy w języku naturalnym bezpośrednio w tekście wejściowym, uzyskując precyzyjną kontrolę nad generowaną mową.

Model osiągnął imponujący wynik 1,211 punktów w skali Elo na rankingu Artificial Analysis TTS, który ocenia preferencje tysięcy użytkowników w ślepych testach. Artificial Analysis umieściło również Gemini 3.1 Flash TTS w "najbardziej atrakcyjnym kwadrancie" ze względu na idealne połączenie wysokiej jakości generowania mowy i niskich kosztów.

Nowe możliwości dla deweloperów

W Google AI Studio deweloperzy otrzymują dostęp do konfigurowalnych elementów sterowania, które stawiają ich w pozycji "reżysera":

Reżyseria sceny: Możliwość definiowania środowiska i dostarczania konkretnych instrukcji dialogu, co pomaga postaciom pozostać "w charakterze"
Specyfikacja na poziomie mówcy: Tworzenie unikalnych profili audio dla postaci z możliwością dostosowywania tempa, tonu i akcentu
Płynny eksport: Perfekt parametrów można eksportować jako kod Gemini API, zapewniając spójne, rozpoznawalne głosy w różnych projektach

Dzięki tym konfiguracjom deweloperzy mogą zwiększyć precyzję dla konkretnych scenariuszy, tworząc zapadające w pamięć postacie i immersyjne doświadczenia audio.

Globalna skala i wielojęzyczność

Gemini 3.1 Flash TTS zapewnia wysokiej jakości mowę i precyzyjną kontrolę w ponad 70 językach. Te podstawowe optymalizacje wprowadzają zaawansowaną kontrolę stylu, tempa i akcentu na głównych rynkach, pomagając deweloperom tworzyć zlokalizowane, ekspresyjne doświadczenia mowy dla użytkowników na skalę globalną.