Modele AI15 kwietnia 20263 min czytania

Google prezentuje Gemini 3.1 Flash TTS z precyzyjną kontrolą głosu przez tagi audio

Nowy model TTS od DeepMind oferuje wyższą jakość mowy, wsparcie dla 70+ języków i innowacyjne tagi audio do kontroli stylu i tempa głosu.

Źródło zdjęcia: Google

Google DeepMind zaprezentowało dziś Gemini 3.1 Flash TTS — nowy model zamiany tekstu na mowę, który wprowadza znaczące ulepszenia w zakresie kontroli, ekspresyjności i jakości generowanego głosu. Szczegóły tej premiery przedstawiono w oficjalnym wpisie na blogu DeepMind.

Model rozpoczyna dziś wdrażanie w trzech obszarach: dla deweloperów w wersji preview poprzez Gemini API i Google AI Studio, dla przedsiębiorstw w preview na Vertex AI, oraz dla użytkowników Workspace poprzez Google Vids.

Wyższa jakość i precyzyjna kontrola

Nowy Gemini 3.1 Flash TTS osiągnął imponujący wynik 1,211 punktów Elo w rankingu Artificial Analysis TTS, benchmarku opartym na tysiącach ślepych ocen użytkowników. Artificial Analysis umieściło model w swojej "najbardziej atrakcyjnej ćwiartce" ze względu na idealne połączenie wysokiej jakości generowania mowy z niskimi kosztami.

Model wyróżnia się natywnym wsparciem dla dialogów wielomówców, obsługą ponad 70 języków oraz szczegółową kontrolą kreatywną poprzez język naturalny.

Rewolucyjne tagi audio

Kluczową nowością w 3.1 Flash TTS są tagi audio — intuicyjny sposób kontrolowania stylu wokalnego, tempa i sposobu przekazu. Poprzez osadzanie komend w języku naturalnym bezpośrednio w tekście wejściowym, użytkownicy mogą sterować wynikiem AI z niespotykaną dotąd precyzją.

Google AI Studio oferuje deweloperom konfigurowalne kontrole, stawiając ich w roli "reżysera":

Kierunek sceniczny: Możliwość zdefiniowania środowiska i dostarczenia konkretnych instrukcji dialogowych. Ten kontekst budowania świata pomaga postaciom pozostać "w charakterze" i naturalnie reagować na siebie nawzajem przez wiele tur.

Specyfika na poziomie mówcy: Obsada postaci przy użyciu unikalnych profili audio, z możliwością określenia notatek reżysera do przełączania tempa, tonu i akcentu. Używając tagów inline, mówcy mogą odbiegać od tych ogólnych ustawień, zmieniając ekspresję w środku zdania.

Bezproblemowy eksport: Po udoskonaleniu performansu, te dokładne parametry można wyeksportować jako kod Gemini API, zapewniając spójne, rozpoznawalne głosy w różnych projektach i platformach.

Globalna skala i bezpieczeństwo

Gemini 3.1 Flash TTS dostarcza wysokiej jakości mowę z precyzyjną kontrolą w ponad 70 językach. Te kluczowe optymalizacje wprowadzają zaawansowaną kontrolę stylu, tempa i akcentu na głównych rynkach, pomagając deweloperom tworzyć zlokalizowane, ekspresyjne doświadczenia mowy dla użytkowników na skalę globalną.

Podobne Publikacje

Modele AI

ChatGPT odwrócił proporcje użytkowników - kobiety stanowią już ponad 50% użytkowników

OpenAI potwierdza demograficzny przełom - kobiety przewyższają mężczyzn wśród użytkowników ChatGPT. Chiny wydają na AI do 125 mld dolarów.

4 min16 kwietnia 2026