
Źródło zdjęcia: Google
Google DeepMind zaprezentowało dziś Gemini 3.1 Flash TTS — nowy model zamiany tekstu na mowę, który wprowadza znaczące ulepszenia w zakresie kontroli, ekspresyjności i jakości generowanego głosu. Szczegóły tej premiery przedstawiono w oficjalnym wpisie na blogu DeepMind.
Model rozpoczyna dziś wdrażanie w trzech obszarach: dla deweloperów w wersji preview poprzez Gemini API i Google AI Studio, dla przedsiębiorstw w preview na Vertex AI, oraz dla użytkowników Workspace poprzez Google Vids.
Nowy Gemini 3.1 Flash TTS osiągnął imponujący wynik 1,211 punktów Elo w rankingu Artificial Analysis TTS, benchmarku opartym na tysiącach ślepych ocen użytkowników. Artificial Analysis umieściło model w swojej "najbardziej atrakcyjnej ćwiartce" ze względu na idealne połączenie wysokiej jakości generowania mowy z niskimi kosztami.
Model wyróżnia się natywnym wsparciem dla dialogów wielomówców, obsługą ponad 70 języków oraz szczegółową kontrolą kreatywną poprzez język naturalny.
Kluczową nowością w 3.1 Flash TTS są tagi audio — intuicyjny sposób kontrolowania stylu wokalnego, tempa i sposobu przekazu. Poprzez osadzanie komend w języku naturalnym bezpośrednio w tekście wejściowym, użytkownicy mogą sterować wynikiem AI z niespotykaną dotąd precyzją.
Google AI Studio oferuje deweloperom konfigurowalne kontrole, stawiając ich w roli "reżysera":
Kierunek sceniczny: Możliwość zdefiniowania środowiska i dostarczenia konkretnych instrukcji dialogowych. Ten kontekst budowania świata pomaga postaciom pozostać "w charakterze" i naturalnie reagować na siebie nawzajem przez wiele tur.
Specyfika na poziomie mówcy: Obsada postaci przy użyciu unikalnych profili audio, z możliwością określenia notatek reżysera do przełączania tempa, tonu i akcentu. Używając tagów inline, mówcy mogą odbiegać od tych ogólnych ustawień, zmieniając ekspresję w środku zdania.
Bezproblemowy eksport: Po udoskonaleniu performansu, te dokładne parametry można wyeksportować jako kod Gemini API, zapewniając spójne, rozpoznawalne głosy w różnych projektach i platformach.
Gemini 3.1 Flash TTS dostarcza wysokiej jakości mowę z precyzyjną kontrolą w ponad 70 językach. Te kluczowe optymalizacje wprowadzają zaawansowaną kontrolę stylu, tempa i akcentu na głównych rynkach, pomagając deweloperom tworzyć zlokalizowane, ekspresyjne doświadczenia mowy dla użytkowników na skalę globalną.

OpenAI potwierdza demograficzny przełom - kobiety przewyższają mężczyzn wśród użytkowników ChatGPT. Chiny wydają na AI do 125 mld dolarów.

OpenAI aktualizuje Codex o kontrolę aplikacji macOS, funkcję pamięci i generowanie obrazów w odpowiedzi na sukces Claude Code firmy Anthropic.
Wszechiej audio generowane przez Gemini 3.1 Flash TTS jest opatrzone watermarkiem SynthID. Ten niezauważalny znak wodny jest wpleciony bezpośrednio w wyjście audio, umożliwiając niezawodne wykrywanie treści generowanych przez AI w celu przeciwdziałania dezinformacji.
Wczesni testerzy — zarówno deweloperzy, jak i przedsiębiorstwa — już dostrzegają wpływ 3.1 Flash TTS, podkreślając jego imponującą kontrolowalność i ekspresyjność. Jak relacjonują, tagi audio zapewniają nowy poziom precyzji kreatywnej, przekształcając prosty tekst w wysokiej jakości performans wokalny.
Model można już testować w Google AI Studio Playground, gdzie dostępne są wszystkie nowe funkcje kontroli wysokiej jakości generowania mowy.