Nowy model Google tłumaczy mowę w czasie rzeczywistym dla ponad 70 języków, zachowując ton i tempo głosu. Dostępny już w Google Meet i Translate.

Źródło zdjęcia: The Decoder
Google wprowadza Gemini 3.5 Live Translate, nowy model sztucznej inteligencji do tłumaczenia mowy w czasie rzeczywistym dla ponad 70 języków. System automatycznie wykrywa język i, jak twierdzi Google, zachowuje ton, tempo i wysokość głosu mówiącego. Model jest już dostępny dla deweloperów i użytkowników.
Technologia tłumaczy wypowiedzi w sposób ciągły, nie czekając na zakończenie całego zdania. Wszystkie wygenerowane nagrania audio są oznaczone niewidocznym znakiem wodnym SynthID.
Gemini 3.5 Live Translate jest obecnie dostępny w kilku wersjach. Deweloperzy mogą korzystać z modelu przez Gemini Live API oraz Google AI Studio. Firmy otrzymują dostęp do wersji preview w Google Meet, podczas gdy wszyscy użytkownicy mogą już testować funkcję w aplikacji Google Translate na systemach Android i iOS.
Szczególnie znaczącą zmianą jest rozszerzenie możliwości Google Meet. Platforma do wideokonferencji zwiększyła wsparcie językowe z zaledwie pięciu języków do ponad 70, co daje użytkownikom dostęp do ponad 2000 różnych kombinacji językowych.
Usługa transportowa Grab już testuje nowy model do usprawnienia komunikacji między kierowcami a pasażerami. To pokazuje praktyczne zastosowanie technologii w branży usług transportowych, gdzie bariery językowe mogą stanowić znaczący problem operacyjny.
Google zastosowało także rozwiązania bezpieczeństwa w postaci SynthID — niewidocznego znaku wodnego, który oznacza wszystkie wygenerowane nagrania audio. To zabezpieczenie ma pomóc w identyfikacji treści wygenerowanych przez AI.
Wprowadzenie Gemini 3.5 Live Translate stanowi kolejny krok Google w rozwoju technologii tłumaczenia w czasie rzeczywistym, oferując użytkownikom bardziej naturalne i płynne doświadczenie komunikacji międzykulturowej.

Meta testowała funkcję tworzącą clickbaitowe artykuły AI z błędnymi informacjami i obrazami rzeczywistych osób, wycofując ją po interwencji The Verge.

Brytyjska infrastruktura AI rozwija się dynamicznie — liczba dostawców podwoiła się, a superkomputer Isambard napędza krajowe innowacje w oparciu o technologie NVIDIA.

Meta ukrywa kod rozpoznawania twarzy na 50 mln telefonów, a chińskie laboratoria z fentanylu przeszły na rynek peptydów wart 100 mln dolarów rocznie.