8 maja 20264 min czytania

OpenAI prezentuje modele głosowe z rozumowaniem na poziomie GPT-5

GPT-Realtime-2 oferuje rozumowanie porównywalnych z GPT-5 w rozmowach na żywo. Nowe modele tłumaczą i transkrybują w czasie rzeczywistym.

Źródło zdjęcia: The Decoder

OpenAI przedstawiło trzy nowe modele głosowe zdolne do rozumowania, tłumaczenia i transkrypcji w czasie rzeczywistym. Najważniejszy z nich, GPT-Realtime-2, oferuje możliwości rozumowania porównywalne z GPT-5, co stanowi znaczący postęp w stosunku do dotychczasowych asystentów głosowych, które były znacznie słabsze od swoich tekstowych odpowiedników. Szczegóły nowych rozwiązań opisuje The Decoder.

Według OpenAI nowoczesny agent głosowy musi rozumieć prawdziwe intencje użytkownika, śledzić kontekst, adaptować się do zmian, korzystać z narzędzi i odpowiednio reagować — wszystko jednocześnie. Firma zidentyfikowała trzy główne wzorce interakcji: Voice-to-Action (użytkownik opisuje potrzeby, system rozumuje i wykonuje zadania), Systems-to-Voice (oprogramowanie przekształca kontekst w mówione wskazówki) oraz Voice-to-Voice (AI pomaga w rozmowach przekraczających bariery językowe).

Kluczowe wnioski

GPT-Realtime-2 oferuje rozumowanie na poziomie GPT-5 z oknem kontekstu zwiększonym z 32 000 do 128 000 tokenów.
Model posiada pięć poziomów intensywności rozumowania (minimalny, niski, średni, wysoki i bardzo wysoki), pozwalając programistom dostosować głębokość przetwarzania.
W testach Big Bench Audio GPT-Realtime-2 osiągnął 96,6% dokładności w ustawieniu „high”, w porównaniu do 81,4% poprzednika.
GPT-Realtime-Translate obsługuje ponad 70 języków wejściowych i 13 języków wyjściowych dla tłumaczeń na żywo.
Wszystkie trzy modele są już dostępne przez Realtime API z cenami opartymi na tokenach i minutach użytkowania.

Przełom w rozumowaniu głosowym

GPT-Realtime-2 wprowadza szereg innowacji technicznych mających na celu rozwiązanie problemów dotychczasowych asystentów głosowych. Model wykorzystuje „sztuczki zwlekające” jak frazy „pozwól, że sprawdzę” czy „jeden moment”, aby kupić sobie czas na myślenie. Krótkie zdania wprowadzające informują użytkownika o działaniu systemu, a w przypadku problemów model nie milknie, lecz komunikuje trudności słowami „mam z tym teraz problem”.

System lepiej radzi sobie ze specjalistyczną terminologią, nazwami własnymi i terminami medycznymi niż jego poprzednik. Ton głosu jest bardziej kontrolowalny — spokojny podczas rozwiązywania problemów, empatyczny wobec sfrustrowanych użytkowników i radosny po udanych akcjach. Model może równolegle wywoływać wiele narzędzi, co znacznie zwiększa jego praktyczność.

Tłumaczenia i transkrypcje w czasie rzeczywistym

GPT-Realtime-Translate to samodzielny model tłumaczeń na żywo, który zachowuje znaczenie przy jednoczesnym dotrzymywaniu kroku mówcy. Radzi sobie ze zmianami kontekstu, regionalnymi akcentami i specjalistycznym słownictwem. Zastosowania obejmują obsługę klienta, sprzedaż transgraniczną, edukację, wydarzenia i media.

GPT-Realtime-Whisper to model transkrypcji strumieniowej o niskim opóźnieniu, przeznaczony do tworzenia napisów na żywo dla spotkań, sal lekcyjnych, transmisji i wydarzeń. Zespoły mogą wykorzystywać go do generowania notatek i podsumowań podczas trwających rozmów, budowania agentów głosowych z ciągłym rozumieniem mowy oraz tworzenia szybszych procesów obsługi klienta, opieki zdrowotnej, sprzedaży i rekrutacji.

Cennik opiera się na tokenach i minutach użytkowania: GPT-Realtime-2 kosztuje 32 dolary za milion tokenów audio wejściowych i 64 dolary za tokeny wyjściowe, GPT-Realtime-Translate — 0,034 dolara za minutę, a GPT-Realtime-Whisper — 0,017 dolara za minutę. Wszystkie modele dostępne są przez Realtime API z możliwością testowania w Playground.

Te zaawansowane możliwości głosowe mają wkrótce trafić również do trybu audio ChatGPT, co może uczynić głos głównym interfejsem interakcji z AI.

#tłumaczenia #GPT-Realtime-2 #OpenAI #modele głosowe #sztuczna inteligencja

Udostępnij

Źródła

The Decoder

Poprzedni

ChatGPT ma obsesję na punkcie chińskiej frazy o 'łapaniu'. Użytkownicy tworzą memy

Następny

OpenAI uruchamia program Trusted Access for Cyber dla modeli GPT-5.5

Podobne Publikacje

Badania i Nauka

Nowa metoda wykrywa i kontroluje sykofancję w modelach AI za pomocą kaskadowych cech liniowych

Badacze opracowali innowacyjną technikę eliminowania tendencji modeli AI do priorytetyzowania walidacji użytkownika nad prawdą.

3 min26 czerwca

Narzędzia i Aplikacje

Facebook wprowadza aplikację z asystentem AI dla twórców treści

Meta przekształca Creator Studio w samodzielną aplikację z AI, która dostarcza spersonalizowane rekomendacje i automatyzuje zarządzanie komentarzami.

3 min24 czerwca

Poradniki

Dostrojenie lokalnego modelu Qwen 3:0.6B do kategoryzacji pytań przynosi dobre rezultaty

Eksperyment z modelem o 600M parametrów pokazuje, jak małe LLM można przekształcić w skuteczny klasyfikator pytań domowych.

4 min22 czerwca

Kluczowe wnioski

GPT-Realtime-2 oferuje rozumowanie na poziomie GPT-5 z oknem kontekstu zwiększonym z 32 000 do 128 000 tokenów.

Model posiada pięć poziomów intensywności rozumowania (minimalny, niski, średni, wysoki i bardzo wysoki), pozwalając programistom dostosować głębokość przetwarzania.

W testach Big Bench Audio GPT-Realtime-2 osiągnął 96,6% dokładności w ustawieniu „high”, w porównaniu do 81,4% poprzednika.

GPT-Realtime-Translate obsługuje ponad 70 języków wejściowych i 13 języków wyjściowych dla tłumaczeń na żywo.

Wszystkie trzy modele są już dostępne przez Realtime API z cenami opartymi na tokenach i minutach użytkowania.

Przełom w rozumowaniu głosowym

Tłumaczenia i transkrypcje w czasie rzeczywistym

Te zaawansowane możliwości głosowe mają wkrótce trafić również do trybu audio ChatGPT, co może uczynić głos głównym interfejsem interakcji z AI.