GPT-Realtime-2 oferuje rozumowanie porównywalnych z GPT-5 w rozmowach na żywo. Nowe modele tłumaczą i transkrybują w czasie rzeczywistym.

Źródło zdjęcia: The Decoder
OpenAI przedstawiło trzy nowe modele głosowe zdolne do rozumowania, tłumaczenia i transkrypcji w czasie rzeczywistym. Najważniejszy z nich, GPT-Realtime-2, oferuje możliwości rozumowania porównywalne z GPT-5, co stanowi znaczący postęp w stosunku do dotychczasowych asystentów głosowych, które były znacznie słabsze od swoich tekstowych odpowiedników. Szczegóły nowych rozwiązań opisuje The Decoder.
Według OpenAI nowoczesny agent głosowy musi rozumieć prawdziwe intencje użytkownika, śledzić kontekst, adaptować się do zmian, korzystać z narzędzi i odpowiednio reagować — wszystko jednocześnie. Firma zidentyfikowała trzy główne wzorce interakcji: Voice-to-Action (użytkownik opisuje potrzeby, system rozumuje i wykonuje zadania), Systems-to-Voice (oprogramowanie przekształca kontekst w mówione wskazówki) oraz Voice-to-Voice (AI pomaga w rozmowach przekraczających bariery językowe).
GPT-Realtime-2 wprowadza szereg innowacji technicznych mających na celu rozwiązanie problemów dotychczasowych asystentów głosowych. Model wykorzystuje „sztuczki zwlekające” jak frazy „pozwól, że sprawdzę” czy „jeden moment”, aby kupić sobie czas na myślenie. Krótkie zdania wprowadzające informują użytkownika o działaniu systemu, a w przypadku problemów model nie milknie, lecz komunikuje trudności słowami „mam z tym teraz problem”.
System lepiej radzi sobie ze specjalistyczną terminologią, nazwami własnymi i terminami medycznymi niż jego poprzednik. Ton głosu jest bardziej kontrolowalny — spokojny podczas rozwiązywania problemów, empatyczny wobec sfrustrowanych użytkowników i radosny po udanych akcjach. Model może równolegle wywoływać wiele narzędzi, co znacznie zwiększa jego praktyczność.
GPT-Realtime-Translate to samodzielny model tłumaczeń na żywo, który zachowuje znaczenie przy jednoczesnym dotrzymywaniu kroku mówcy. Radzi sobie ze zmianami kontekstu, regionalnymi akcentami i specjalistycznym słownictwem. Zastosowania obejmują obsługę klienta, sprzedaż transgraniczną, edukację, wydarzenia i media.
GPT-Realtime-Whisper to model transkrypcji strumieniowej o niskim opóźnieniu, przeznaczony do tworzenia napisów na żywo dla spotkań, sal lekcyjnych, transmisji i wydarzeń. Zespoły mogą wykorzystywać go do generowania notatek i podsumowań podczas trwających rozmów, budowania agentów głosowych z ciągłym rozumieniem mowy oraz tworzenia szybszych procesów obsługi klienta, opieki zdrowotnej, sprzedaży i rekrutacji.
Cennik opiera się na tokenach i minutach użytkowania: GPT-Realtime-2 kosztuje 32 dolary za milion tokenów audio wejściowych i 64 dolary za tokeny wyjściowe, GPT-Realtime-Translate — 0,034 dolara za minutę, a GPT-Realtime-Whisper — 0,017 dolara za minutę. Wszystkie modele dostępne są przez Realtime API z możliwością testowania w Playground.
Te zaawansowane możliwości głosowe mają wkrótce trafić również do trybu audio ChatGPT, co może uczynić głos głównym interfejsem interakcji z AI.

Pionier sztucznej inteligencji skrytykował firmę Muska za problemy kadrowe i przewiduje kryzys w branży AI z powodu nierentownego modelu biznesowego.

NVIDIA Rubin to pierwsza platforma AI z 100% chłodzeniem płynnym, która może zaoszczędzić 4 mln dol. rocznie i wyeliminować zużycie wody w centrach danych.

Cerebras Systems odnotował 94% wzrost przychodów, ale prognozy marż brutto spowodowały spadek akcji o niemal 20%. CEO tłumaczy strategię.