1 maja 20264 min czytania

AI ko-klinicysta Google pokonuje GPT-5.4 w testach lekarzy, ale ustępuje doświadczonym lekarzom

Google Deepmind testuje AI ko-klinicystę, który wygrał z GPT-5.4 w ślepych testach lekarzy, ale wciąż ma lukę w wykrywaniu objawów alarmowych.

Źródło zdjęcia: The Decoder

Poprzedni

Nowy framework ułatwia migrację modeli językowych w systemach produkcyjnych

Następny

Pierwszy system AI autonomicznie odkrył nowy mechanizm fizyczny w laboratorium optycznym

Podobne Publikacje

Biznes i Rynek

„Myślałem, że mnie uderzy” — dramatyczne zeznania współzałożyciela OpenAI o konflikcie z Muskiem

Greg Brockman opisał w sądzie agresywne zachowanie Elona Muska podczas spotkania w 2017 roku, gdy CEO Tesli żądał pełnej kontroli nad OpenAI.

4 min6 maja

Biznes i Rynek

Dostosowywanie rozwiązań AI do potrzeb służby zdrowia

FDA zatwierdziła już ponad 1300 urządzeń medycznych z AI, ale sukces wymaga głębokiego zrozumienia specyfiki sektora medycznego.

Kluczowe wnioski

Google Deepmind testuje „AI ko-klinicystę” w ślepych porównaniach z lekarzami — system wygrał 67 do 26 z istniejącym klinicznym AI i 63 do 30 z GPT-5.4-thinking-with-search.

W pytaniach o leki system osiągnął 73,3% poprawnych odpowiedzi na benchmark RxQA, podczas gdy lekarze pierwszego kontaktu z książkami uzyskali 61,3%, a bez pomocy tylko 48,3%.

Doświadczeni lekarze wciąż przewyższają AI w większości obszarów, szczególnie w wykrywaniu objawów alarmowych i prowadzeniu badań fizykalnych.

System obsługuje audio i wideo w czasie rzeczywistym dla telemedycyny — potrafi korygować technikę używania inhalatora i przeprowadzać badania barku.

AI ko-klinicysta dorównał lub pokonał lekarzy podstawowej opieki zdrowotnej w 68 z 140 ocenianych obszarów jakości konsultacji.

Przewaga w pytaniach o leki i diagnostyce

W testach na 98 realistycznych zapytań z podstawowej opieki zdrowotnej lekarze konsekwentnie wybierali odpowiedzi AI ko-klinicysty nad wiodącymi narzędziami syntezy dowodów naukowych. Przewaga była szczególnie wyraźna w pytaniach dotyczących leków.

Benchmark RxQA obejmuje 600 pytań o składniki aktywne, interakcje i dawkowanie, pochodzących z krajowych słowników leków z dwóch krajów i sprawdzonych przez licencjonowanych farmaceutów. Te pytania są trudne dla lekarzy pierwszego kontaktu — z książkami uzyskali 61,3% poprawnych odpowiedzi, a bez pomocy tylko 48,3%.

AI ko-klinicysta uzyskał wynik 73,3%, niewiele wyprzedzając GPT-5.4-thinking-with-search z wynikiem 72,7%. Różnica zwiększyła się, gdy pytania zadawano w formie otwartej, a nie wielokrotnego wyboru — tak jak lekarze rzeczywiście szukają informacji w pracy. Tutaj AI ko-klinicysta osiągnął jakość 95,0% w porównaniu do 90,9% dla modelu OpenAI.

Telemedycyna z obsługą audio i wideo

Poza wsparciem tekstowym, Google Deepmind testuje jak AI ko-klinicysta radzi sobie z audio i wideo w czasie rzeczywistym dla telemedycyny. Współpracując z lekarzami z Harvardu i Stanforda, zespół przeprowadził randomizowane badanie symulacyjne z 20 syntetycznymi scenariuszami klinicznymi, 10 lekarzami grającymi pacjentów i łącznie 120 hipotetycznymi wizytami telemedycznymi.

AI ko-klinicysta wykazał możliwości wykraczające poza to, co potrafią systemy tylko tekstowe. Skorygował technikę używania inhalatora przez pacjenta i przeprowadził pacjentów przez badania barku w celu wykrycia urazu stożka rotatorów.

System działa w konfiguracji dwóch agentów: moduł „Planner” monitoruje rozmowę, aby upewnić się, że agent „Talker” pozostaje w bezpiecznych granicach klinicznych. Gdy lekarze używają systemu, priorytetowo traktuje solidne dowody kliniczne i przeprowadza weryfikację oraz sprawdzanie cytatów podczas wyszukiwania.

Doświadczeni lekarze wciąż na czele

Badanie oceniło ponad 140 aspektów jakości konsultacji w siedmiu obszarach: triage, zbieranie wywiadu, rozumowanie kliniczne, komunikacja i doradztwo, kroki leczenia, wykrywanie objawów ostrzegawczych oraz badania fizykalne. Wyniki są trzeźwiące dla każdego, kto ma nadzieję, że AI może zastąpić lekarza — doświadczeni lekarze ogólnie pokonali AI, szczególnie w wychwytywaniu „czerwonych flag” i prowadzeniu krytycznych badań fizykalnych.

Mimo to AI ko-klinicysta dorównał lub pokonał lekarzy podstawowej opieki zdrowotnej w 68 z 140 ocenianych obszarów. GPT-realtime OpenAI ustąpił obu we wszystkich siedmiu domenach.

Wciąż nie jest jasne, czy projekt badawczy przekształci się w rzeczywisty produkt. Wyniki pokazują postęp w syntezie dowodów naukowych opartej na AI i konsultacjach telemedycznych, ale także jasno wskazują, że wciąż istnieje luka do zamknięcia z doświadczonymi lekarzami, szczególnie w zadaniach krytycznych dla bezpieczeństwa, takich jak wykrywanie objawów ostrzegawczych.