Google Deepmind testuje AI ko-klinicystę, który wygrał z GPT-5.4 w ślepych testach lekarzy, ale wciąż ma lukę w wykrywaniu objawów alarmowych.

Źródło zdjęcia: The Decoder

Greg Brockman opisał w sądzie agresywne zachowanie Elona Muska podczas spotkania w 2017 roku, gdy CEO Tesli żądał pełnej kontroli nad OpenAI.

FDA zatwierdziła już ponad 1300 urządzeń medycznych z AI, ale sukces wymaga głębokiego zrozumienia specyfiki sektora medycznego.
Google Deepmind opracował „AI ko-klinicystę”, który w ślepych testach przeprowadzanych przez lekarzy pokonał GPT-5.4, ale wciąż ustępuje doświadczonym lekarzom. System ma wspierać diagnostykę i leczenie pacjentów w codziennej praktyce medycznej, jak wynika z badań opublikowanych przez Google Deepmind.
Nowy system AI został zaprojektowany w oparciu o model „opieki triadycznej” — sztuczna inteligencja pomaga pacjentom w trakcie leczenia, podczas gdy lekarze zachowują kliniczną kontrolę i nadzór. Celem jest stworzenie systemu AI, który działa jako członek zespołu medycznego, wspierając pacjentów pod nadzorem klinicysty.
W testach na 98 realistycznych zapytań z podstawowej opieki zdrowotnej lekarze konsekwentnie wybierali odpowiedzi AI ko-klinicysty nad wiodącymi narzędziami syntezy dowodów naukowych. Przewaga była szczególnie wyraźna w pytaniach dotyczących leków.
Benchmark RxQA obejmuje 600 pytań o składniki aktywne, interakcje i dawkowanie, pochodzących z krajowych słowników leków z dwóch krajów i sprawdzonych przez licencjonowanych farmaceutów. Te pytania są trudne dla lekarzy pierwszego kontaktu — z książkami uzyskali 61,3% poprawnych odpowiedzi, a bez pomocy tylko 48,3%.
AI ko-klinicysta uzyskał wynik 73,3%, niewiele wyprzedzając GPT-5.4-thinking-with-search z wynikiem 72,7%. Różnica zwiększyła się, gdy pytania zadawano w formie otwartej, a nie wielokrotnego wyboru — tak jak lekarze rzeczywiście szukają informacji w pracy. Tutaj AI ko-klinicysta osiągnął jakość 95,0% w porównaniu do 90,9% dla modelu OpenAI.
Poza wsparciem tekstowym, Google Deepmind testuje jak AI ko-klinicysta radzi sobie z audio i wideo w czasie rzeczywistym dla telemedycyny. Współpracując z lekarzami z Harvardu i Stanforda, zespół przeprowadził randomizowane badanie symulacyjne z 20 syntetycznymi scenariuszami klinicznymi, 10 lekarzami grającymi pacjentów i łącznie 120 hipotetycznymi wizytami telemedycznymi.
AI ko-klinicysta wykazał możliwości wykraczające poza to, co potrafią systemy tylko tekstowe. Skorygował technikę używania inhalatora przez pacjenta i przeprowadził pacjentów przez badania barku w celu wykrycia urazu stożka rotatorów.
System działa w konfiguracji dwóch agentów: moduł „Planner” monitoruje rozmowę, aby upewnić się, że agent „Talker” pozostaje w bezpiecznych granicach klinicznych. Gdy lekarze używają systemu, priorytetowo traktuje solidne dowody kliniczne i przeprowadza weryfikację oraz sprawdzanie cytatów podczas wyszukiwania.
Badanie oceniło ponad 140 aspektów jakości konsultacji w siedmiu obszarach: triage, zbieranie wywiadu, rozumowanie kliniczne, komunikacja i doradztwo, kroki leczenia, wykrywanie objawów ostrzegawczych oraz badania fizykalne. Wyniki są trzeźwiące dla każdego, kto ma nadzieję, że AI może zastąpić lekarza — doświadczeni lekarze ogólnie pokonali AI, szczególnie w wychwytywaniu „czerwonych flag” i prowadzeniu krytycznych badań fizykalnych.
Mimo to AI ko-klinicysta dorównał lub pokonał lekarzy podstawowej opieki zdrowotnej w 68 z 140 ocenianych obszarów. GPT-realtime OpenAI ustąpił obu we wszystkich siedmiu domenach.
Wciąż nie jest jasne, czy projekt badawczy przekształci się w rzeczywisty produkt. Wyniki pokazują postęp w syntezie dowodów naukowych opartej na AI i konsultacjach telemedycznych, ale także jasno wskazują, że wciąż istnieje luka do zamknięcia z doświadczonymi lekarzami, szczególnie w zadaniach krytycznych dla bezpieczeństwa, takich jak wykrywanie objawów ostrzegawczych.