Niemiecka MIRA i Google'owski AMIE osiągnęły lepsze wyniki od lekarzy w diagnozowaniu i planowaniu terapii, ale działają na przestarzałych modelach.

Źródło zdjęcia: The Decoder
Dwa nowe badania opublikowane w prestiżowym czasopiśmie Nature pokazują, że specjalistyczne systemy AI mogą dorównywać lekarzom w diagnozowaniu chorób i podejmowaniu decyzji terapeutycznych w symulowanych przypadkach pacjentów. Niemiecki system MIRA oraz rozwiązanie Google'a AMIE osiągnęły imponujące wyniki, choć oba działają na podstawie już przestarzałych modeli bazowych. Szczegóły badań dostępne są w artykule The Decoder.
System MIRA (Medical Intelligence for Reasoning and Action) został opracowany przez TUD Dresden i Uniwersytet w Heidelbergu. W przeciwieństwie do standardowych chatbotów, działa jako autonomiczny agent wewnątrz zamkniętego, wirtualnego systemu dokumentacji medycznej. Może wybierać spośród ponad 85 000 opcji w ramach jedenastu narzędzi – zbiera wywiad z pacjentem, zleca badania laboratoryjne, mikrobiologiczne i obrazowe, interpretuje wyniki, tworzy diagnozy różnicowe i pisze plany leczenia obejmujące recepty, planowanie zabiegów chirurgicznych i przyjęcia do szpitala.
Zespół badawczy przetestował MIRA na ponad 500 rzeczywistych przypadkach z oddziału ratunkowego, pochodzących z publicznego zbioru danych MIMIC-IV. Drugi agent AI odgrywał rolę pacjenta, udostępniając jedynie informacje z rzeczywistej dokumentacji medycznej.
W ośmiu kategoriach chorób MIRA osiągnęła prawidłową diagnozę w 88,9% przypadków, mierzone względem diagnoz udokumentowanych w zbiorze danych. System najlepiej radził sobie z zapaleniem wyrostka robaczkowego (98,6%) i zapaleniem trzustki (92,3%). Zarówno AI, jak i lekarze mieli większe trudności z zapaleniem płuc (72,4%) i zakażeniami układu moczowego (77,6%).
Badacze sprawdzili również bezpieczeństwo zaleceń. Specjaliści oceniający zalecenia w trybie ślepym nie wykryli niebezpiecznych interakcji leków, nieprawidłowego dawkowania dla pacjentów z upośledzoną czynnością nerek ani ryzykownych przepisów na leki przeciwbólowe.
System AMIE od Google przyjmuje inne podejście, zarządzając pacjentami podczas wielu wizyt. Składa się z dwóch części: agent konwersacyjny prowadzi szybki, przyjazny dialog z pacjentem, podczas gdy drugi agent działa w tle, analizując sprawę pod kątem wytycznych medycznych.
W kontrolowanym badaniu Google porównało AMIE z 21 lekarzami pierwszego kontaktu w 100 przypadkach obejmujących wiele wizyt. Punktem odniesienia były wytyczne UK's NICE Guidance i BMJ Best Practice. Aktorzy wcielali się w pacjentów poprzez czat tekstowy. AMIE dorównało lekarzom w decyzjach terapeutycznych i przewyższyło ich w dokładności planów oraz przestrzeganiu wytycznych.
Aby przetestować wiedzę farmakologiczną, zespół stworzył dedykowany benchmark RxQA, oparty na dwóch narodowych formularzach leków i zweryfikowany przez licencjonowanych farmaceutów. AMIE osiągnęło lepsze wyniki niż lekarze pierwszego kontaktu w trudniejszych pytaniach, choć test okazał się wymagający dla obu stron.
Autorzy badań są ostrożni w wyciąganiu wniosków. MIRA zalecało „opiekę odbiegającą od najlepszych praktyk” dla „niewielkiej, ale niezerowej” grupy pacjentów. Odpowiedzi symulowanych pacjentów mogły być „bardziej uporządkowane niż rzeczywiste wypowiedzi pacjentów na oddziałach ratunkowych”.
Twórcy AMIE nazywają swoje badanie „kamieniem milowym”, ale podkreślają, że ani dobór przypadków, ani rozmowy wyłącznie tekstowe nie odzwierciedlają prawdziwej kliniki. System wymaga dalszej pracy nad „ukrytymi błędami rozumowania”.
Niezależni eksperci chwalą dokładną metodologię, ale podkreślają, że to jedynie symulacje. Catherine Pope z Uniwersytetu Oksfordzkiego zauważa, że badania są „dość odległe od chaotycznego, złożonego, ludzkiego świata codziennej opieki zdrowotnej”.

Prezes Andy Jassy podzielił się z rządem wynikami badań cyberbezpieczeństwa dotyczących podatności w Fable 5, co skutkowało kontrolami eksportowymi.

Redaktorka The Verge użyła Google Gemini do stworzenia aplikacji ogrodowej w 233 sekundy, ale prawdziwe wyzwanie rozpoczęło się dopiero w praktyce.

Nowe badanie Pew Research ujawnia paradoks: ChatGPT używa już 44 proc. Amerykanów, ale tylko 16 proc. wierzy w pozytywny wpływ AI na społeczeństwo.