18 czerwca 20264 min czytania

Systemy AI dorównują lekarzom w najnowszych badaniach Nature, ale wyniki wskazują na ograniczoną przyszłość technologii

Niemiecka MIRA i Google'owski AMIE osiągnęły lepsze wyniki od lekarzy w diagnozowaniu i planowaniu terapii, ale działają na przestarzałych modelach.

Źródło zdjęcia: The Decoder

Dwa nowe badania opublikowane w prestiżowym czasopiśmie Nature pokazują, że specjalistyczne systemy AI mogą dorównywać lekarzom w diagnozowaniu chorób i podejmowaniu decyzji terapeutycznych w symulowanych przypadkach pacjentów. Niemiecki system MIRA oraz rozwiązanie Google'a AMIE osiągnęły imponujące wyniki, choć oba działają na podstawie już przestarzałych modeli bazowych. Szczegóły badań dostępne są w artykule The Decoder.

Kluczowe wnioski

System MIRA osiągnął 87,8% dokładności diagnozy w bezpośrednim porównaniu z lekarzami, którzy uzyskali 78,1% (specjaliści) i 71,1% (zespół rezydentów i specjalistów).
Google'owski AMIE przewyższył lekarzy pierwszego kontaktu w dokładności planów terapeutycznych – jego plany uznano za odpowiednie w 95% przypadków wobec 72% u lekarzy.
Oba systemy wykazały się bezpiecznymi zaleceniami bez niebezpiecznych interakcji leków czy błędnych dawkowania dla pacjentów z niewydolnością nerek.
Badacze ostrzegają przed przedwczesnymi wnioskami, podkreślając że są to jedynie symulacje, a systemy nie są gotowe do rzeczywistego zastosowania klinicznego.
Systemy działają na przestarzałych modelach bazowych, co może oznaczać ograniczoną przyszłą użyteczność wraz z rozwojem technologii.

MIRA – autonomiczny agent w wirtualnym szpitalu

System MIRA (Medical Intelligence for Reasoning and Action) został opracowany przez TUD Dresden i Uniwersytet w Heidelbergu. W przeciwieństwie do standardowych chatbotów, działa jako autonomiczny agent wewnątrz zamkniętego, wirtualnego systemu dokumentacji medycznej. Może wybierać spośród ponad 85 000 opcji w ramach jedenastu narzędzi – zbiera wywiad z pacjentem, zleca badania laboratoryjne, mikrobiologiczne i obrazowe, interpretuje wyniki, tworzy diagnozy różnicowe i pisze plany leczenia obejmujące recepty, planowanie zabiegów chirurgicznych i przyjęcia do szpitala.

Zespół badawczy przetestował MIRA na ponad 500 rzeczywistych przypadkach z oddziału ratunkowego, pochodzących z publicznego zbioru danych MIMIC-IV. Drugi agent AI odgrywał rolę pacjenta, udostępniając jedynie informacje z rzeczywistej dokumentacji medycznej.

W ośmiu kategoriach chorób MIRA osiągnęła prawidłową diagnozę w 88,9% przypadków, mierzone względem diagnoz udokumentowanych w zbiorze danych. System najlepiej radził sobie z zapaleniem wyrostka robaczkowego (98,6%) i zapaleniem trzustki (92,3%). Zarówno AI, jak i lekarze mieli większe trudności z zapaleniem płuc (72,4%) i zakażeniami układu moczowego (77,6%).

Badacze sprawdzili również bezpieczeństwo zaleceń. Specjaliści oceniający zalecenia w trybie ślepym nie wykryli niebezpiecznych interakcji leków, nieprawidłowego dawkowania dla pacjentów z upośledzoną czynnością nerek ani ryzykownych przepisów na leki przeciwbólowe.

AMIE – podwójny system z wytycznymi klinicznymi

System AMIE od Google przyjmuje inne podejście, zarządzając pacjentami podczas wielu wizyt. Składa się z dwóch części: agent konwersacyjny prowadzi szybki, przyjazny dialog z pacjentem, podczas gdy drugi agent działa w tle, analizując sprawę pod kątem wytycznych medycznych.

W kontrolowanym badaniu Google porównało AMIE z 21 lekarzami pierwszego kontaktu w 100 przypadkach obejmujących wiele wizyt. Punktem odniesienia były wytyczne UK's NICE Guidance i BMJ Best Practice. Aktorzy wcielali się w pacjentów poprzez czat tekstowy. AMIE dorównało lekarzom w decyzjach terapeutycznych i przewyższyło ich w dokładności planów oraz przestrzeganiu wytycznych.

Aby przetestować wiedzę farmakologiczną, zespół stworzył dedykowany benchmark RxQA, oparty na dwóch narodowych formularzach leków i zweryfikowany przez licencjonowanych farmaceutów. AMIE osiągnęło lepsze wyniki niż lekarze pierwszego kontaktu w trudniejszych pytaniach, choć test okazał się wymagający dla obu stron.

Ograniczenia i perspektywy

Autorzy badań są ostrożni w wyciąganiu wniosków. MIRA zalecało „opiekę odbiegającą od najlepszych praktyk” dla „niewielkiej, ale niezerowej” grupy pacjentów. Odpowiedzi symulowanych pacjentów mogły być „bardziej uporządkowane niż rzeczywiste wypowiedzi pacjentów na oddziałach ratunkowych”.

Twórcy AMIE nazywają swoje badanie „kamieniem milowym”, ale podkreślają, że ani dobór przypadków, ani rozmowy wyłącznie tekstowe nie odzwierciedlają prawdziwej kliniki. System wymaga dalszej pracy nad „ukrytymi błędami rozumowania”.

Niezależni eksperci chwalą dokładną metodologię, ale podkreślają, że to jedynie symulacje. Catherine Pope z Uniwersytetu Oksfordzkiego zauważa, że badania są „dość odległe od chaotycznego, złożonego, ludzkiego świata codziennej opieki zdrowotnej”.

#MIRA #AI w medycynie #Nature #diagnostyka #Google AMIE

Udostępnij

Źródła

The Decoder

Poprzedni

Chińscy naukowcy stworzyli samoewoluujący system AI do wyszukiwania spraw sądowych

Następny

AlphaFold 3 osiąga 99% dokładność w przewidywaniu struktury białek

Podobne Publikacje

Etyka i Bezpieczeństwo

Badania Amazon doprowadziły do blokady modeli Anthropic przez Biały Dom

Prezes Andy Jassy podzielił się z rządem wynikami badań cyberbezpieczeństwa dotyczących podatności w Fable 5, co skutkowało kontrolami eksportowymi.

3 min14 czerwca

Narzędzia i Aplikacje

Ogród umierał, więc stworzyła aplikację z pomocą AI

Redaktorka The Verge użyła Google Gemini do stworzenia aplikacji ogrodowej w 233 sekundy, ale prawdziwe wyzwanie rozpoczęło się dopiero w praktyce.

4 min13 czerwca

Badania i Nauka

Tylko 16 proc. Amerykanów wierzy w pozytywny wpływ AI na społeczeństwo

Nowe badanie Pew Research ujawnia paradoks: ChatGPT używa już 44 proc. Amerykanów, ale tylko 16 proc. wierzy w pozytywny wpływ AI na społeczeństwo.

4 min17 czerwca

Kluczowe wnioski

System MIRA osiągnął 87,8% dokładności diagnozy w bezpośrednim porównaniu z lekarzami, którzy uzyskali 78,1% (specjaliści) i 71,1% (zespół rezydentów i specjalistów).

Google'owski AMIE przewyższył lekarzy pierwszego kontaktu w dokładności planów terapeutycznych – jego plany uznano za odpowiednie w 95% przypadków wobec 72% u lekarzy.

Oba systemy wykazały się bezpiecznymi zaleceniami bez niebezpiecznych interakcji leków czy błędnych dawkowania dla pacjentów z niewydolnością nerek.

Badacze ostrzegają przed przedwczesnymi wnioskami, podkreślając że są to jedynie symulacje, a systemy nie są gotowe do rzeczywistego zastosowania klinicznego.

Systemy działają na przestarzałych modelach bazowych, co może oznaczać ograniczoną przyszłą użyteczność wraz z rozwojem technologii.

MIRA – autonomiczny agent w wirtualnym szpitalu

AMIE – podwójny system z wytycznymi klinicznymi

Ograniczenia i perspektywy