4 maja 20264 min czytania

Badanie Harvard: AI dokładniejsze w diagnozach na izbie przyjęć niż dwóch lekarzy

Model o1 od OpenAI osiągnął 67% trafnych diagnoz w izbie przyjęć, podczas gdy lekarze tylko 55% i 50%. Badanie Harvard Medical School nad 76 przypadkami.

Źródło zdjęcia: TechCrunch

Poprzedni

AgentReputation: nowy framework reputacji dla zdecentralizowanych agentów AI

Następny

Nowa metoda LOCA wyjaśnia, jak działają ataki jailbreak na modele AI

Podobne Publikacje

Narzędzia i Aplikacje

30 tysięcy programistów IBM pracuje codziennie z AI o imieniu Bob

IBM wdrożył wśród swoich deweloperów narzędzie AI Bob, które analizuje całe repozytoria zamiast pojedynczych plików. Efekt: onboarding z 4 tygodni do 1 dnia.

4 min5 maja

Etyka i Bezpieczeństwo

Jedynym ekspertem Muska w procesie przeciwko OpenAI jest profesor ostrzegający przed wyścigiem zbrojeń w AGI

Peter Russell z UC Berkeley zeznawał w sprawie Muska przeciwko OpenAI, ostrzegając przed zagrożeniami wyścigu do osiągnięcia sztucznej inteligencji ogólnej.

Kluczowe wnioski

Model o1 od OpenAI osiągnął 67% trafnych lub bardzo zbliżonych diagnoz w przypadkach triage, podczas gdy lekarze osiągnęli odpowiednio 55% i 50%.

Badanie objęło 76 rzeczywistych pacjentów z izby przyjęć Beth Israel Deaconess Medical Center, a modele AI otrzymały te same informacje co lekarze.

Przewaga AI była szczególnie widoczna w początkowym etapie triage, kiedy dostępnych jest najmniej informacji o pacjencie.

Badacze podkreślają, że wyniki nie oznaczają gotowości AI do podejmowania decyzji życia i śmierci, ale wskazują na potrzebę dalszych badań klinicznych.

Eksperci zwracają uwagę, że w badaniu porównywano AI z lekarzami chorób wewnętrznych, a nie specjalistami medycyny ratunkowej.

Metodologia i wyniki badania

Zespół badaczy z Harvard Medical School i Beth Israel Deaconess Medical Center przeprowadził eksperyment porównując diagnozy dwóch lekarzy specjalistów chorób wewnętrznych z diagnozami generowanymi przez modele o1 i 4o od OpenAI. Kluczowym elementem badania było to, że modele AI nie otrzymały żadnych przetworzonych danych — miały dostęp dokładnie do tych samych informacji, które znajdowały się w elektronicznej dokumentacji medycznej w momencie stawiania każdej diagnozy.

Oceny diagnoz dokonywali dwaj inni lekarze, którzy nie wiedzieli, które pochodzą od ludzi, a które od AI. Jak zauważa Arjun Manrai, kierownik laboratorium AI w Harvard Medical School i jeden z głównych autorów badania: „Przetestowaliśmy model AI względem praktycznie każdego wskaźnika i przewyższył zarówno poprzednie modele, jak i nasze referencje lekarskie”.

Ograniczenia i kontrowersje

Pomimo obiecujących wyników, badanie ma istotne ograniczenia. Naukowcy testowali tylko zdolność modeli do przetwarzania informacji tekstowych, podczas gdy „istniejące badania sugerują, że obecne modele podstawowe są bardziej ograniczone w rozumowaniu nad danymi nietekstowymi”.

Dr Adam Rodman z Beth Israel, współautor badania, ostrzegł w rozmowie z The Guardian, że „nie ma obecnie formalnych ram odpowiedzialności” wokół diagnoz AI, a pacjenci nadal „chcą, aby ludzie prowadzili ich przez decyzje życia i śmierci oraz trudne decyzje lecznicze”.

Kristen Panthagani, lekarz medycyny ratunkowej, krytykuje badanie za porównywanie AI z lekarzami chorób wewnętrznych zamiast ze specjalistami medycyny ratunkowej. „Jeśli mamy porównywać narzędzia AI ze zdolnościami klinicznymi lekarzy, powinniśmy zacząć od porównania z lekarzami, którzy rzeczywiście praktykują tę specjalizację” — argumentuje. Dodaje również, że jako lekarz w izbie przyjęć „głównym celem nie jest odgadnięcie ostatecznej diagnozy, ale określenie, czy pacjent ma stan, który może go zabić”.

Wyniki badania wskazują na potencjał AI w diagnostyce medycznej, ale autorzy podkreślają „pilną potrzebę prospektywnych badań klinicznych w celu oceny tych technologii w rzeczywistych warunkach opieki nad pacjentem”. To jasny sygnał, że mimo obiecujących rezultatów, droga do praktycznego zastosowania AI w medycynie ratunkowej wymaga jeszcze znaczących badań i opracowania odpowiednich protokołów bezpieczeństwa.