ChatGPT nie może być narzędziem diagnostycznym w medycynie
ChatGPT nie może być użyty jako narzędzie diagnostyczne w medycynie, bo w ponad połowie przypadków się myli – podsumowali kanadyjscy naukowcy z Uniwersytetu Zachodniego Ontario po przetestowaniu modelu na przypadkach pacjentów. ChatGPT umie jednak pisać czytelne odpowiedzi.

ChatGPT nie daje zgodnych z faktami diagnoz „mimo obszernej informacji, na której był trenowany”, a poprawne odpowiedzi dawał tylko w 49% przypadków – do takich ustaleń doszli naukowcy z Shulich School of Medicine & Dentistry na Uniwersytecie Zachodniego Ontario (Western University). Artykuł o przydatności ChatGPT w diagnozach ukazał się właśnie w „PLOS One”.
Test medycznych umiejętności ChataGPT
Medyczne umiejętności ChatGPT przetestowano na 150 przypadkach pobranych z publicznej bazy danych Medscape, używanej m.in. do sprawdzania umiejętności diagnostycznych lekarzy. Testy modelu prowadzono między wrześniem 2021 a styczniem 2023 r. Tylko w 74 przypadkach (49%) diagnoza sztucznej inteligencji była trafna.
– ChatGPT ma problemy z interpretacją wyników laboratoryjnych, wyników obrazowania i pomijał niektóre kluczowe informacje ważne dla diagnozy – napisali autorzy „Oceny ChatGPT jako narzędzia diagnostycznego dla studentów medycyny i klinicystów” („Evaluation of ChatGPT as a diagnostic tool for medical learners and clinicians”).
– Będziemy potrzebować intensywnego nadzoru nad tym, jak sztuczna inteligencja jest używana, by zapewnić bezpieczeństwo pacjenta i by upewnić się, że ten rodzaj technologii AI będzie rozważnie udostępniany – komentował cytowany w komunikacie zamieszczonym na stronie Uniwersytetu Zachodniego Ontario dr Amrit Kirpalani, profesor Schulich School of Medicine & Dentistry, współautor badania.
Dodał, że korzystaniu z danych dostępnych w internecie musi towarzyszyć sprawdzanie ich poprawności na podstawie badań naukowych, analizowanych przez innych badaczy oraz rozwijanie umiejętności komunikowania się z modelami AI.
Skąd wzięły się błędne odpowiedzi?
Badacze zidentyfikowali przyczyny błędnych odpowiedzi, związane z tym, jak tworzone są duże modele językowe. – Konieczne jest rozważenie roli halucynacji AI, ponieważ mogą w znaczący sposób wpłynąć na trafność podawanej informacji. Halucynacje odnoszą się do odpowiedzi tworzonych przez model AI, które wydają się spójne, ale nie bazują na informacji faktycznej, pochodząc z pominięć, błędów lub przeoptymalizowania danych, na których trenowany jest model lub jego niezdolności do poprawnego rozeznawania w dwuznacznych lub niekompletnych danych wejściowych – poinformowano.
Błędy w diagnozowaniu mogą pochodzić także z uprzedzeń i błędów samych lekarzy, zawartych w informacji medycznej używanej do treningu. – Znaczenie ludzkiego nadzoru jest nie do przecenienia – podkreślili autorzy, zwracając też uwagę na takie aspekty, jak określenie odpowiedzialności za ewentualne błędy wynikające z wykorzystania modeli AI.
ChatGPT jako narzędzie pomocnicze?
Jednak badacze z Uniwersytetu Zachodniego Ontario wskazali też na możliwości użycia ChatGPT jako narzędzia pomocniczego.
Przy wszystkich wadach ChatGPT, które dyskwalifikują to narzędzie jako diagnostę, model w większości przypadków dawał poprawne oceny wykluczające część diagnoz różnicowych oraz poprawnie proponował dalsze kroki w tworzeniu diagnozy. Ponadto choć tylko 49% diagnoz było trafnych, to już np. zdolność do odrzucania niepoprawnych opcji odpowiedzi była znacznie większa – wynosiła 74,33%.
Zauważono też, że model „był w stanie analizować złożone tematy medyczne i dokonywać syntezy w sposób łatwy do zrozumienia”. Autorzy pracy uznali to za korzystną opcję uzyskiwania uproszczonych wyjaśnień dla studentów medycyny i podkreślili, że z myślą właśnie o takim wykorzystaniu warto rozwijać użycie modeli AI.
Źródło: https://naukawpolsce.pl/





