Для оценки качества работы LLM с клиническими данными ученые рассматривали способность моделей давать правильные ответы на медицинские вопросы.
Авторы представили критерии MultiMedQA, в рамках которых объединили шесть существующих наборов данных для ответов на вопросы в сфере профессиональной медицины, научных исследований и вопросов пациентов. Кроме того, в MultiMedQA был включен новый набор данных HealthSearchQA, состоящий из 3173 медицинских вопросов, часто встречающихся в Интернете.
В ходе предварительной оценки модель Med-PaLM продемонстрировала многообещающие результаты. Например, только 61,9% подробных ответов, сформированных в другой модели ― Flan-PaLM ― соответствовали научно признанным фактам, при этом Med-PaLM дала 92,6% правильных ответов, а среди врачей-добровольцев относительное количество правильных ответов достигло 92,9%. Наряду с этим Flan-PaLM дала 29,7% ответов, которые могли привести к нежелательным последствиям, а частота таких ответов, данных Med-PaLM и врачами-добровольцами, составила 5,8% и 6,5% соответственно.