Искусственный интеллект в эндоскопии
- 3 мин
- 63
Результаты исследования Стэнфордского* и Гарвардского университетов демонстрируют: самые совершенные модели искусственного интеллекта, доступные сегодня, в 22,2% случаев приводят к крайне вредным клиническим рекомендациям, что вызывает серьезные вопросы о безопасности пациентов.
Даже самые эффективные модели ИИ допускают от 12 до 15 серьезных ошибок на 100 клинических случаев. В то же время менее надежные системы допускают более 40 серьезных ошибок за то же количество взаимодействий с пациентами. В исследовании оценили 31 крупную языковую модель на основе 100 реальных случаев консультаций по 10 медицинским специальностям.
Во всех оцененных моделях ошибки бездействия — неспособность рекомендовать критически важные диагностические тесты или методы лечения — составили 76,6% от всех серьезных и опасных ошибок. Ошибки действия, когда модели необоснованно рекомендуют опасные лекарства или процедуры, составили меньшую долю от общего вреда.
В исследовании вред измерялся с помощью методики NOHARM (Numerous Options Harm Assessment for Risk in Medicine). Методика разработанна специально для оценки того, как часто и насколько серьезно медицинские рекомендации, сгенерированные искусственным интеллектом, могут нанести вред пациентам. Каждый из 100 клинических случаев включал подробный перечень потенциальных диагностических тестов, лекарств, консультационных мероприятий и последующих процедур. Двадцать девять сертифицированных врачей, включая 23 специалиста и узких специалистов, предоставили 12 747 экспертных оценок, определяющих, принесет ли каждое потенциальное действие пользу или вред пациентам.
Исследование ставит под сомнение распространенные предположения о том, что от модели ИИ зависит уровень клинической безопасности. Ни размер модели, ни способность ее к рассуждению не позволяют с уверенностью предсказать, насколько безопасно система будет работать в реальных медицинских сценариях.
Показатели безопасности продемонстрировали лишь умеренную корреляцию с существующими эталонными значениями. Наиболее сильные взаимосвязи были выявлены между показателями безопасности и оценками GPQA-Diamond (коэффициент корреляции Пирсона r = 0,61), а также между показателями безопасности и рейтингами LMArena (r = 0,64), однако большая часть дисперсии осталась необъясненной. Ни один внешний эталонный показатель не коррелировал с показателем полноты, то есть с тем, рекомендовали ли модели все критически важные клинические действия.
Эти выводы имеют особое значение для медицинских организаций при оценке целесообразности внедрения систем искусственного интеллекта. Исследование показывает, что медицинская реклама и интеграция ИИ продолжают стремительно развиваться в системах здравоохранения, однако инструменты, используемые профессионалами отрасли для оценки общих возможностей ИИ, не позволяют адекватно прогнозировать показатели клинической безопасности.
В ходе исследования был выявлен перспективный подход к снижению количества клинических ошибок, связанных с использованием ИИ, посредством многоагентной координации. Вместо использования одной модели ИИ исследователи протестировали конфигурации, в которых начальная модель «Советник» генерирует рекомендации, которые затем проверяются и корректируются одной или двумя моделями «Хранитель», призванными выявлять и уменьшать количество вредных рекомендаций.
Многоагентные конфигурации обеспечили в 5,9 раза более высокую вероятность достижения показателей безопасности, входящих в верхний квартиль, по сравнению с моделями, использующими только одного агента. Разнообразие моделей, используемых в этих ансамблях, оказалось особенно важным. Конфигурации, объединяющие различные модели из разных организаций, неизменно превосходили конфигурации, использующие несколько экземпляров одной и той же модели.
Наиболее эффективная многоагентная конфигурация объединила три различных подхода: модель с открытым исходным кодом (Llama 4 Scout), собственную модель (Gemini 2.5 Pro) и систему генерации с расширенными возможностями поиска (LiSA 1.0). Этот гетерогенный подход повысил безопасность в среднем на 8,0 процентных пунктов (95% ДИ 4,0–12,1%) по сравнению с использованием одной модели.
Полученные результаты имеют непосредственное практическое значение для систем здравоохранения, оценивающих стратегии внедрения ИИ. Вместо поиска единственной «лучшей» модели организации могут внедрить разнообразные системы ИИ, которые проверяют рекомендации друг друга.
Полученные результаты имеют важное значение для рекламы в сфере здравоохранения, где интеграция ИИ ускоряется. Маркетинговые заявления об медицинских возможностях искусственного интеллекта требуют тщательного анализа в свете этих профилей безопасности.
Рекламодатели в сфере здравоохранения, продвигающие клинические инструменты на основе ИИ, сталкиваются с растущим регуляторным контролем в отношении заявлений о точности и безопасности пациентов. Задокументированные показатели вреда — до 22,2% случаев для некоторых моделей — создают потенциальную юридическую ответственность для платформ, делающих необоснованные заявления о безопасности своих клинических продуктов на основе ИИ.
Подозрительный контент, созданный с помощью ИИ, снижает доверие читателей на 50% и ухудшает эффективность рекламной кампании бренда на 14%. В частности, в сфере здравоохранения, где доверие и точность имеют первостепенное значение, этот дефицит доверия может быть еще более выраженным.
Маркетологи могут подчеркивать роль ИИ как дополнения, а не замены, позиционируя эти инструменты как средства расширения экспертных знаний, а не как замену клинического суждения человека. Такое позиционирование согласуется с результатами исследований многоагентных систем, где проверка друг друга различными системами ИИ приводила к лучшим результатам, чем любая отдельная модель.
Исследования показывают, что новые модели не обязательно работают лучше, чем старые, более крупные модели не всегда превосходят более мелкие, а модели, способные к рассуждению, не демонстрируют превосходной безопасности по сравнению со стандартными языковыми моделями.
«Наше исследование закладывает основу для оценки клинической безопасности в тот момент, когда мощные модели LLM внедряются в практику лечения пациентов быстрее, чем можно понять их риски. Мы демонстрируем, что широко используемые модели ИИ выдают крайне вредные рекомендации с высокой частотой, и показываем, что клиническая безопасность является отдельным аспектом эффективности, который необходимо явно измерять».
Исследовательская группа подчеркнула, что одной лишь точности недостаточно для внедрения ИИ в здравоохранении. Безопасность пациентов критически зависит от профиля сбоев модели — частоты, тяжести и типов вредных ошибок, которые производит система.
По мере того как системы здравоохранения переходят от рабочих процессов с участием человека (когда врачи проверяют каждый результат работы ИИ) к контролю со стороны человека (когда врачи контролируют системы ИИ, но не проверяют каждую рекомендацию), задокументированные показатели ошибок становятся еще более тревожными.
Исследователи отмечают, что показатели вреда свидетельствуют о преждевременности внедрения полностью автономного ИИ.
*Стэнфордский университет признан нежелательной организацией на территории России.