Самое опасное в медицине, это ошибка с убедительным тоном. Языковая модель умеет звучать уверенно даже тогда, когда она ошибается - это та правда, которую просто надо иметь в виду. Поэтому исследования про вред надо читать как протокол вскрытия, а не как приговор.
В Nature Medicine вышло рандомизированное исследование, в котором 1298 взрослых британских докторов решали 10 клинических сценариев и выбирали, что делать дальше. Три группы общались с GPT 4o, Llama 3 или Command R+. В варианте с Command R+ был подключён поиск к интернету, а контроль мог пользоваться любыми источниками, чаще всего сайтом NHS и обычным поиском. В одиночку модели почти всегда называли уместное состояние в 94,9% случаев и в 56,3% давали правильное решение по маршрутизации. Но люди с теми же моделями называли уместные причины меньше 34,5%, а правильную маршрутизацию - меньше 44,2%, то есть не лучше контроля.
Наивное чтение такое: значит модели бесполезны.
На деле же это удар по связке "пользователь + форма общения + модель". Люди задают закрытые вопросы, приносят неполную картину, а система иногда путает контекст и выдаёт непоследовательные советы. Авторы признают, что данные собраны в августе и октябре 2024 года, а новые и более специальные версии могут быть сильнее, но это ещё не гарантирует, что исчезнет провал именно во взаимодействии человека с системой.
При этом есть и обратные результаты. В этом исследовании, например, на практикующих врачах с GPT 4 улучшал клиническое рассуждение по ведению клинического случая по сравнению с "только с источниками".
Маяк: перестаньте спорить какая модель умнее. Спросите умеет ли врач вообще пользоваться языковой моделью. Он строит запрос как клинический протокол, с контекстом, ограничениями, красными флагами, целью ответа и форматом проверки, или он тупо гуглит и ждёт волшебной справки? Пока мы не измеряем навык постановки запроса, не задаём рамки риска и не требуем проверку на реальных пользователях с ответственностью за неверную маршрутизацию, любая умная система останется скальпелем без анатомии: инструмент острый, а резать будет куда придётся.