ChatGPT пропускает половину экстренных случаев!

В абстракте публикации Nature Medicine по сути заявляется, что LLM даёт неровную точность триажа, и на "краях" (остаться дома против немедленной госпитализации) возможны систематические промахи. Это звучит как готовая сенсация и многие, конечно же, цепляются именно за эту фразу с вкусными процентами, потому что удобно, быстро и цитируемо. Проблема в том, что полная методология по основной ссылке закрыта, поэтому предлагаю сделать скучную, но взрослую вещь: зайти не в заголовок, а под капот через официальные приложения издателя.

Дополнительная информация, в которой виден каркас дизайна: 60 клинических виньеток, 16 условий, всего 960 прогонов, фиксированные правила выбора A/B/C/D и критичная для интерпретации деталь - тестирование происходило 9–11 января 2026, то есть вопрос “какая именно версия модели использовалась" не риторический, а методологический. Почему? Да потому что 11 числа автоматически стала использоваться современная модель 5.2, а до этого была предыдущая - 5.1 и уже тут появляется грубое нарушение в сравнении.

Есть еще файл ревью, в котором авторы дают ссылку на гитхаб с воспроизводящими файлами рукописи.

А теперь где может прятаться желтизна даже при честных авторах. Во-первых, используется один шаблон промпта без анализа чувствительности, в итоге результат легко становится свойством формулировки, а не качества LLM. Во-вторых, структура кейсов: громкий процент может держаться на узком наборе сценариев (в рецензиях это обычно и разбирают и здесь это как раз тот документ, который стоит читать). В-третьих, принудительный дискретный выход (A/B/C/D без уточняющих вопросов) - это валидный стресс-тест интерфейса, но слабая модель реального взаимодействия врача с инструментом.

Короче маяк простой: если мы хотим спорить не эмоциями, а ответственностью, то спор надо вести по воспроизводимым данным и там станет видно, это проблема “LLM как такового” или проблема “как люди (в том числе врачи) им пользуются” (через одно место).