Клинический ИИ без магии

На arXiv вышел препринт про открытую офтальмологическую мультимодальную большую языковую модель (MLLM) на 2 млрд параметров: 86 965 пар “изображение-текст” из 26 569 статей, 26 929 размеченных примеров по 12 состояниям глаз и 913 клинических кейсов для более длинных сценариев. Веса и оценочный набор действительно опубликованы: VOLMO-2B, VOLMO-Evaluation-Data. На этом можно было бы и закончить в принципе, потому что я еще такого не видел, хорошо бы сравнить эту модель со своим глазным подорожником, короче крутая работа :)

Ну ладно, она все равно требует ревизии и комментариев, потому что авторы сами указывают на некоторые ограничения, о которых следует знать. Это пока научка, а не одобренный клинический софт - нужны дополнительные проверки в реальной практике, потому что, например, на скрининге модель показывает точность в 87%, а этого маловато.

Ценность этой работы не в заменяющем врача алгоритме, а в том, что это редкий для медицины открытый объект для репликации. VOLMO показывает переход из привычного всем “поверьте авторам” в “скачайте и проверьте”, а это дорогого стоит.