Всё, что не тропа - препятствие: простой рецепт безопасной навигации

Большинство помощников для слепых видят объекты, но не умеют рисовать ходовую “дорожку”. Инстанс-сегментация различает людей, но путается на асфальте и тротуарах. Семантика видит дорогу, но не отличает одного препятствия от другого. Короче теория чудесная, но практика рискованная, а это проблема.

Исследователи предлагают простую, но рабочую философию: сегментируй не опасности, а безопасное пространство, то есть всё, что вне него, по умолчанию - препятствие. Это снимает часть проклятия детекции всего подряд (а именно так представляют себе работу ИИ незрячие) и даёт пользователю понятный канал: иди здесь 😐. За счёт паноптической сегментации (слияние instance + semantic) модель отрисовывает проходимую зону и объекты вокруг, что критично для навигации с визуальной обратной связью.

Ща будет мясо, или кааак это работает?

Архитектура: двухветочный конвейер на ResNet101-FPN.

Ветка instance - single-stage на базе RetinaNet-головы с прототипами масок и коэффициентами (внимание-карты), чтобы быстро генерировать маски отдельных объектов.
Ветка semantic - “stuff” и “things” головы, поднимаемые up-conv и сведённые по числу каналов классов.
Паноптическая склейка: тензоры из обеих веток выравниваются и объединяются в panoptic logits, сохраняя и “вещи”, и “фоны” без потери детализации.

Итог - паноптические маски, пригодные для реального времени и интеграции в цепочку очки-камера-процессор-протез.

Визуальная обратная связь логично ложится на протезы зрения - ELVIS V и иже с ним, когда у пациента остаточное зрение отсутствует и нужна замена, а не просто усиление или суррогат (вибро, аудио). На ранних стадиях снижения зрения эта штука может выступать как электронная “трость-очки”, снижая травмы и страх перемещения - особенно в сложной городской среде. Хотя трость все равно нужна.