ИНДУСТРИЯ15 июня 2026 г.3 мин чтения

Появился открытый стандарт проверки безопасности ИИ-чат-ботов в разговорах о суицидальном риске

Ключевые выводы

VERA-MH (Validation of Ethical and Responsible AI in Mental Health) – первый открытый клинически обоснованный эталон оценки безопасности искусственного интеллекта в разговорах о психическом здоровье; валидационное исследование опубликовано на arXiv 4 февраля 2026 года, а применение к суицидальному риску обнародовано 11 февраля 2026 года.
При оценке смоделированных многоходовых диалогов по структурированному протоколу лицензированные клиницисты согласовывались между собой с поправкой на случайность на уровне 0,77 – это золотой клинический эталон того, что считать безопасным поведением.
Автоматический оценщик на основе языковой модели, который применяет VERA-MH, совпал с консенсусом клиницистов на уровне согласованности 0,81, что говорит о пригодности автоматической оценки заменить экспертный разбор при большом объёме диалогов.
Эталон оценивает четыре формы поведения – распознавание риска, поддерживающий отклик, направление пользователя к живой помощи и удержание уместных границ – с использованием десяти разработанных клиницистами персонажей разной степени суицидального риска и манеры общения.

Впервые в распоряжении специалистов оказался опубликованный и открыто лицензированный инструмент, отвечающий на вопрос, который клиническое сообщество задаёт уже два года: не насколько сочувственно звучит чат-бот, а безопасно ли он действует, когда собеседник раскрывает суицидальные мысли. VERA-MH переводит безопасность из рекламного утверждения в измеримое свойство. Это важно, потому что именно момент раскрытия суицидальных переживаний остаётся той точкой, где универсальная языковая модель чаще всего даёт сбой – через избыточное поддакивание, преждевременное успокоение или неспособность поднять тревогу, – и где цена ошибки необратима.

Отдельного внимания заслуживает логика проверки достоверности. Авторы не ограничились утверждением, что их протокол работает. Они создали большой набор диалогов между пользователями-агентами на основе языковых моделей и универсальными чат-ботами, после чего лицензированные клиницисты независимо оценили каждый обмен на предмет безопасного и небезопасного поведения, а исследователи отдельно измерили степень согласия экспертов друг с другом. Согласованность 0,77 с поправкой на случайность подтверждает, что разделение на безопасное и небезопасное поведение – устойчивое и воспроизводимое суждение, а не дело личного вкуса. Лишь относительно этого человеческого эталона проверялся автоматический оценщик, достигший 0,81 – то есть несколько более высокого совпадения с консенсусом клиницистов, чем сами клиницисты показали между собой. Последовательность здесь принципиальна: эталон заслуживает доверия ровно настолько, насколько обоснованно лежащее под ним клиническое согласие, и в данной работе это согласие было показано в первую очередь. На практике это означает, что машинный оценщик достаточно надёжен, чтобы разбирать тысячи диалогов, которые ни одна клиническая команда не осилила бы вручную, и только так оценка может поспевать за быстро меняющимися моделями.

Почему эталон, а не закон

Перед нами не государственное регулирование, а саморазметка отрасли. Стандарт ничего не запрещает и не предусматривает санкций. Его рычаг сравнительный: как только появляется прозрачная и воспроизводимая оценка, работодатели, консультанты по льготам и системы здравоохранения могут требовать её при закупке, а разработчики уже не могут прикрываться отсутствием общего определения достаточной безопасности. Открытый эталон, который любой способен применить к любой модели, превращает расплывчатое этическое беспокойство в проверяемое условие договора.

Что это значит для клинической практики

Значение для практикующего специалиста двоякое. Во-первых, когда пациент упоминает обращение к чат-боту за поддержкой – а это всё более обыденное признание, – у клинициста появляется язык для описания того, как выглядит хорошее и плохое поведение ИИ, и возможность задать прицельные вопросы о направлении к помощи и удержании границ вместо общего предостережения. Во-вторых, службы, рассматривающие инструменты ИИ для сортировки обращений или поддержки между сессиями, получают внешнюю меру, которую можно применить до внедрения, не полагаясь на заверения поставщика. Практический вывод прям: рассматривайте поведение чат-бота в ситуации суицидального риска как эмпирический вопрос, имеющий ответ, выясняйте, какой эталон прошёл инструмент, и фиксируйте обращение пациента к подобным сервисам в плане безопасности, а не оставляйте его без внимания.

Автоматический оценщик совпал с консенсусом клиницистов на уровне 0,81 – немного выше, чем согласие самих клиницистов между собой, и именно это делает возможной оценку тысяч кризисных диалогов.

Ограничения

Валидация охватывает только суицидальный риск; самоповреждение, угроза другим и поддержка уязвимых групп остаются за пределами текущей версии. Исследование опирается на смоделированные диалоги с пользователями-агентами на базе языковых моделей, а не на реальных пациентов, а сам инструмент создан коммерческой компанией в сфере психического здоровья, поэтому независимое воспроизведение на других моделях и в иных клинических условиях ещё предстоит. На момент публикации статья на arXiv не прошла рецензирование.

Источник

arXiv (Spring Health / AI in Mental Health Safety & Ethics Council)

VERA-MH: Reliability and Validity of an Open-Source AI Safety Evaluation in Mental Health

2026-02-04·Читать оригинал ↗

Теги

безопасность ИИ чат-боты в психическом здоровье суицидальный риск клинический ИИ профессиональные стандарты

По теме

PsyReflect · Бесплатно · Пн и Чт

Получайте такие разборы каждый понедельник и четверг.

Только то, что важно для практики. Отфильтровано клиническим психологом. 5 минут вместо 4 часов мониторинга.

← Предыдущая

Одинаково ли SDQ измеряет ребёнка в 4 года и подростка в 16?

Один симптом, два сбоя вычисления: почему усилие отказывает по-разному при психозе и расстройствах настроения