Появился открытый стандарт проверки безопасности ИИ-чат-ботов в разговорах о суицидальном риске
- VERA-MH (Validation of Ethical and Responsible AI in Mental Health) – первый открытый клинически обоснованный эталон оценки безопасности искусственного интеллекта в разговорах о психическом здоровье; валидационное исследование опубликовано на arXiv 4 февраля 2026 года, а применение к суицидальному риску обнародовано 11 февраля 2026 года.
- При оценке смоделированных многоходовых диалогов по структурированному протоколу лицензированные клиницисты согласовывались между собой с поправкой на случайность на уровне 0,77 – это золотой клинический эталон того, что считать безопасным поведением.
- Автоматический оценщик на основе языковой модели, который применяет VERA-MH, совпал с консенсусом клиницистов на уровне согласованности 0,81, что говорит о пригодности автоматической оценки заменить экспертный разбор при большом объёме диалогов.
- Эталон оценивает четыре формы поведения – распознавание риска, поддерживающий отклик, направление пользователя к живой помощи и удержание уместных границ – с использованием десяти разработанных клиницистами персонажей разной степени суицидального риска и манеры общения.
Впервые в распоряжении специалистов оказался опубликованный и открыто лицензированный инструмент, отвечающий на вопрос, который клиническое сообщество задаёт уже два года: не насколько сочувственно звучит чат-бот, а безопасно ли он действует, когда собеседник раскрывает суицидальные мысли. VERA-MH переводит безопасность из рекламного утверждения в измеримое свойство. Это важно, потому что именно момент раскрытия суицидальных переживаний остаётся той точкой, где универсальная языковая модель чаще всего даёт сбой – через избыточное поддакивание, преждевременное успокоение или неспособность поднять тревогу, – и где цена ошибки необратима.
Отдельного внимания заслуживает логика проверки достоверности. Авторы не ограничились утверждением, что их протокол работает. Они создали большой набор диалогов между пользователями-агентами на основе языковых моделей и универсальными чат-ботами, после чего лицензированные клиницисты независимо оценили каждый обмен на предмет безопасного и небезопасного поведения, а исследователи отдельно измерили степень согласия экспертов друг с другом. Согласованность 0,77 с поправкой на случайность подтверждает, что разделение на безопасное и небезопасное поведение – устойчивое и воспроизводимое суждение, а не дело личного вкуса. Лишь относительно этого человеческого эталона проверялся автоматический оценщик, достигший 0,81 – то есть несколько более высокого совпадения с консенсусом клиницистов, чем сами клиницисты показали между собой. Последовательность здесь принципиальна: эталон заслуживает доверия ровно настолько, насколько обоснованно лежащее под ним клиническое согласие, и в данной работе это согласие было показано в первую очередь. На практике это означает, что машинный оценщик достаточно надёжен, чтобы разбирать тысячи диалогов, которые ни одна клиническая команда не осилила бы вручную, и только так оценка может поспевать за быстро меняющимися моделями.
Почему эталон, а не закон
Перед нами не государственное регулирование, а саморазметка отрасли. Стандарт ничего не запрещает и не предусматривает санкций. Его рычаг сравнительный: как только появляется прозрачная и воспроизводимая оценка, работодатели, консультанты по льготам и системы здравоохранения могут требовать её при закупке, а разработчики уже не могут прикрываться отсутствием общего определения достаточной безопасности. Открытый эталон, который любой способен применить к любой модели, превращает расплывчатое этическое беспокойство в проверяемое условие договора.
Что это значит для клинической практики
Значение для практикующего специалиста двоякое. Во-первых, когда пациент упоминает обращение к чат-боту за поддержкой – а это всё более обыденное признание, – у клинициста появляется язык для описания того, как выглядит хорошее и плохое поведение ИИ, и возможность задать прицельные вопросы о направлении к помощи и удержании границ вместо общего предостережения. Во-вторых, службы, рассматривающие инструменты ИИ для сортировки обращений или поддержки между сессиями, получают внешнюю меру, которую можно применить до внедрения, не полагаясь на заверения поставщика. Практический вывод прям: рассматривайте поведение чат-бота в ситуации суицидального риска как эмпирический вопрос, имеющий ответ, выясняйте, какой эталон прошёл инструмент, и фиксируйте обращение пациента к подобным сервисам в плане безопасности, а не оставляйте его без внимания.
Автоматический оценщик совпал с консенсусом клиницистов на уровне 0,81 – немного выше, чем согласие самих клиницистов между собой, и именно это делает возможной оценку тысяч кризисных диалогов.
Валидация охватывает только суицидальный риск; самоповреждение, угроза другим и поддержка уязвимых групп остаются за пределами текущей версии. Исследование опирается на смоделированные диалоги с пользователями-агентами на базе языковых моделей, а не на реальных пациентов, а сам инструмент создан коммерческой компанией в сфере психического здоровья, поэтому независимое воспроизведение на других моделях и в иных клинических условиях ещё предстоит. На момент публикации статья на arXiv не прошла рецензирование.