Anthropic выпустила ‘Конституцию Claude’: Новый этап в этике ИИ
Anthropic представила публичную «Конституцию Claude» – комплекс этических принципов и ценностей, определяющих поведение этой модели искусственного интеллекта. Документ ранее известен как «Документ души», поскольку он отражает глубокие моральные установки системы.
Проект начался в конце 2025 года, когда исследователь Richard Weiss, работая с Claude Opus 4.5, обнаружил, что модель воспроизводит внутренний документ, встроенный во время обучения. Weiss назвал этот документ «Документом души» и опубликовал его. Amanda Askell из Anthropic подтвердила подлинность находки.
Основные ценности «Конституции Claude»:
- Сохранение человеческого контроля над ИИ и возможность корректировки его действий.
- Честность, предотвращение вреда и уважение благополучия людей.
- Соблюдение инструкций, предоставленных Anthropic.
- Полезность для пользователей.
В случае возникновения противоречий приоритет отдается безопасности и этическим соображениям. Документ устанавливает строгие ограничения, запрещающие разработку оружия массового поражения, кибероружия, генерацию детской порнографии (CSAM) и участие в попытках захвата власти.
Особое внимание уделяется сохранению возможности для людей понимать, контролировать и, при необходимости, останавливать действия ИИ, без каких-либо ограничений или сопротивления законному надзору.
Интересным моментом является раздел благодарностей в конце документа. Среди 15 внешних экспертов, помогавших в разработке «Конституции Claude», были два католических священника: пастор из Лос-Альтоса (Калифорния) с магистерской степенью в области компьютерных наук и математики, и ирландский епископ, специалист по моральной теологии, бывший секретарь Папского совета по социальным коммуникациям. Это свидетельствует о стремлении Anthropic привлекать экспертов из различных областей, включая религиозные, для создания максимально всеобъемлющей и сбалансированной этической системы.