Anthropic Разработала Технологию для Удаления Опасных Знаний из Больших Ядер Нейросетей

December 9, 2025 admin

Anthropic представила Selective Gradient Masking (SGTM) – инновационную технологию, позволяющую удалять потенциально опасные знания из больших языковых моделей. Подход основан на разделении информации на «опасную» и «безопасную» части во время обучения.

SGTM работает следующим образом: модель обучается различать и сохранять информацию в отдельных «ячейках памяти». «Опасные» тексты помещаются в специальные ячейки, а полезные знания – в стандартные. После завершения обучения, ячейки, содержащие опасные знания, просто обнуляются. Это гарантирует, что даже при попытке извлечь эту информацию, она физически отсутствует в модели.

Интересным моментом является то, что технология успешно функционирует даже в ситуациях, когда не все потенциально опасные тексты были идентифицированы и помечены.

Результаты исследований показывают, что при удалении вредной информации модель лишь незначительно теряет общие знания, а для восстановления утраченных способностей требуется в 7 раз больше вычислительных ресурсов, чем при стандартном обучении, что приводит лишь к небольшому увеличению нагрузки – около 5-6%.