Новые методы оптимизации нейросетей: Эффективность и масштабируемость
1 января 2026 года команда DeepSeek представила mHC – инновационный подход к передаче информации между слоями нейронных сетей. Разработка позволила расширить внутренние коммуникационные каналы модели без негативного влияния на процесс обучения, используя архитектуру трансформеров, которая практически не менялась с 2016 года.
mHC основывается на идеях, изначально предложенных ByteDance в работе HC, и демонстрирует возможность масштабирования концепции без увеличения вычислительных затрат, даже при увеличении сложности как математической, так и топологической структуры.
Второй важный аспект – создание Engram, нового модуля памяти. Данный модуль использует принцип хранения часто используемых фактов и конструкций в быстрой таблице для исключения повторных вычислений и сосредоточения ресурсов модели на рассуждениях, а не на воспроизведении уже известной информации. Многие эксперты рассматривают этот подход как прорыв в разделении памяти и рассуждений, что позволяет оптимизировать использование вычислительных ресурсов.
Оба новых релиза подчеркивают стремление DeepSeek к активному развитию как в области архитектуры нейронных сетей, так и в системном инженерном обеспечении.