
高効率生成型人工知能(AI)モデルで世界的な旋風を巻き起こしたディープシークが長文を迅速に訓練し、推論できる最新技術を公開した。
19日、ディープシークのX公式アカウントによると、創業者の梁元峰氏を含むディープシークの開発チームは「NSA(Native Sparse Attention)」と名付けた新たなアテンションメカニズムを紹介する論文を、論文共有サイト「arXiv」に公開した。
ディープシークは論文の中で「長文(long-context)モデリングは次世代言語モデルにおいて極めて重要だが、標準的なアテンション(Attention)メカニズムの高い計算コストが大きな課題となっている」とし、「『スパース(sparse)アテンション』を活用することで、モデルの性能を維持しながら計算効率を改善できる」と述べた。
従来の「フル(Full)アテンション」メカニズムは、全てのトークン(AIモデルで処理されるデータ単位)間の関係を計算するシーケンス(文章の長さ)が増えるほど、計算負荷が指数関数的に増大するという問題があった。そのため、AI業界では一部のトークンのみを選択して計算する「スパースアテンション」の研究が活発に行われている。
ディープシークは「効率的な長文モデリングのためにアルゴリズム革新とハードウェア最適化を組み合わせた『生来的に訓練可能なスパースアテンション(NSA)』メカニズムを発表する」とし、「NSAは動的階層化(dynamic hierarchical)スパース戦略を採用し、トークンの圧縮と選択を組み合わせた」と説明した。
近年、AIモデルはChatGPTを開発したOpenAIの「o」シリーズやディープシークの「R1」、Googleの「Gemini 2.0」など、推論(reasoning)モデルが主流となり、長文処理能力がより一層求められている。
ディープシークが開発したNSAは、重要でないトークンを圧縮し、必須のトークンのみを選択して計算コストを削減し、処理速度を向上させる「動的階層化」スパース戦略を適用した。
ディープシークはフルアテンションとNSAのベンチマーク(性能比較)テストでは、NSAのスコアが高く、64Kシーケンス処理速度を比較した結果、デコーディングはNSAが11.6倍速く、逆伝播(backpropagation)も6倍速かったと主張した。