[論文] テキストからオーディオや音楽への変換を行う非自己回帰モデル「MAGNET」とは?

論文

MAGNETとは?

MAGNET(MASKED AUDIO GENERATION USING A SINGLE NON- AUTOREGRESSIVE TRANSFORMER)はテキストからオーディオや音楽への変換を行う新しい非自己回帰モデルです。

参考ソース

MAGNeT
Masked Audio Generation using a Single Non-Autoregressive Transformer
We introduce MAGNeT, a masked generative sequence modeling method that operates directly over several streams of audio t...
https://github.com/facebookresearch/audiocraft/blob/main/docs/MAGNET.md
facebook/magnet-small-10secs · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

新しい非自己回帰モデルとは?

新しい非自己回帰モデルは、自己回帰モデルと異なり、出力シーケンスを一度に生成することを特徴としています。これにより、計算速度が大幅に向上し、特に長いシーケンスの生成やリアルタイムアプリケーションでの使用が可能になります。

自己回帰モデル

各ステップで1つの出力を生成し、次のステップの入力として前の出力を使用する

非自己回帰モデル

全ての出力を並列に予測する。

課題

このアプローチは出力の一貫性や品質を維持するための追加の工夫が必要になる場合があります。

MAGNETの特徴

MAGNETは、オーディオトークンを活用し、シングルステージトランスフォーマーを用いてトレーニング中にマスクされたトークンの範囲を予測するモデルです。

このモデルは、推論時に複数ステップのデコーディングを経て出力シーケンスを形成し、外部の事前学習済みモデルを用いた独自の再スコアリング手法でオーディオの質を向上させます。

MAGNETは、自己回帰モデルと非自己回帰モデルの長所を融合させ、効率と速度を格段に高めることを目指しています。広範な評価から、このモデルは自己回帰モデルに匹敵する性能を保ちつつ、推論速度を顕著に改善することが明らかになっています。

論文の構成

  1. はじめに
  2. 背景
  3. 方法
    3-1. マスキング戦略
    3-2. 制限されたコンテキスト
    3-3. モデル推論
  4. 実験セットアップ
  5. 結果
    5-1. テキストから音楽への生成
    5-2. 分析
    5-3. アブレーション
  6. 関連研究
  7. 考察

1. はじめに

この論文の導入部では、オーディオのための新しいマスクされた生成系列モデリングアプローチであるMAGNetの背後にある動機について説明しています。自己教師あり表現学習、系列モデリング、およびオーディオ合成の最近の進歩は、高品質の条件付きオーディオ生成の性能を大幅に向上させています。導入部は、オーディオ信号を圧縮形式(離散または連続)で表現し、この表現に対して生成モデルを適用するという最近のアプローチを強調しています。この戦略は、様々な研究を通じて探求され、VQ-VAEを生の波形に直接適用したり、オーディオ信号表現に条件付き言語モデリングを適用したりするなど、直接的な応用が含まれています。

先行研究で探求された2つの主な生成モデルのカテゴリーは、離散オーディオ表現に作用する典型的な言語モデルである自己回帰(AR)モデルと、連続潜在表現に作用する拡散ベースのモデルです。これらのモデルの印象的な結果を認めつつ、導入部では、インタラクティブなアプリケーションでの遅延問題につながる高い推論時間(ARモデルの場合)、また、高品質なサンプルを生成するために多くのデコーディングステップが必要であり、長形式のシーケンスの生成が難しい(拡散モデルの場合)など、これらのモデルの欠点も指摘しています。

MAGNetは、以前のモデルのいくつかの制限に対処する、非自己回帰方式で動作する新しいモデルとして紹介されています。トレーニングでは、入力トークンのスパンがマスクされ、マスクされていないトークンに基づいて予測され、推論では、複数のデコーディングステップを使用してオーディオシーケンスが構築される単一のトランスフォーマーモデルを使用しています。オーディオ品質を向上させるために、外部の事前学習済みモデルを利用してMAGNetからの予測を再スコアリングし、ランク付けする新しい方法が導入されています。さらに、ハイブリッドバージョンのMAGNetは、自己回帰モデルと非自己回帰モデルを組み合わせており、初期シーケンスを自己回帰的に生成し、残りを並列にデコードします。

このセクションは、MAGNetのテキストから音楽へ、およびテキストからオーディオへの生成における効率性を強調し、自己回帰モデルと比較して顕著な速度の改善を示しつつ、同等の性能を維持しています。実証的な評価を通じて、この論文はMAGNetの各コンポーネントの重要性と、遅延、スループット、生成品質の間のトレードオフを考慮した自己回帰および非自己回帰モデリング間のトレードオフに光を当てることを目指しています。

2. 背景

背景セクションは、現代のオーディオ生成モデルで一般的に使用される潜在表現に焦点を当てています。このセクションは、オーディオ生成における潜在表現の役割とそのモデリング手法について深い理解を提供し、オーディオの品質を向上させるための新しいアプローチを示しています。

潜在表現の生成

圧縮モデル、特に残差ベクトル量子化(RVQ)を使用して、複数の並列ストリームでオーディオの潜在表現を生成します。これらの表現は、異なる学習済みコードブックから発生する離散トークンによって構成されます。

EnCodecの使用

畳み込みオートエンコーダーであるEnCodecがRVQを利用して音声信号を量子化し、敵対的再構成損失を通じてオーディオの品質を向上させる方法が紹介されています。

オーディオ生成モデリングの目標

離散オーディオ信号の表現を通じて、条件付き結合確率分布をモデリングすることです。自己回帰モデルは確率の連鎖律を使い、非自己回帰モデルはマスクされていないトークンに基づいてトークンのサブセットを予測します。

マルチストリームシーケンス

RVQによって生成され、最初のコードブックが信号の大まかな情報を、後続のコードブックが量子化エラーをエンコードして、生成品質を細かく調整します。

トークン予測の新しい方法

Borsos et al. (2023b)によって提案された、先行するコードブックに基づいて後続のコードブックからトークンを予測する方法です。

3. 方法

このセクションは論文の核心部であり、MAGNetがオーディオ生成のための非自己回帰オーディオベースの生成的マスク言語モデルとして、意味的表現に基づいて動作することを詳細に説明しています。マスキング戦略、制限されたコンテキスト、サンプリングメカニズム、モデルの再スコアリングなどの核心的なモデリング変更を導入しています。

3-1. マスキング戦略

隣接するオーディオトークンが情報を共有するため、個々のトークンではなくトークンのスパンをマスキングの基本単位として使用します。スパンの長さは20msから200msまで様々に評価され、60msのスパン長が最も優れた全体的なパフォーマンスを提供することが見出されました。

3-2. 制限されたコンテキスト

各量子化器が前の量子化器によって残された量子化誤差をエンコードするRVQベースのオーディオトークナイザーを使用しています。このことから、最初のコードブック以外は前のコードブックに大きく依存するため、EnCodecの解析を通じてコードブックのコンテキストを制限します。

3-3. モデル推論

一様サンプリングを使用して以前にマスクされたスパンからスパンを選択します。実際には、i番目のイテレーションでのモデルの信頼度をスコアリング機能として使用し、すべての可能なスパンをランク付けして、それに応じて最も確率の低いスパンをマスクします。また、自動音声認識(ASR)デコーディングで一般的な実践に触発され、新しい再スコアリング戦略を提案します。

図1:MAGNETモデルの推論。各反復の間に、トークンのスパンのサブセットをマスクする(完全にマスクされたシーケンスから始める)。次に、事前に学習した外部モデルに基づいてトークンを再スコアする。最後に、次のデコーディング反復のために再マスクするトークンスパンを選択する。
『MASKED AUDIO GENERATION USING A SINGLE NON- AUTOREGRESSIVE TRANSFORMER』抜粋

4. 実験セットアップ

このセクションではMAGNetの実装詳細、使用されたデータセット、および評価方法について詳細に説明されています。

カテゴリ詳細
実装の詳細エンコーダ: EnCodec, 50Hzの離散表現
モデルサイズ: MAGNet-small (300Mパラメータ), MAGNet-large (1.5Bパラメータ)
トレーニング: 30秒のオーディオクロップ, AdamW, 1Mステップ
推論: ヌクレウスサンプリング, top-p=0.9, 温度=3.0
データセットトレーニング: 20K時間の音楽, 32kHzサンプリング
評価: MusicCapsベンチマーク, 5.5Kサンプル
評価ベースライン: Mousai, MusicGen, AudioLDM2, MusicLM
メトリック: FAD, KL, CLAPスコア
人間の研究: オーディオサンプルの品質とテキスト入力の関連性評価

5. 結果

5-1. テキストから音楽生成

MAGNetがテキストから音楽およびオーディオを生成するタスクにおいて、既存の自己回帰モデルや潜在拡散モデルと比較して、同等またはそれ以上のパフォーマンスを、はるかに低いレイテンシで達成できることを示しています。これにより、MAGNetがリアルタイムの音楽生成アプリケーションに適していることが示唆されます。

図2:レイテンシとスループットの分析: MAGNETはバッチサイズが小さい場合に特に適している(そのレイテンシはMUSICGENより最大10倍低い)が、MUSICGENはバッチサイズが大きい場合に高いスループットの恩恵を受ける。MAGNETは、カスタマイズ可能なデコードスケジュールを可能にしたり、ハイブリッド-MAGNETバリアントで柔軟な持続時間の自己回帰生成プロンプトを使用することにより、レイテンシと品質のトレードオフに関して柔軟性を提供する。
『MASKED AUDIO GENERATION USING A SINGLE NON- AUTOREGRESSIVE TRANSFORMER』抜粋

MAGNetは、Mousai、MusicGen、AudioLDM2、MusicLMなどの既存のモデルと比較されます。MAGNetは、これらのモデルと比較して、類似のパフォーマンスを達成しつつ、特にレイテンシ(応答時間)とデコーディングステップの点で大幅に高速であることが示されました。特に、MAGNetは、オーディオLDM2と比較して、FADとCLAPスコアが低いものの、主観的なKLスコアで優れた結果を示しています。また、環境音の生成(テキストからオーディオ生成)のタスクにおいても、MAGNetの評価が行われ、自己回帰モデルと比較して類似のパフォーマンスを達成しつつ、大幅に高速であることが確認されました​​。

5-2. 分析

レイテンシ対スループット

小さなバッチサイズでのMAGNetのレイテンシは、自己回帰モデルに比べて最大10倍低く、対話型アプリケーションにおいて低レイテンシが特に重要です。しかし、スループットが優先されるシナリオでは、自己回帰モデルが好まれます。

Hybrid-MAGNet

非自己回帰生成を自己回帰生成されたオーディオプロンプトでブートストラップするハイブリッドバージョンが提案され、トレーニングと推論の両方でデコーディング戦略を組み合わせることができます。このハイブリッドアプローチは、品質とレイテンシのトレードオフを制御する別の方法を提供します​​。

5-3. アブレーション

モデリング選択の効果

スパンマスキングと時間的コンテキストの制限の必要性を検証するために、異なるモデル構成をトレーニングし、FADスコアを報告します。制限されたコンテキストを使用することで、すべての設定においてモデルパフォーマンスが一貫して向上し、スパン長3(60msに相当)が最高のパフォーマンスを提供することが示されました。

CFGアニーリングの効果

CFG係数の構成を使用して、ドメイン内サンプル上での結果を評価し、λ0=10、λ1=1を使用することが、評価されたすべてのセットアップで最高のFADスコアを提供することが示されました。

モデルリスコアリングの効果

モデルリスコアリングを適用することで、ほとんどのメトリックでパフォーマンスが向上することが示されましたが、これは推論時間が遅くなることと引き換えになります。

デコーディングステップの効果

デコーディングステップを減らすことで、全体的なレイテンシとパフォーマンスにどのように影響するかを探ります。高いレベルでのデコーディングステップを減らすことは、最初のレベルほど品質に大きな影響を与えません​​。

6. 関連研究

関連研究セクションは、オーディオ生成のための自己回帰モデルと非自己回帰モデルの進化について議論しています。高品質な生成を実現するが、推論時間が遅いという自己回帰モデルから、ある程度の品質を犠牲にしつつも生成速度が速い非自己回帰モデルへの移行を強調しています。環境音や音楽生成における両アプローチを使用した具体的な研究を挙げ、マスキング生成モデリングを機械翻訳やクラス条件付き画像合成のための並列デコード方法として紹介しています。MAGNetの作業はこのコンテキストの中で位置づけられ、テキスト条件付きオーディオ生成において競争力のある性能と速い推論時間を実現する単一段階モデルとしての新規性を強調しています。

7. 考察

このセクションでは、非自己回帰オーディオ生成に関連する主要な点が取り上げられています。限界として、モデルが各デコードステップで全シーケンスを再エンコードする点が挙げられ、これは特にバッチサイズが大きくなるにつれて効率が低下する可能性があります。著者らは、将来の研究でこの問題に対処するための方法を模索することを示唆しています。結論として、MAGNetがテキスト条件付きオーディオ生成のための非自己回帰方法として優れた性能を示し、特にリアルタイムオーディオ生成において有望であると強調されています。将来的には、モデルリスコアリングと推論方法の改善により、さらなる性能向上が期待されています。

まとめ

MAGNet論文により、テキストからオーディオへの生成が高速化され、品質が向上します。これによりリアルタイムアプリケーションの応答性の向上、新しいアプリケーションの開発、およびオーディオ生成技術の研究進展が期待できます。自己回帰と非自己回帰の融合による新しい生成モデルの開発も促進されるでしょう。MAGNetはオーディオ生成の新たな可能性を開き、将来の技術進化の基盤を提供します。

参考文献

『MASKED AUDIO GENERATION USING A SINGLE NON- AUTOREGRESSIVE TRANSFORMER』

Masked Audio Generation using a Single Non-Autoregressive Transformer
We introduce MAGNeT, a masked generative sequence modeling method that operates directly over several streams of audio t...

コメント

タイトルとURLをコピーしました