この論文では、sinusoidal 外挿法に基づくパケットロス隠蔽方式を提案する。
これは、パケット化された音声を受け取り手側で変換するシステムで、
PCM波形のフレーム落ちの隠蔽を実現する。
この方式は、
LP分析を通して得られた音声信号のソースフィルタ成分によって作動する。
1つか、それ以上の音声フレームが落ちたとき、
LP残差・フィルタ係数が別々に推定される。
一番近いフィルタの繰り返しや、
帯域幅の拡大に対して、残差は最後に収集した残差フレームのsinusoidal
モデリングに基づいて推定される。
提案した方式は、
主観的実験の方法による2つのベンチマークシステムと比較されている。
ベンチマークシステムは最後のピッチ周期の繰り返しに基づいている。
1つは、ソースフィルタ成分で動作し、もう1つは音声信号そのものである。
ソースフィルタ成分で動作するシステムは、聞き手にも好まれ、
提案したシステムは、
2つのベンチマークシステム両方よりもはっきりと優れていることを示す。
パケット交換網上の音声伝達は、ブロードバンドインフラが整ってきている
ことでさらに面白い分野となっている。
会社・団体は、
すでに存在しているデータネットワークを利用することによって生じる、
電話代・トラフィックを有意義に削減できる。
個人ユーザは、国際電話をインターネット上で基本的に”無料”で使用できる。
しかし、問題がある。
音声伝達は、
e-mailやファイル転送のような伝統的データ伝送よりも遅延が許されない。
末端〜末端のトータル遅延が大きくなると、伝達に支障が出始める。
同時に離したり、互いに黙ったり。
国際電話通信連合(ITU)は、150msの遅延を最大とすることを推薦している。[1]
これは、様々な伝達遅延を伴った混雑しているネットワーク上で強い制限となる。
それゆえ、
システムデザインのすべての面で遅延時間を最小化することが最も重要。
伝統的に、コンピュータネットワーク上のエラーは、自動再送要求(ARQ)
を使って処理されていた。[2]
しかし音声伝達特有の、許容可能な遅延の狭さによって、
遅延のまとまりの中でごく少量の時間がよく残り、
ARQ 方式は時間通りにデータを転送できなくなる。
そして、時間通りに転送されなかったデータは、失うと考えられる。
ARQより適切な選択の余地があり、この問題は違うレベルで取り組めるだろう。
パケットロスの補正を行わないシステムと比較すると、
1つの、システムの受け手だけで修正することが考えられる。
このような取り組みは、多くのアピールできる道具を持つ。
過去との互換性は維持されており、同じビット数がネットワーク上で伝送される。
その上、受け手を基にしたパケットロス隠蔽(PLC)技術は、
システム全体に余分なアルゴリズム遅延が加わることがない。
受け手基準のPLC設計は、
よくフレーム反復・無音置換のような直感的解決に基づいている。
波形置換技術は[3]で提供されており、
今日の音声コーダの多くの規格化されたPLC技術の基礎[4]を形づくっている。
[5]では、余分な遅延の広がりによるフレームの損失をカバーするため、
類似・重複波形の追加
(WSOLA)を通したタイムスケール修正を使用することが示されている。
システムの送信器で修正することも可能である。
1つの例は、前向き誤差訂正(FEC)[6,7]である。
これは、情報を修正して送信するので、
失ったパケットが修正されたデータから、
全体か一部を回復することが可能なことに基づいた方式である。
遅延時間(修正データは待つ必要がある)の計算と、
オーバーヘッド
の両方が加わることは、
パケットロスの主な原因が混雑したネットワークであっても、
明らかに良いアイディアではない。
多様性(時間的なもの、違う伝送経路の使用)は、
多種コード使用の開発となるだろう。[8,9]
さらに、もう一つの送信器での修正の解決法に、適応パケット化を使用する。[10]
パケットサイズはピッチ周期予測を基に、
さらに重要な区間は短いパケットで送られる。
3つめの、指定されたパケット損失問題の概念的提案は、
完全に基礎ネットワークを修正すること、
さらにロバストな通信を供給することである。
資源制限プロトコル(RSVP)[11]と特殊化サービスアーキテクチャ[12]は、
この方向での2つのステップである。
このような方式は、サービスの確かな品質を保証することを可能にするために、
ネットワーク全てのノードで実行されていることが必要。
このような投資は、統合されたネットワーク上で可能になるだろう。しかし、
まだしばらくの間、公共のインターネット上で予測することはできない。
この論文では、低遅延解決法に興味をもち、
受け手ベースのパケットロス隠蔽方式を提案する。
この方式は、その他の提案されているいくつかの方式と合わせて使用できる
(例えば、FECが信号を保護するのに使用されて、パケットロスがまだ存在したら、
PLCをレシーバに使用できる)。
他にも便利に使用できるだろう。パケット交換を行わない方式、例えば、
ラジオチャネル上の深いフェードがフレーム落ちを引き起こす、携帯電話とか。
提案方式は、コーダ独立方式(デコードされたPCM波形上で動作する)で、
システム全体で、余分なアルゴリズム遅延が加わることは無い。
この方式は、
最後に正しく受けた音声フレームのLP分析に起因する、
ソースフィルタ成分の外挿法を基本にしている。
次のセクションでは方式のアウトライン、LP係数と残差については3章、
4章で別々に扱う。
6章で”おわりに”が書かれている前に、
5章では主観的評価と2つのベンチマークテストとの比較がされている。
この論文で提案されているPLC方式は、
LP分析によって得られた音声信号のソースフィルタ成分のロス回復を基本としている。
[13]
LP残差、LP係数(スペクトル成分)は、図1に示すように分けて扱われる。
8kHzサンプリング周波数での音声20msと一致する、
R=160サンプルの固定フレーム長が推定される。
LP分析は、次数d=10、フィルタの状態を最新に保つため、
全て正しく受信した音声フレームで実行される。
音声フレームが失ったとき、
図1の右の切替器はPLCユニット(網掛けの部分)の出力を選ぶ。
PLCユニットは、過去のLP残差・LP係数をストアする。
これは、外挿可能にする為バッファ内に受信成功したフレームから導かれるもの。
ここで示された方式は、2つの方法で適用されることが可能となる。
この2つの方法は、[4]のようなPCM波形でのフレームロスを回復するのに、
それ自身を使用できる。
二者択一的に、これらは[14]のように、
ソースフィルタ成分を使用して音声をエンコードする、
パラメトリック音声コーダの受信側を統合させることができる。
ここで、formerに焦点をあてる。
ゆっくりと変化するスペクトル部は、(1)式のような、
前のLPフィルタの帯域拡張.verによって回復される。
ここで、{a'k}は、帯域拡張された延長フィルタ係数。
この影響で、フィルタを”ソフト”にできる。
1つ以上の連続するフレームロスが起こったら、延長フィルタを再度使用する。
フレームエラーの間、
LP延長フィルタは帯域拡張.verの前のフレームのフィルタを基本に、
サンプル毎に修正される。
エラー出現後、最初に正しく受信したフレーム
(これ以後は”回復フレーム”と示す)のため、LPフィルタは、
最後のエラーフレームの帯域拡張フィルタを、回復フレームデータから導き出された
”正しい”フィルタへ修正される。
このように、スムースな推移が行われる。
内挿法は、LP係数のケプストラルパラメータ化[13]を使用して実現する。
さらに複雑なスペクトル予測法が提案されている[15]が、
現在の仕様は単フレーム反復法が主で、
さらに、スタンダードPLC方式で使用するのに成功している。[14,16]
最初の実験は、残差部が知覚的に正確に回復するのがさらに重要だと示している。
提案した残差外挿法は、
LP残差 r(n) の最後のNサンプルのsinusoidal モデルを基にしている。
式(2)ではそれぞれ、
L : 使用したsin 波の数
{Ai} : 振幅の集合
{wi} : 周波数の集合
{Φi} : 位相の集合
我々の実験では、L=64 とした。
残差外挿法の主なアイディアは、sin 波が
1つか、それ以上の無くなったフレームを回復するために、
フレーム境界を越えて変動を持続させること。
例えば、LP残差が予測されていることが、図2でわかる。
外挿された残差は、
不自然な音声を避けるために、サンプル毎に次第に弱められていく。
振幅のフレーム毎による20%の下降故に、5つの連続したエラーフレームの後、
信号は完全に弱まる。
さらに、雑音は(3)式によるsinusoidal 推定で合成される。
k : フレーム消去の数
ξk(n) : H(z) = 1-0.9z のフィルタを通した白色雑音
(r(n) のハットと同じ力)
雑音合成の目的は、
長いエラー発生期間が起こったときのような、
周期性超過の影響を弱めるためである。
回復フレーム内の”正しい”残差は、
サンプル d + 1 = 11 、そしてその前方から利用可能である。
これは、
エラー発生と最初の d = 10 サンプル(LP分析の次数と一致する)が確かでない間、
LP生産フィルタがその状態を失った事実となるはずである。
外挿された残差から正しい残差へのスムースな転換の為、
2つは最初の10に続く20サンプルで半分のハミング窓を掛け、
重ねて加えられる。
sinusoidal モデルのパラメータを発見する為、
一般的な2乗誤差基準が考えられる。
(4)式について、w(n) は関数の重み。
その合計は sin の引数である、2L の非線形項を含む。
三角関数式の使用により、
振幅と位相が (4) 式との違いによってはっきりと解決でき、
両方の段階を推論することが可能となる。
言い換えると、周波数は非線形な基準で出現し、
その他の方法で発見される必要がある。
仮にe^L とおいてL サイン波を使用したエラーモデルを示す (5),(6) 。
ステップ L + 1 での誤差は前のステップでの誤差との関係、
ステップ L + 1 で予測されるパラメータによって絞り出される。
最小化の問題は、最近著しく減ってきている。
ただ一つの非線形パラメータである WL+1 が、
同時に見つけることが必要なように。
我々は、WL+1 の推定値を得る為、
高分解能(4096 point) の短時間フーリエ変換(STFT) でピーク抽出をしている。
sinusoidal モデリングに含む為の残差サンプルN の数の選択については、
カギが提案されている。
その分析は、十分に大きなデータの量を基本にしているので、
基本周波数(ピッチ)が得られる。
それゆえ、残差履歴のピッチ分析を基本にしたN を選択している。
信頼できるピッチ推定が得られないのなら(無声音等)、
その時はN = R とする。
p0 (サンプル)のピッチ推定が存在し、
このデータの量が残差履歴バッファで利用可能の場合、
N は次式で示される (論文参照)。
フレームロスは、
R - d サンプルを最小化した残差履歴バッファが原因で起こる。
このケースの場合、要求された N がR - d より大きいなら、
N = R - d サンプルが分析に使用される。
(4) 式の重み関数は、sinusoidal 外挿法成功の為に重要である。
(7) 式による放物指数窓[17] が考えられている。
パラメータαは、窓の形により決定できる。
分析バッファの最新部を強調するため、α = 5 で使用する。
(7) 式での関数の形は、図3に示す。
提案方式を評価するため、ランダムなフレーム落ちを、
4人の異なった話者からレコーディングしたいくつかの文でシミュレートした。
この音声材料はコーディングしておらず、
8kHz での16bit PCM信号サンプルされたもの。
そこで、この提案方式と2 つのベンチマーク方式(以下で記述)が、
フレーム落ち回復に使用される。
この結果は10人の聞き手に対して、
ペアになって(方式の1つで回復された1つの文に対し、
フレーム落ちした同じ文、もう1つの方式で回復した文)存在する。
聞き手には、自分の好みを示すようにしてあるが、
文の優先決定は、無制限に繰り返し選択の余地がある。
フレーム落ち通信モデルでは、Gilbert モデルを使用するのが普通である[7]。
このモデルは、図4 のイラストのような2つの状態のマルコフモデルで表される。
状態S は通信成功を示し、対する状態L はパケットロスを示す。
このモデルは確率p, q によって、
そして 1 - q > p とすることによって完全にパラメータ化され、
エラー通信路([18]によってよく報告されている)が生成される。
ここで、p = 3/23, 1 - q = 2p なので、パケットロスの全体の可能性は、0.15
となる。
提案したPLC方式のパフォーマンスを評価するため、
2つのベンチマークテストが考えられる。
これら両方は、履歴の部分の繰り返し、p0 でのピッチ推定を基にしている。
ベンチマークシステム1 はソースフィルタ成分上では働かない。しかし、
ロスした部分を、最後に正しく受信したp0 音声サンプルの反復挿入により、
単純に置き換える。
信頼できるピッチ推定が使用不可だったら、フレーム反復と同義である、
p0 = R とする。
信号は、エラー発生の間を基本に、
サンプル毎のフレーム20% に従って徐々に減っていく。
回復フレームの最初の20サンプルの間は、
予測信号が”正しい”信号として重なる。
いくつかの限界を目的として、
ベンチマークシステム1 は[4] の方式と共通点がある。
ベンチマークシステム2 は、ベンチマークシステム1 と、
提案した sinusoidal 外挿方式を合わせたものである。
これは、ソースフィルタ成分を基にしている。
特別な部分は、提案方式によって確実に回復するところだが、
LP 残差は最後のp0 残差サンプルの反復を使用して回復する。
信頼できるピッチ推定が使用不可なら、p0 はR にセットする。
(データ量が使用可のとき。例えば、
回復フレームの前のフレームがロスしてないとき。)
別な方法だと、p0 = R - d (LPフィルタが破壊された状態になる予定)
エラー発生の間、
提案方式で示しているように予測信号は弱く、ノイズが混じるようになる。
回復フレームを重ねている間は、他の方式として機能する。
フレームロスの影響は、スペクトログラムを使用した図5 で示す。
信号のスペクトル成分が、どのように変化しているかを見ることができる。
この例は、図2 と同じである。例えば図2 の予測残差は、
ここでフレーム落ちを回復している。
主観評価実験の結果をテーブル1 に示す。
主観評価に従って、
sinusoidal 推定方式がベンチマークシステム1 より優れているとしたのが95%、
ベンチマークシステム2
がベンチマークシステム1 より優れているとしたのが74%だった。
従って、ソースフィルタ成分で動作するこの方式は、
聞き手に好まれているとはっきり示すことができる。
加えて、sinusoidal 推定方式は、ベンチマークシステム2 より83%
好まれているので、ピッチ周期反復を基にした両方の方式よりも優れている。
提案方式がベンチマークシステムよりも優れているとはいえ、
まだやることはある。
エラー発生した音を聞こえるように回復したとき、
歪みが目立つものが、
長いエラー上の音の部分を推定したときに現れる”金属的な”音となった。
雑音混合は、4章に手助けが提案されているが、完全ではない。
雑音成分(サンプル基本)を、推定周波数に加えることを示している予備実験は、
さらに多くの自然音声の結果に報いるだろう。
この方式の計算の複雑性のメインは、エラー発生の最初のフレームに見られる。
そのときピッチ推定が得られ、sinusoidal モデルのパラメータは抽出される。
エラーフレームの間、LPフィルタは補完される。
使用されているシステムと比較して、
利用できる単純な方式によって、計算に悩まされることを減らすことが可能。
特に、sinusoidal 分析(例えば、STFT によるピーク抽出)やLP フィルタ補完。