G.728

G.728は ITU-T が勧告した 16 kbps の音声符号化方式で、符号化の際の遅延が小さいという特徴がある。

G.728の正式な名称は"Coding of speech at 16 kbit/s using low-delay code excited linear prediction" （低遅延符号励振線形予測(LD-CELP) を用いた 16kbit/s 音声符号化方式）である。

概要

ITU-T G.728（16kbps）はLD-CELP（low-delay code excited linear prediction、low-delay CELP）という音声符号化アルゴリズムを使い、32kbps の ADPCM と同等の音質を実現している ^[1]。 G.728 は符号化時の遅延を 2ms（サンプリング周波数 8 kHz で 16 サンプル）以下に抑えることを目標に仕様が作成され、1992年に勧告された。

LD-CELPは、符号化遅延を 0.625 ms（ 5 サンプル）に低遅延化した CELP である。一般に、多くの低ビットレートの音声符号化方式はサンプル値を 10ms から 30ms 程度のまとまり（フレーム）にまとめ、フレーム単位で符号化の処理を行う。通常の CELP の場合、人間の声道に相当する合成フィルターとして線形予測フィルターを、声帯に相当する音源として適応型と固定型のコードブックの値を使用するため、線形予測係数の計算や、最適な適応型/固定型コードブック値の探索のためにフレーム単位での処理が必要になる。そのため符号化方式とフレーム長によって決まる一定の「符号化遅延」が発生する。例えば、ITU-T G.729 の符号化遅延は 15ms（先読み遅延5msを含む）、G.729.1 の符号化遅延は 48.9375 ms であり、どんなに高速な処理を行っても遅延をこれ以下にできない。

それに対し、LD-CELP はフレーム単位の処理を行わない。線形予測係数などのパラメータは過去のサンプル値から後ろ向きに求める。また 5 サンプル単位という短い時間ごとに固定型コードブック探索を行う。これらの処理により符号化遅延を 0.625 ms（5サンプル）に抑えている^[1]。

また、適応型コードブックは使用せず、その代わり 50 次という高次数の線形予測を行う（通常の CELP では 10～16 次程度）。線形予測係数はエンコーダ/デコーダ双方で後ろ向きに係数を求めることで同期を行う。線形予測係数を符号化データとして送る必要が無いため、符号化データとしてはコードブックのインデックス値のみを送る。

G.728 の特徴を以下にまとめる。

符号化遅延が低い（ 0.625 ms、5サンプル）
入出力はサンプリング周波数 8 kHz、64kbps A-law/μ-law 相当
固定ビットレート 16 kbps
32kbps の ADPCM と同等の音質
CELP の考え方をベースにするが、アルゴリズムはかなり異なる。

脚注

^ ^a ^b ITU-T Recommendation G.728 (09/1992), Coding of speech at 16 kbit/s using low-delay code excited linear prediction. ITU-T, 1992.

参考文献

Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed). Springer Handbook of Speech Processing. Springer, 2007. ISBN 978-3540491255.
ITU-T Recommendation G.728 (09/1992), Coding of speech at 16 kbit/s using low-delay code excited linear prediction. ITU-T, 1992.

外部リンク

[ITU-Rec-1] ITU-T Recommendation G.728 (09/1992), Coding of speech at 16 kbit/s using low-delay code excited linear prediction. ITU-T, 1992.

[1]

概要

脚注

参考文献

関連項目

外部リンク