ネットワークを介した映像配信は今後ますます教育現場に広く浸透する。 ここでは映像配信のための代表的な技術としてMPEGに準拠する方式とRealVideoによる方式を紹介し、 評価用の映像作成した上で実際に読者が確認できるように様々な条件でエンコードした。 これらの映像を比較した上でそれぞれの方式の長所・短所を考察し、 今後のネットワーク上での映像配信技術の展望について述べる。
キーワード:Video On Demand、RealVideo、MPEG-1、MPEG-2、MPEG-4
近年のキャンパスネットワークの高速化に伴い、 数年前までは不可能だったネットワークを介した映像配信が現実のものとなってきた。 山梨大学では他大学よりも比較的早い段階から、 マルチメディアの教育への利用としてのビデオ・オン・デマンド・システム、 いわゆるVODシステムに取り組んできた。 多くの失敗と挫折を経てようやっと今日ではNEC社製のHyper-MSシステムが問題を抱えながらもなんとか稼働にこぎつけ、 徐々にではあるが確実にコンテンツも増えつつある。 また一方ではRealVideoによる講演会や各種イベントのライブ映像配信も1999年秋頃から実験的に導入され、 今日では大分運用ノウハウも蓄積されて非常に頻繁に映像配信を行えるようになった。 1999年秋の大学祭でもRealVideoによる初のインターネット中継が試みられ、 今後にいくつか課題を残したものの十分な可能性が確認された。 その様子については本年度の研究報告でも触れられているので、参考にして頂きたい。
この様にようにやっと身近なところでの実用の段階に達した感のあるネットワークを介した映像配信であるが、 今後はますます学内で利用される機会も増えて浸透して行くことが期待される。 そこで本報告では、 ネットワークを介した映像配信の様々な側面を総合情報処理センターで評価してきた立場から、 VODやライブ配信を実現するための要素技術の紹介、技術的評価に基づく比較、将来性と展望などについて述べる。
ネットワークを介した映像配信のためには映像圧縮、音声圧縮、それらの同期、 配信方法などいくつかの技術が組み合わされて機能する。 しかし例えば幾つかの映像圧縮と音声圧縮は非常に強く関連づけられており、 配信方法なども含めて利用者が個別の技術を自由に組み合わせることは実際は困難である。 利用可能な代表的な映像配信のための総合的な手法をまず選び、 その中での細かい設定として選択可能なオプションとして圧縮方式や配信方式を選ぶことになる。 以下では映像の圧縮方式を中心として代表的な技術を簡単に紹介し、 それ以外の技術については映像圧縮に付随する形で説明することにする。
まず基本的な事項であるが、 映像はフレームと呼ばれる静止画を時間軸に沿って複数配置することで表現されている。 フレームの解像度や1秒間当りのフレーム数などは映像によって異なるが、 フレームの解像度が高ければ高いほど映像は鮮明に、 秒間フレーム数が増せば映像は動きがなめらかに表示される。 従って高品位な映像を表現するためにはフレームの解像度を高くし秒間フレーム数を増やせば良いが、 そうすると当然1秒間当りの映像データの容量、いわゆる帯域数が増えてしまう。 帯域数の表現にはネットワークの帯域と同じく、 Kbps(Kilo bits per second)やMbps(Mega bits per second)が用いられる。 ネットワーク上で映像配信を行う場合には配信する映像の帯域はネットワークの帯域を越えることはできないので、 例えば28.8Kbpsのアナログモデム回線の環境と100MbpsのLAN環境では配信できる映像の最高品質は大幅に異なってしまう。
また映像データは様々な方法によって圧縮される。 一般に画像や映像の圧縮の際には圧縮前のデータが圧縮後には完全に再現されない、 つまりデータの損失が生じる非可逆圧縮が良く用いられる。 非可逆圧縮では圧縮されたデータは元のデータに対する一種の近似となるが、 画像や映像の場合はそういった品質劣化がある程度は許容されるためであり、 この妥協によって完全な可逆圧縮に比べて大幅な圧縮が可能となる。 映像の各フレームを他のフレームとは独立に圧縮する方法には例えば代表的なものとしてMotion Jpegなどがあり、 それぞれのフレームは非可逆圧縮であるJpeg形式で特定の割合で圧縮される。 これに対して各フレームのデータを他のフレームと独立に保持するのではなく、 前後のフレームとの差分を計算してフレームのデータとするような方法もある。 この代表的なものはMPEG(Moving Picture Experts Group)による符合化方式である。 MPEGでは前後のフレームで差分が少ない場合、 例えば画面の限られた部分だけが動いている様な映像では特に圧縮効果が高く、 映像の品質を保ちつつ大幅なデータ圧縮が可能になるが、 逆に任意の一枚のフレームの静止画像を切り出すことなどが困難で編集には不向きで、 高品位な映像の保存形式として使われることが多い。
MPEGで策定された符合化形式の一つで解像度352x240程度、 映像帯域は1.5Mbps程度を上限とするVHS相当の品質の映像を表現する。 GOP(Group of Pictures)といわれるフレームの周期的な繰り返しを用いた圧縮方式である。 GOPはフレーム内で一枚の静止画として圧縮が完結しているIピクチャ、 前のフレームとの差分をとって圧縮するPピクチャ、 前後のフレームとの差分をとって圧縮するBピクチャなどから構成される。 IピクチャよりもPピクチャの方が圧縮率が高く、BピクチャはPピクチャよりもさらに圧縮率が高い。 MPEG-1はVideo-CDでも用いられており、カラオケその他で目にすることが多い。 音声の圧縮はMPEG-1 Audio Layer1、2、3などの形式と併用する。 MPEG-1形式の映像ファイルはUNIX系、Windows、 MacOSなど非常に多くのプラットフォーム上で再生が可能である。
MPEG-1をさらに発展させ、 数Mbps〜60Mbps程度の映像帯域を用いてS-VHSからDVD、HDTV相当の品質の映像を表現する。 開発当初は放送や映像機器への応用を意識していたが、 欧州の次世代地上波テレビ放送でも採用される見込みが高く、 また最近ではSonyのPlayStation2にもMPEG-2の再生機能が備わっており、 デジタルメディアの家庭への普及を進める原動力となっている。 MPEG-1と比べると映像の品質は高いが、 エンコードとデコードつまり作成と再生により多くの処理が必要となるため、 最近まではPCでの利用には高価な専用のハードウェアが必要とされてきた。 しかし最近では安価なMPEG-2対応のビデオカードも登場し、 CPU自体の高速化によって完全なソフトウェアによる処理でも対応が可能な状況にもなってきており、 非常に身近になってきた。
MPEG-4では特に64Kbps程度の低い帯域での映像配信を実現する技術として開発され、 テレビ電話向けのITU-T勧告H.263とほとんど同じ圧縮方式を取り込んでいる。 現在ようやくVersion2の規格化が終了し、38.4Mbpsの高品位なHDTV向けの仕様も取り込まれ、 広範囲の帯域をカバーする次世代の映像配信のための技術として期待されている。 現在ではMicrosoftのWindowsプラットフォーム上でのWindows Media Technologiesに組み込まれており、 またMPEG-4対応の動画撮影カメラなども発売され、 まだ限られたプラットフォーム上ではあるがその能力の評価を行える段階にある。 クライアントはMacOSでも利用可能である。
RealNetworks社によって開発された独自の映像圧縮形式で、 インターネットを介した映像配信の先駆けであると同時に現段階でもっとも広く利用されている。 音声の圧縮には同社のRealAudioという独自形式を用いる。 クライアントはWindows、MacOS、Linux他のUNIX系OSなど広範囲にわたる環境で利用可能で、 基本機能を提供するRealPlayerに関しては完全に無料である。 映像・音声の帯域は合計で20Kbps〜1Mbpsで、 低帯域ネットワーク上での映像配信からスタートした歴史的な背景を反映している。 またライブ映像の配信やマルチキャストにも対応している。 MPEGと同様にフレーム間圧縮を用いており、 同じ帯域ではMPEG-1よりも高品位な映像が再生可能であると主張している。 フレームレートは上限が設定できるだけで、 映像の種類や帯域によって自動的に調整される。 複数の種類の帯域に対応したデータを単一のファイルとして生成する機能、 ネットワーク回線の状況の変化に応じて動的に帯域を変化させて映像のとぎれを最小限にする機能などが実装されている。
MacOS上での動画形式として開発され、現在ではWindows上でも利用可能である。 映像・音声ともに圧縮は様々な形式に対応しており、 映像はMotion JPEG、MPEG-4と同等のH.263などにも対応している。 最近のVersion4ではRealVideoと同様に複数の帯域のデータの単一ファイル化、 ネットワーク上へのストリーム配信にも対応している。 映像や音声以外にも3次元形状や空間を表現するQuickTimeVRなど、独特の拡張が行われている。
以上は一般的な映像圧縮と配信に関する技術の紹介であるが、 ここで山梨大学での映像配信の現状について紹介する。 まず現在はNEC製のHyper-MSというVODシステムが稼働している。 これはMPEG-1に基づく映像・音声圧縮を用いており、 解像度352x240で1〜1.8Mbps程度の帯域の映像を配信している。 サーバはWindowsNTマシンで、クライアントもWindows環境でのみ利用可能である。 しかしWindows95 OSR2.5などのマイナーな環境ではインストールできないなどの問題がある上に、 インストール方法もやや煩雑である。 現在は複数のクライアントへの同時配信に十分には対応できておらず、 一定数以上の同時接続時には映像がとぎれたり音声との同期がとれなくなる場合があり、 調査中である。 またライブ映像の配信には対応していない。 そこでライブ配信の需要を考慮し、昨年秋から試験的にRealVideoによる映像配信を開始した。 現在はVODとしてのコンテンツも徐々に増えてきており、 Hyper-MSの1.8Mbpsというコンテンツと比べてRealVideoの1Mbpsのコンテンツはさほど見劣りするものではない。 何よりもライブ配信を行える点、広範囲のクライアント環境で利用可能な点が優っており、 同時接続数の問題もない。 今後もさらに利用を拡大して行く予定である。
上述のように現在山梨大学ではMPEG-1に基づくVODシステムと、 RealVideoに基づくシステムを併用しているが、 さらに将来を見据えて様々な映像の圧縮技術や配信技術にも注目している。 以下では代表的な映像圧縮形式としてMPEG-1、MPEG-2、MPEG-4、RealVideoを取り上げ、 様々な種類の映像を様々な帯域で変換した場合に、 それぞれの圧縮形式で生成される映像が実際にどのようになるかを評価する。 QuickTimeのH.263形式もMPEG-4と是非比較したかったが、 残念ながら指定した帯域の映像を正しく作り出すことができなかった。 これは今回映像を作成したソフトウェアであるWindows版のAdobe Premiere5.1cの問題かも知れない。 PremiereではMPEG-4の生成でも同様に帯域の指定が正しく行えなかったので、 他のツールを利用する必要があった。 手元にはMacintoshもなく、QuickTimeを生成できるソフトが他になかったためにあきらめざるを得なかった。
映像は以下の3つのセクションから構成されている。
ここでは実際に学内での利用機会が多いと思われる素材を集めた。 まず文字だけがスクロールする場面では読み取れる文字の大きさを中心に評価、 スライドでは静止したスライドが次々と切り替わる局面を想定し、 最後に実際の典型的な講演による映像を評価することとした。
ここでは比較的動きの多い実写映像を組み合わせた。 そのため前のセクションの講演風景とは対照的に、 画面のほぼ全体にわたる広範囲で映像が変化しており、 低帯域時に品質を保ったままの圧縮が難しい場面である。
ここでも比較的広範囲での変化が起きる映像を用意したが、 実写映像と比べてさらにコントラストが高くなっており圧縮時のノイズが目立ちやすい。
また各セクションのタイトル部分にも非常に画面の広範囲での細かい動きを与えており、 圧縮時に映像の品質の劣化が目立ちやすい部分である。 特に「実写映像」のタイトルでは背景の動きが激しいうえに途中で細かいトランジッションを入れているので、 映像全体を通じても最も画面の変化が激しく劣化が目立つ部分となっているので、 注目して頂きたい。
また本映像は評価目的で作られたものであり、著作権上問題のない映像と音声のみを利用しているが、 個人的な評価以外の目的で利用されることはご遠慮願いたい。
本映像は解像度を320x240、30fpsとした。 これは今回変換する帯域を64Kbps〜2Mbps程度と設定したためである。 作成にはWindows98が稼働するPentium III 500MHz (Katmai)のマシンを利用し、 Adobe Premiere5.1c、Photoshop4LE、Flash4、DVXPLODE、Cool3Dなどを用いた。 映像は全4094フレームからなり、2分16秒と14フレーム分の長さである。 これをいったん無圧縮のAVI形式ファイルとして出力し、 TMPGencというフリーのソフトを用いてMPEG-1、MPEG-2、MPGE-4形式に変換した。 RealVideo形式へはRealProducerPlus G2を用いて変換した。
映像の帯域はKpbs単位で64、128、256、512、960、2000と変化させて生成した。 RealVideoに関しては音声と映像を合計した帯域の上限が1024Kbpsであるため、 最高品質として映像960Kbps、音声64Kbpsと設定し、 できるだけ正当な比較のため他の形式でも映像の帯域は960Kbpsに合わせることとした。 またMPEG-1、MPGE-2の場合、 64kbpsと128Kbpsでエンコードした際にはファイルサイズが帯域に相当したサイズと比べて大幅に大きくなってしまった。 これはエンコードしたソフトの問題かもしれないが、 そもそもこの様な低帯域での利用を基本的には前提としていない方式であるため仕方のない面もある。 そこで今回はMPEG-1、MPEG-2については256Kbps以上の帯域についてのみの評価を行うこととした。 MPEG-1、MPEG-2ともにGOPの構造はIBBPBBPBBPBBPBBPBBとなっている。 ただし、残念ながらMPEG-2を再生できる環境はそれほど一般的ではない。 フリーなツールもなく、本報告ではNEC製のMPEG2STUDIOに含まれるソフトウェアCODECでの再生を確認している。 今回エンコードした映像の圧縮形式、拡張子、 そしてそれらを再生するために必要なクライアントの条件などを表1にまとめた。
表1: 映像圧縮形式、音声圧縮形式、拡張子および再生ソフト
映像形式 |
音声形式 |
拡張子 |
再生ソフト |
---|---|---|---|
MPEG-1 |
Layer2 |
mpg |
Windows Media Player、 QuickTime Player、 RealPlayer他 |
MPEG-2 |
Layer2 |
m2p |
商用MPEG-2再生ソフトが必要 |
MPEG-4 |
Layer3 |
avi |
Windows Media Player |
RealVideo |
RealAudio |
rm |
RealPlayer他 |
また注意しなければならないのは低帯域を得意とするRealVideoとMicrosoft Windows TechnologiesのMPEG-4で、 これらの形式では特に低帯域でエンコードした場合にはフレームレートを勝手に下げてしまう。 もちろん低帯域でフレームレートを維持しようとすればフレーム毎の画質が大幅に劣化してしまうので、 それよりはむしろなめらかさを犠牲にしても画質を確保すべきであるという経験的な判断からこの様な振る舞いをすることと思われる。 それ自体は納得ができるが、 今回のようにMPEG-1やMPEG-2等のようにフレームレートを忠実に維持する方式と比較する場合には、 公平な比較ができなくなってしまうという問題が生じる。 ただしMPEG-1、MPEG-2に関しても256Kbps未満の帯域に関しては今回は評価していないので、 低帯域の部分についてはRealVideoとMPEG-4を比較することとした。 それでもできる限りフレームレートを高く維持するために、 RealVideoとMPEG-4については映像の鮮明さよりもフレームレートを最優先するような圧縮の設定も行い、 通常に設定した場合とも合わせて比較検討することとした。
音声の圧縮形式についてはそれぞれの形式が微妙に異なる帯域でエンコードをするため、 完全に同一の帯域での比較はできないものの、 比較的近い値となるように設定した。 音声は基本的にすべてステレオである。 また映像帯域とある程度連動して変動させるようにした。 MPEG-1、MPEG-2はMPEG-1 Audio Layer2形式でエンコードしたが、設定可能な最低帯域は64Kbpsであった。 MPEG-4はMPEG-1 Audio Layer3形式でエンコードしたが、こちらは逆に設定可能な最高帯域が56Kbpsであった。 MPEG-1、MPEG-2でもLayer3形式でのエンコードに問題はなかったが、 それを正しく再生できるクライアントが実は非常に限られていることが知られており、 実用的でないと判断して今回は用いなかった。 RealVideoの音声形式であるRealAudioでは8Kbps〜96Kbpsの範囲でのエンコードが可能だが、 ステレオの場合は20Kbpsが下限であったため映像帯域を64Kbpsにした場合についてのみ音声は16Kbpsモノラルとした。
以上の様な制約条件を了解した上で、 表2中に様々な圧縮形式と帯域を持つ実際の映像データへのリンクを用意したので、 クリックしてクライアントを起動し見て頂きたい。 そしてどのような種類の映像が、どの圧縮形式を用いたときに、 どの程度の品質で再現されるのかを比較・評価して頂きたい。 当然のことながら、比較的動きの少ない映像は低帯域でも比較的鮮明であるが、 動きの激しい場面ではかなりの帯域を確保しなければ品質の劣化は目に見えて起きてしまう。 表中での数値は音声の帯域を表しており、単位はKbpsである。 またMPEG-4とRealVideoの形式では2通りのエンコード結果を用意した。 印のついていない列は通常の既定値のままのエンコード、 *印のついている方はフレームレートの低下を最小限に押さえるために動きを最優先してエンコードしたデータである。 特に低帯域でのフレームレートの違いが大きくなっている。
表2: 映像・音声圧縮形式の帯域別比較
映像帯域 |
MPEG-1 |
MPEG-2 |
MPEG-4 |
MPEG-4* |
RealVideo |
RealVideo* |
---|---|---|---|---|---|---|
2Mbps |
96 |
96 |
56 |
56 |
N/A |
N/A |
960Kbps |
64 |
64 |
56 |
56 |
64 |
64 |
512Kbps |
64 |
64 |
40 |
40 |
44 |
44 |
256Kbps |
64 |
64 |
32 |
32 |
32 |
32 |
128Kbps |
N/A |
N/A |
24 |
24 |
20 |
20 |
64Kbps |
N/A |
N/A |
18 |
18 |
16(mono) |
16(mono) |
それぞれの形式における映像を評価した上で、 映像自体以外の側面についてそれぞれの形式の長所・短所を比較してみたい。
フレームレートを固定できないRealVideoとMPEG-4形式では、 結局どうしても128Kbps以下では大幅なフレームレート低下は避けられなかった。 RealVideoの場合は128Kbpsで平均17fps、64Kbpsでは7fps程度となってしまった。 それでもフレームレートを優先せずに普通にエンコードする場合よりも幾分はましになる。 今回の30fpsというレートはこれらの低帯域ではほとんど非現実的に厳しい水準なので、 実用上は問題のない範囲での低下であると考える。
フレーム間の圧縮を行う方法では、 いったんエンコードしてしまったデータを編集することは困難でる。 現状ではRealVideo形式の編集は不可能で、 MPEG-1、MPEG-2も非常に限られたアプリケーションのみが対応している。 保存用の形式として割りきって使うしかない。
RealVideoでは高帯域の上限が1Mbpsであり、MPEG-1、MPEG-2では256Kbps程度が下限である。 様々な状況を想定して低帯域から高帯域までを最も良くカバーできる形式は、 現状ではWindows Media TechnologiesのMPEG-4形式である。
まず準備する映像の編集にはWindows、MacOS、 あるいはずっと高価なUNIXシステムが必要となる。 編集のためのツールも様々な機能・価格の製品があるので自分にあったものを選ぶ必要がある。 今回はAdobe Premiereを用いたが、 一般的には多機能なツールが必ずしも使いやすいとは限らず、 もっと安価なツールで割りきった機能のもので十分な場合も多いはずである。 エンコードのためには多くの場合フリーなツールが利用可能であるが、 RealVideoで高帯域な映像に変換する場合には3万円程度が必要である。
エンコーダと配信のためのサーバを構築するために必要なソフトウェアを考えれば、 PC/AT互換機の上でLinuxなどの無料のOSを動かし、 RealVideoのための評価用の無料のエンコーダとサーバを利用すれば投資額ゼロから映像配信ができる。 Windows環境でも最初からそれほどの金額を投じる必要はないが、 まずはOSにお金を払わねばならない。
今回はWindows環境で全てのエンコードを行った。 MPEG-1、MPEG-2のエンコードには高品質なフリーソフトであるTMPGencを利用した。 エンコード後の映像の品質には定評があるが、 エンコード時間は元となる映像ソースの5倍程度かかった。 同じ環境でRealVideoへのエンコードは2倍程度、 MPEG-4へのエンコードは実時間の1.5倍程度であった。 MPEG-1、MPGE-2へのより高速なエンコードツールも存在するが、 品質などを総合的に見ればTMPGencはすばらしい選択肢である。
総合的に判断してネットワークを介した映像配信に現段階で最も適しているのは、 RealVideoによる方式であると考える。 高帯域の上限が現状は1Mbpsである点、 その場合にクライアントでの再生時に比較的多くのCPU資源を必要とする点などが欠点である。 しかし一方で低中帯域での実績ある配信、 非常に多くのプラットフォーム上でクライアントが無料で利用できる点は大きなメリットである。 今後は帯域の上限の引き上げや、 MPEG-4に準拠するようなより先進的な圧縮技術の導入などが期待される。
広範囲の帯域をカバーする意味ではMPEG-4技術を採用したWindows Media Technologiesは、 現段階で非常に優れている。 大きな問題点はクライアント環境がまだ現段階では制限されることである。 理想としては今後各社がMPEG-4に準拠する方式を開発し、 相互運用性が高まってオープンなMPEG-4再生環境が構築されることである。
映像配信の仕組みは着々と整いつつある。 器の準備はできたので、残るは中身である。 つまり多くのユーザが見たがるような魅力的なコンテンツの準備が急務である。 また一般的なユーザが映像コンテンツを容易に作成できる環境の整備、 そしてそれを大学での研究・教育にどう生かすかを考えていかなければならない。
最後になりましたが評価用映像への出演を快諾して下さった、 総合情報処理センター長の豊木博泰教授に感謝します。