【特集】VR元年到来!めくるめく“VR音響”の世界

“VR音響”にフォーカスしたサウンド&レコーディング・マガジン2016年11月号の特集「めくるめくVR音響の世界」。ここでは、自らアーティストとしてバイノーラル・プロセッサー「chi.binaural」の開発を手掛けるKatsuhiro Chibaによるイントロダクション原稿「時代は立体音響から“VR音響”へ」の一部を特別に掲載します。

【Katsuhiro Chibaプロフィール】 00_katsuhiro-chiba-3 電子音楽家。2003 年にサンプル・ループを主体としたラップトップ・インプロビゼーションのためのソフトウェア「cyan/n」を制作。楽曲制作/ライブに用いるソフトから徹底して手掛けることで独自のサウンドを追求する。近年は「音のVR」に取り組んでおり、独自のバイノーラル・プロセッサー「chi.binaural」を開発。音楽での利用を前提としたその品質とサウンド・デザインにより、高い評価を得ている。

Introduction 時代は立体音響から“VR音響”へ

19世紀後半、初期の2chオーディオのアイディアは演奏会の臨場感をそのまま伝送しようとするもので、ステレオ方式というよりバイノーラル立体音響だったそうです。オーディオにおける臨場感=まるで自分がその場にいるかのような感覚は、いつの時代も私たちを魅了します。まさにこの臨場感を追求して考案され、進化してきたのが“立体音響”と言えるでしょう。

人々を魅了し続けてきた立体音響

複数の音声チャンネルとスピーカーを利用する立体音響は“マルチチャンネル音響”と呼ばれます。一般的には“サラウンド”という呼称の方が浸透していますね。映画の世界では1940年ごろから既にサラウンド音響が導入されていた例があり、1970年代にはアナログ・レコードでも“クアドラフォニック”と呼ばれる4ch方式が存在しました。現代の映画館やホーム・シアターでは、5.1/7.1chといった多チャンネルを使用したサラウンド音響が欠かせないものとなっています。そのチャンネル数も拡大傾向にあり、次世代ハイビジョン規格である“スーパーハイビジョン”では、何と22.2ch音響が盛り込まれています。サラウンド音響での音像定位は、ちょうどスピーカーがある方向以外は複数のスピーカーの音量バランスによる音像定位となりますから、チャンネル数が多いほど分解能が高い→シャープな音像定位が可能になるというメリットがあります。

一方、スピーカーではなくヘッドフォンやイヤホンを利用する立体音響は“バイノーラル立体音響”です。フォーマットとしてはステレオ方式と同じ2chですが、人間や人間の頭部模型(ダミー・ヘッド)の耳にマイクを装着し、耳で聴くそのままの音を録音するのが特徴です。この録音方法自体を指して“バイノーラル録音”とも呼ばれます。バイノーラル録音で収録された音には、頭部周辺で生じる複雑な反射/回折による音響特性がそのまま記録され、ヘッドフォンやイヤホンで聴くことで3次元の音像定位が再現されます。1980年代にはこれに類似した方式で、“ホロフォニクス”と呼ばれる謎めいた技術が話題となったこともありました。

近年バイノーラル録音の注目度も上がっており、よく目にするようになったダミーヘッド。NEUMANN KU 100は現行の製品で、両耳にコンデンサー・マイクを備え、48Vファンタム電源/内蔵電池で動作する ▲近年バイノーラル録音の注目度も上がっており、よく目にするようになったダミーヘッド。NEUMANN KU 100は現行の製品で、両耳にコンデンサー・マイクを備え、48Vファンタム電源/内蔵電池で動作する

DSPやコンピューターによる音声処理が普及してくると、バイノーラル立体音響をシミュレートし、通常録音された音源に3次元音像定位を適用することも可能になりました。これを“バイノーラル・プロセッシング”と呼びます。本誌の読者になじみ深い楽器メーカーでは、ROLANDが1990年代にRSS(Roland Sound Space)と呼ばれる立体音響処理技術を製品化しました。RSS-10はこの技術を使用した最初の製品で*、3次元音像定位にとどまらず、残響を含めた統合的な3次元空間演出が可能でした。この技術はその後も同社のエフェクターなどに応用されていきました。

※9/24追記:ROLAND RSS-10以前にもRSS-8048(コア・プロセッサー)、ADA-8024(AD/DAコンバーター)とコントローラーSSC-8004が発売されていました。お詫びして訂正させていただきます。

バイノーラル・プロセッシングを応用した立体音響プロセッサーの先駆的存在=ROLAND RSS-10。バイノーラル系でありながら、2chスピーカー再生に対応していたのも特徴。フィジカル・コントローラーMCR-8によって音像をコントロールした ▲バイノーラル・プロセッシングを応用した立体音響プロセッサーの先駆的存在=ROLAND RSS-10。バイノーラル系でありながら、2chスピーカー再生に対応していたのも特徴。フィジカル・コントローラーMCR-8によって音像をコントロールした

こうして常に私たちの興味を引き続けてきた立体音響ですが、一般への普及は思ったほど進みませんでした。再生に多くのスピーカーの必要とするサラウンド音響は一般家庭(特に日本の)に設置するにはやや敷居が高く、バイノーラル立体音響は基本的にヘッドフォン専用になるという難点がありました。音楽の記録メディアはアナログ・レコードからCDを経てデジタル・データになりましたが、相変わらず2chステレオのままです。

ついにやってきた“VR元年”

そんな今、立体音響が大きく注目される新たな波がやってきています。VR(Virtual Reality)です。2016年は“VR元年”とも言われます。OCULUS Rift、HTC Vive、発売予定日が迫るSONY PlayStation VRなど新世代のVR環境が出そろいつつあり、ハコスコGoogle Cardboardなどスマートフォンを利用した手軽なVRも話題です。そこではHMD(ヘッド・マウント・ディスプレイ)による全方位立体映像とともに、ヘッドフォンによる全方位立体音響(以下、VR音響)が重要となっています。

OCULUS Riftは、広視野角とヘッド・トラッキングに対応するヘッドマウント・ディスプレイとトラッキング用の赤外線カメラ、リモコンなどで構成されるPCゲーム用のシステム。ヘッドフォンを内蔵しており、これ一台で映像とVR音響を楽しめる ▲OCULUS Riftは、広視野角とヘッド・トラッキングに対応するヘッドマウント・ディスプレイとトラッキング用の赤外線カメラ、リモコンなどで構成されるPCゲーム用のシステム。ヘッドフォンを内蔵しており、これ一台で映像とVR音響を楽しめる

VR音響に課される大きな要求は、“ヘッド・トラッキング”、つまり体験者の頭の動きに音像が追従することです。昔ながらのバイノーラル立体音響を聴いたことがある方は多いと思いますが、そこにヘッド・トラッキングが加わると別次元の体験となります。立体音響から“音の仮想現実”へと一気に変ぼうするのです。

ここからはVR音響の技術面に焦点を当てていきます。ちまたで“VR”とひとまとめに呼ばれているものは、実は2種類あります。一つは全方位映像に加え左右の視差による立体視が可能ないわゆるVR。もう一つは全方位映像ではあるが立体視ではない“360(動画)”です。

これと似た方式の違いがVR音響にもあります。“3Dオーディオ”と“360オーディオ”です。3Dオーディオは、オブジェクト・ベースのバイノーラル・プロセッシングで実現されます。“オブジェクト・ベース”とは、3次元の位置情報を持った音源(音の発生源)をオブジェクトとして個別に扱うという意味で、個々の音源に対してバイノーラル・プロセッシングによる3次元音像定位が与えられ、それらの総和として立体音響空間が合成されます。音源に近付けば音が大きくなり、高速で移動する音源にはドップラー効果がかかったりもします。文字通り“音の仮想現実”と言える方式であり、自由に歩き回れるようなインタラクティブなVRにも対応します。基本的にはゲーム・エンジンのAPI/オーディオ・プラグインなどになっており、VRアプリの内部で利用されます。

OCULUSが提供する3Dオーディオ・プラグインSpatializer。本来はUnreal Engine 4やUnitiyなどゲーム・エンジン用の3Dプラグインだが、ダウンロード・パッケージにはVST版も同梱されており、各種DAWで使用できる ▲OCULUSが提供する3Dオーディオ・プラグインSpatializer。本来はUnreal Engine 4やUnitiyなどゲーム・エンジン用の3Dプラグインだが、ダウンロード・パッケージにはVST版も同梱されており、各種DAWで使用できる

一方の360オーディオでは、アンビソニック(Ambisonics)という技術が使用されます。もともと全方位音響の収録/再現を目的としたサラウンド技術の一種で、“Bフォーマット”と呼ばれる形式のマルチチャンネル音声トラックに全方位の音響情報を記録し、再生時は音像を自由に回転して再現できます。本来は多数のスピーカーで再生するのですが、仮想サラウンドとしてヘッドフォン用にデコード(バイノーラル・デコード)することでVR音響に利用されます。特徴としてはライブ収録に適しており、例えばコンサート会場で全方位映像とともに全方位音響を収録し、VRで再現するといった用途に向いています。すなわち動画のような時間軸が固定されたコンテンツに向いているということでもあり、実際にYouTubeのVR/360動画用オーディオ・トラック(Spatial Audio)でも採用されています。360オーディオはDAWでの編集も容易で、そのためのツール群も登場しています。

▲ Spatial Audioを使ったYouTubeコンテンツ『New Orleans Jazz with Spatial Audio』。左上の十字キーをクリックすると視点の向きが変わり、それにつれて音が聴こえる方向も変化する

Facebookが無償で提供する360オーディオ・ツールFacebook 360 Spatial Workstation。AAXおよびVSTプラグインとして動作するFB360 Spatialiser(画面)とFB360 Controlで構成されており、AVID Pro Tools|HDXやSTEINBERG NuendoなどのDAW上で360オーディオを扱えるようになる ▲Facebookが無償で提供する360オーディオ・ツール Facebook 360 Spatial Workstation。AAXおよびVSTプラグインとして動作するFB360 Spatialiser(画面)とFB360 Controlで構成されており、AVID Pro Tools|HDXやSTEINBERG NuendoなどのDAW上で360オーディオを扱えるようになる

3Dオーディオと360オーディオの違いを現実世界で例えると、一つ一つの音に専用スピーカーを割り当て、リスナーもスピーカーも移動するのが3Dオーディオ(想像するとすごい)、リスナーの全方位を取り囲むように配置した固定のサラウンド・スピーカーを使うのが360オーディオと言えると思います。それぞれ利点があるので、用途に応じて使い分けられています。

VR音響でもう一つ紹介しておきたい注目の立体音響技術がDOLBY Atmosです。DOLBYというと映画館やホームシアター向けのサラウンド音響というイメージですが、従来のサラウンド規格にはなかった新しい概念が含まれています。チャンネル・ベース(各スピーカーに対応する音声チャンネル)のサラウンド音響に加えて、オブジェクト・ベースの音源移動が可能となっているのです。オブジェクト・ベースの概念については先ほども説明しました。つまり、VRとの親和性も有するサラウンド音響規格となっているわけです。実際DOLBYはVR音響にも力を入れているようで、今後DOLBY Atmosを使用したVRコンテンツも出てきそうな気配です。

DOLBY Atmosの“5.1.4”のスピーカー配置。従来の5.1chスピーカー(青)に加え、4基のスピーカー(赤)を天井に配置。従来のチャンネル・ベースに加え、オブジェクト・ベースで動く音がレイヤーされる ▲DOLBY Atmosの“5.1.4”のスピーカー配置。従来の5.1chスピーカー(青)に加え、4基のスピーカー(赤)を天井に配置。従来のチャンネル・ベースに加え、オブジェクト・ベースで動く音がレイヤーされる

このコンテンツの続きは……
【Part 1】 時代は立体音響から“VR 音響”へ 〜VRを音楽にどう取り入れるのか?
【Part 2】 VR音響に着目する各メーカー(WAVES/ヤマハ/カプコン)
【Part 3】 バイノーラルで実践! VR音響
【Part 4】 VR音響を得たアーティストはどこへ向かうのか?(ビョーク/evala/Katsuhiro Chiba/國本怜)

▼ 続きはサウンド&レコーディング・マガジン 2016年11月号で!