Vol.1
RICOH THETA 開発者インタビュー
360°空間音声
開発者に聞く。

株式会社リコー
松浦篤（左）／大熊崇文（右）

「高解像度な4K動画を、より没入感の高い映像体験にする、
それが空間音声です」

はじめに、「360°空間音声」という言葉の意味を教えてください。

株式会社リコー産業プロダクツ事業本部
先行技術開発室大熊崇文

大熊「空間音声」は、最近使われるようになった言葉ですね。簡単にいうと三次元で音を録音して、それを再生する仕組みです。「立体音響」という言葉で表現することもあります。従来の左右の方向に加えて、上下、奥行きも含めて集音。聴く人を中心として、文字通り360°のあらゆる方向をカバーした音声を楽しむことができます。

もとになっているのは、1970年代にヨーロッパで開発されたAmbisonics（アンビソニックス）という立体音響の技術です。ただし、Ambisonicsは大きな機材を要し、セッティングにも時間がかかります。当時の技術的にも、映像と組み合わせて手軽に用いられるものではなかった。でも、いまはHM（ヘッドマウントディスプレイ）で頭の位置と合わせて、VR（バーチャルリアリティ）をはじめとする映像の回転ができるようになりました。そこに加えて音声も回転させれば、より没入感の高い映像体験が可能になるのです。

なぜ、360°空間音声をTHETAの新モデルに搭載することにしたのでしょう。

大熊もともと2013年のTHETA初号機、動画対応した第2世代のm15、THETA S開発時にも、360°空間音声の採用は検討していました。しかし、当時は全天球の超広角では動画の解像度がそこまで高くなく、画（え）と音のバランスがとれていませんでした。そのため、搭載のタイミングを探るような状態が続いていました。

松浦今回、カメラの内部でさまざまなプログラム処理を行うメインプロセッサーに、スマートフォンでも使われている高性能なメインプロセッサーを搭載したことで、AmbisonicsをTHETA本体で処理することができるようになりました。従来機のTHETA SやSCでは、Ambisonicsを処理できるほどのパワーがなかったんです。

Ambisonics自体は、すでにお伝えした通り古い技術ですが、360度VR映像の普及とそれを再生するスマートフォンのマシンパワーの向上と、ちょうどAmbisonicsが活かせる環境が整った、という感じでしょうか。

大熊そして、今回のTHETAでは、4K動画が撮れるようになりました。高解像度な映像に対して音がチープだと、せっかくの臨場感が損なわれてしまいます。そこで私たち開発チームは、音声のグレードアップを図ることにしました。

先程もお伝えしたAmbisonics（アンビソニックス）方式によるマイク自体は他社からも発売されています。ですが、音を録るだけでも専門の高価なレコーダーが必要で、録音後に映像と組み合わせ、さらに音の方向を合わせるといった技術セッティングは一般のユーザーの方には非常にハードルが高いものです。

松浦機材だけでなく、専用のソフトウェアも必要になります。機材にもソフトにも、お金がかかってしまうのです。仮にそれらを入手できてハード面で環境が整ったとしても、それらを駆使して作品に仕上げるには相応のスキルが必要になる。映像制作を職業にしているような人には可能でも、一般の方にはとてもハードルが高いと思います。

大熊今回は、本体だけで360°空間音声を実現します。煩わしい手間もなく、ワンタッチで映像の正面と音の正面を自動で合わせる仕組みが備わっているので、360°映像にリンクして空間的に音声を集音、再生できます。360°空間音声の入門機として、VR映像の入門機となった歴代THETA 同様、VRの裾野を広げられるのではないかと思っています。

「特長である薄型デザインと、マイクロフォンの周波数特性・指向性のバランスを特に考えました」

360°空間音声を搭載する上で、苦労した点は。

大熊THETAの新モデルには、4つのマイクロフォンが内蔵されています。最も苦労したのは、このマイクの配置です。マイクは、位置の関係によって、信号処理により方向性を保持できる音の周波数特性が変わります。たとえば人の声の周波数はこのくらい、楽器の周波数はこのくらいという数値の幅があります。もちろん広い周波数に対応しているほうが、音として臨場感につながりやすくなります。

ここで問題となるのが、デザインです。THETAは他社製品よりも薄型であることが特長であり、いかにマイクの性能を保持しつつ美しく本体に配置するか、中身の配線含めて、バランスが課題でした。そこで今回は、4つの内蔵マイクを上下左右で対称にして、周波数特性や録音される音の品質にかかわる指向性をできるだけ保つように工夫しています。

株式会社リコー Smart Vision事業本部
製品開発センターデバイス開発部松浦篤

松浦MP4という動画の入れ物にどうやって空間音声を記録するかについては、かなり検討しました。問題が発生しては仕様変更を繰り返して、「いったいいつ再生できるんだ」と。

あと、動画と音声とを一緒に処理して動かしていくので、当然ですが音と映像がズレたら困る。その検証はかなり行いました。ただし、Ambisonics自体は昔からある技術で安定しているので、そのあたりの検証はしやすかったですね。

そういえば、プロトタイプ（試作品）で、仮に受け取ったパラメータ（同じ音がどれくらいの時間差や減衰を経てそれぞれのマイクに到達するのか仮の設計をした数値）を実機に組み込んだんです。それで、動画撮影して音を聞いたとき、「特定の方向の音だけ強くておかしい。これは実装ミスじゃないの？」と、しばらく言われた覚えがあります。パラメータの問題だと言っても受け入れてもらえず…（笑）。

大熊そういえば、ありましたね（笑）。初めに作った試作品は、3Dプリンタ製で中身が空でした。筐体（きょうたい）内で反響などがあったので、実際に中身が詰まったものとはパラメータは別物だったと思います。あの時は失礼しました（笑）。

どんなシーンで撮影すると、360°空間音声が効果的に録れるのでしょうか。

大熊いま、私自身がフィールドテストをしながら、確認しているところです。音が四方八方から響き渡る渋谷のスクランブル交差点や、蝉の鳴き声があらゆる方向から降り注ぐ森の中など。中でもテンションが上がったのは、羽田空港のすぐ近くにある公園です。飛行機が轟音で、自分の頭上すれすれの感覚で離着陸するという。音は当然として、誰かに見せたくなるおもしろい画が撮れました。

それから私は趣味でサックスをやっていまして、自分の演奏を撮ったりしています。やはり過去機と比較すると音は全然違います。自分が実際に耳で聞いている音に近いかたちで録音されていると思います。音楽のライブ録音では強みを発揮するでしょう。

これも私の趣味なのですが、テニスをするときにネット中心近くに置いて録ると、見たことのない画と音の臨場感を感じられます。気を付けないと、ボールがTHETAに当たってしまったりしましたが（笑）。さまざまな場所において、撮れる映像を切り替えたりするのもいいと思います。

夏のお祭りなどの太鼓や笛の音などもよかったです。テーマパーク、観光地の雰囲気も、あまさずに撮れるのでないかと。思い出の質も変わるような気がしますね。感度が高いので、撮影した人が意識していない音もいろいろ拾ってくれるので、後で聞くのも楽しいです。

「特長である薄型デザインと、マイクロフォンの周波数特性・指向性のバランスを特に考えました」

松浦大熊さんとはシーン的にだいぶ違いますが、閉じた空間なんかだと効果がわかりやすいと思います。画的なおもしろさとは別の話ですが、静かな室内で人が話しているシーンや、大きな音がない場所などで、空間音声の効果がわかりやすいかと思います。「出所が明確な音」があるシーンがいい。友人宅などでの飲み会を撮るとか。

プライベートでも山歩きの間に撮影してみたのですが、山は空間音声に向きません（笑）。4K映像はとても効果があるのですが、自然の音は四方から鳴っているし、それ以外に音はないし。自然に包まれた状態では、方向なんて関係なかったです。もしかしたら滝などでは効果を発揮するかもしれないので、今度撮りに行こうかと。

「耳を包み込むタイプ（クローズ型）のヘッドホンとHMDを組み合わせることで、最も効果を感じていただけます」

360°空間音声の映像を、ネットなどで公開したり共有したりすることはできますか。

大熊360°空間音声コンテンツに対応しているYouTubeやFacebookで公開できるようにしていきたいと思っています。松浦さんの言うとおり、映像フォーマットの中にある空間音声の記録の仕方の違いという課題があるため、これから実現していきたいことの一つです。SNS側が対応いただけるとユーザーのみなさまにはさらに便利になるのですが（笑）。

360°空間音声は、どんな環境で聴くのが適しているのでしょう。普通のスピーカーでも効果は感じられる？

大熊空間音声は、主にヘッドホンに最適化された2ch（チャンネル）にミックスされています。いちばん推奨するのは、耳を包み込む形（クローズド）のヘッドホンです。360°空間音声は解像度が高いのが特徴なので、収録した音を素直に出力するモニターヘッドホンと呼ばれるものがよいと思います。逆に音作りに特徴がありすぎるヘッドホンですと、ヘッドホンの特徴に引っ張られてしまい実際の臨場感とは変わってしまいます。

松浦大熊さんの推奨環境はハードルが上がってしまうので（笑）、まずは普通のイヤホンでも実感していただけます。

大熊イヤホンはヘッドホン以上に音が小さく、周波数も絞られるので、耳の感度が高い人以外は個人的にはお奨めしませんが…。「より臨場感を感じたい」ということであれば、ぜひクローズド型のヘッドホンをどうぞ（笑）。

コンポなどのスピーカーで聴く場合は、聴く人と2chスピーカーの距離が一定でないと、空間音声のバランスが崩れてしまうんですね。人が動くと、スピーカとの位置関係が変わるので臨場感がどんどん失われてしまう。5.1chサラウンドの視聴位置があるのと同じです。HMD（ヘッドマウントディスプレイ）のように頭の回転と画と音が合わせられると、より臨場感は増します。

「音声の強化は、ユーザーのみなさまからの要望でもありました」

そもそも、ユーザーの方々から「音声を強化して欲しい」という声はあったのでしょうか。

大熊従来機では、状況により音声が歪むという課題があり、これを解消することは今回のテーマでもありました。ユーザーの方々からのフィードバックとしてよりよい音質を望む声が多く、是非お応えしたいと思っていました。

新モデルでは、マイクの素子単体の性能も大幅にグレードアップしています。具体的には、これまでのアナログマイクから、電子的に微細につくられるMEMS（メムス）マイクロフォンに切り替えました。近年のスマートフォンにも採用されていて、小さくても人の声がよく録れるようになっています。逆に言えば、薄型デザインで4つのマイクを内蔵する今回のTHETAには、MEMSマイクロフォンこそが現状の最適解の一つなのです。

MEMS（メムス）マイクロフォンの特長は、品質のばらつきが少ないことです。通常のマイクですと、4つ搭載するとマイク間の特性がそれなりにばらついてしまいますので空間音声の性能を保つのが難しくなります。特性がばらつかないということは、それだけ空間音声を正確に記録できるということです。

それと、大音量の音が入力されても歪んだりすることなく録れるようになっています。録音モードは2つ用意しています。大きな音が入ってもできるだけ歪まないように音の音量ゲインを抑えるモードと、通常のある程度の範囲内であれば音が歪まないモードです。特に、いままで実現が難しかったLIVEシーンなどで選択していただくことで効果を発揮するはずです。

松浦これは完全にユーザー視点でのコメントなのですが。僕自身も、普段THETAを使っている際、たまに大きな音が発せられると音が割れてしまうことが気になっていて。「音なしで動画が撮れるようなモードが欲しい」と思っていました。大勢の友人と集まって撮ると、会話が“ワイワイ”というより“バリバリ”って音のイメージで（笑）。

大熊これまでのカメラの多くは、人が聞きやすくするためにゲインをある一定の範囲にオートで収めてしまう手法（オートゲインコントロール）がとられていました。これはある一定方向を取りたい場合はよいのですが実際の音とは違うので臨場感が失われます。オーケストラや楽器の演奏、ヴォーカルなどでは抑揚でも表現するので音楽には不向きでした。

空間音声でも距離の差、方向の差による音声の抑揚は重要なのです。THETA Sでも、動画初搭載のTHETA m15に比べてゲインはよくなる方向で調整していましたが、マイク性能や取り込みコーデック（音声取り込み部のハードウェア）の性能限界がありました。

松浦そうですね。オートゲインコントロールが入ってないことにより、よりリアリティのある音声になっていると思います。今回の新モデルのようなカメラは、まだ世の中にあまりないので、我々も参考にできるようなものがなく、「どこを目指すのがいいのか」を試行錯誤しました。

これから普及させるという段階で、まずは世の中にある普通のプレイヤーで、THETA SやSC以上の音と映像が再生できること。そして、リコー独自のプレイヤー（アプリ）の場合は、空間音声が再生できるようにすること。そこを踏まえて動画のフォーマットを考えて作り上げたのが今回のTHETA、そして空間音声です。いろいろなシーンや使い方で、臨場感あふれる映像と音を試してみていただきたいですね。

大熊そうですね。まずは購入いただいて（笑）、まったく新しい体験をしていただきたいです！