家庭用22.2マルチチャンネル音響 再生システム - nhk報告 要約...

10
報告 要約 8Kスーパーハイビジョン(8K Super Hi-Vision)の音響方式として,22.2マルチチャンネル 音響方式の開発を進めている。この方式は,空間的に配置された22チャンネルと,低音効果用の 2チャンネルから構成され,3次元的な空間音響を再生するものである。また,家庭でのさまざ まなスーパーハイビジョン視聴環境に対応するために,22.2マルチチャンネル音響をより少ない スピーカー数で再生する再生法の開発も進めている。本稿では,フラットパネルディスプレーに 一体化された12個のスピーカーによるバイノーラル再生法を提案する。この方法を用いれば,24 個のスピーカーを設置することなく,22.2マルチチャンネル音響を体験することができる。 ABSTRACT NHK has developed a 22.2 multichannel sound system for 8K Super Hi-Vision(8K),an ultra high-definition TV. The system consists of 24 spatially arranged audio channels including two low frequency effect channels for reproducing three-dimensional spatial sound. To respond to various viewing circumstances of SHV in homes,we have also developed several reproduction methods to reproduce 22.2 multichannel sound with fewer loudspeakers. In this paper , we propose binaural reproduction of 22.2 multichannel sound with 12 loudspeakers integrated into a flat panel display,which makes it possible for us to experience 22.2 multichannel sound without installing 24 discrete loudspeakers. 家庭用22.2マルチチャンネル音響 再生システム 松井健太郎 22.2 Multichannel Sound Reproduction System for Home Use Kentaro Matsui NHK技研 R&D/No.148/2014.11 45

Upload: others

Post on 30-Jan-2021

3 views

Category:

Documents


0 download

TRANSCRIPT

  • 報告

    要約 8Kスーパーハイビジョン(8K Super Hi-Vision)の音響方式として,22.2マルチチャンネル音響方式の開発を進めている。この方式は,空間的に配置された22チャンネルと,低音効果用の2チャンネルから構成され,3次元的な空間音響を再生するものである。また,家庭でのさまざまなスーパーハイビジョン視聴環境に対応するために,22.2マルチチャンネル音響をより少ないスピーカー数で再生する再生法の開発も進めている。本稿では,フラットパネルディスプレーに一体化された12個のスピーカーによるバイノーラル再生法を提案する。この方法を用いれば,24個のスピーカーを設置することなく,22.2マルチチャンネル音響を体験することができる。

    ABSTRACT NHK has developed a 22.2 multichannel sound system for 8K Super Hi-Vision(8K),an ultrahigh-definition TV. The system consists of 24 spatially arranged audio channels including two lowfrequency effect channels for reproducing three-dimensional spatial sound. To respond to variousviewing circumstances of SHV in homes,we have also developed several reproduction methodsto reproduce 22.2 multichannel sound with fewer loudspeakers. In this paper,we proposebinaural reproduction of 22.2 multichannel sound with 12 loudspeakers integrated into a flat paneldisplay,which makes it possible for us to experience 22.2 multichannel sound without installing24 discrete loudspeakers.

    家庭用22.2マルチチャンネル音響再生システム

    松井健太郎

    22.2 Multichannel Sound Reproduction System forHome Use

    Kentaro Matsui

    NHK技研 R&D/No.148/2014.11 45

  • クロストーク

    1.はじめに8Kスーパーハイビジョン(以下,8Kと略称)の音響方式として,22.2マルチチャンネル音響(以下,22.2ch音響)方式の研究を進めている。22.2ch音響方式は,視聴者を取り囲むように配置された22チャンネルと,低音効果(LFE:Low Frequency Effects)用の2チャンネルから構成され,その場にいるかのような高い臨場感と3次元的な音響空間構築を実現することができる1)。8K放送の実用化に向けて,22.2ch音響方式の国際標準化が進められている。一方,ライフスタイルの多様化に伴ってテレビの視聴スタイルも変化する中で2),多くの場合,各家庭で24個のスピーカーを配置することは困難と考えられる。従って,22.2ch音響を,より少ないスピーカー数で,より簡易に聴取することができる再生法を選択肢として提案することは,重要な研究課題の1つである。この課題を解決する技術として,人間の聴覚特性を利用し,音像*1を任意の位置に定位して知覚させる「バイノーラル再生法」は有力な技術の1つである。この技術を用いれば,スピーカーを置けない方向のチャンネルを音像として合成することにより,少ないスピーカー数で22.2ch音響を再生することができる。本稿ではまず,このバイノーラル再生法を概説するとともに,人間の音像定位知覚に関する特徴量を含み,バイノーラル再生法の基礎となる頭部伝達関数(HRTF:Head-Related Transfer Function)の推定法について報告する。次に,当所が提案する,枠型スピーカーによる22.2ch音響のバイノーラル再生法について報告する。

    2.バイノーラル再生法2.1 ヘッドホンによるバイノーラル再生法HRTFは,自由音場*2において,「頭がない状態での頭部中心に相当する位置から頭外音源位置を経て両耳鼓膜位置もしくは外耳道入口までの音響伝達関数」として定義される。または,近似的に「頭外音源位置から両耳鼓膜位置もしくは外耳道入口までの音響伝達関数」として定義される。このHRTFには,両耳間時間差やレベル差,周波数特性上のスペクトラルキュー*3など,音像の定位知覚に関係のある多くの特徴量が含まれている。そのため,HRTFを測定し,音源信号に作用させることにより,すなわちHRTFの時間領域表現である頭部インパルス応答(HRIR:Head-Related Impulse Response)を音源信号に畳み込むことにより,任意の方向に音像を定位知覚させることができる。このようにして生成される信号をバイノーラル信号,バイノーラル信号をヘッドホンにより提示

    する再生法をバイノーラル再生法と言う。2.2 スピーカーによるバイノーラル再生法両耳に直接信号を提示することができるヘッドホン受聴では,左右の耳のHRIRを畳み込んだ音源信号(以下,所望信号)を,直接左右のドライバーユニットから再生すればよい(1図)。しかし,スピーカー受聴の場合には,スピーカーから同じ側の耳(同側耳)への信号の伝搬に加え,反対側の耳(対側耳)への音の漏洩(クロストーク)が発生する(2図)。従って,このクロストークを抑圧し,所望信号のみをそれぞれの耳に伝送するための補償処理が必要となる。この補償処理を,クロストーク・キャンセレーションと言う。3図に,2個のスピーカーによるバイノーラル再生のブロック図を示す。3図において,Gはそれぞれのスピーカーから左右の耳までの音響伝達関数,Xは左右の耳に提示する所望方向のHRTF,Hはクロストーク・キャンセレーションのための制御器を表す。入力信号 uから出力信号 yまでは,次式のような関係で表される。

    *1 到来音の方向と距離を知覚することによって得られる到来音の形象。*2 等方性かつ均質の媒質中で,境界の影響を無視できる音場。*3 音像の定位知覚に寄与すると考えられている周波数振幅特性上のピー

    クやノッチ。

    1図 ヘッドホンによるバイノーラル再生

    2図 クロストーク

    報告

    NHK技研 R&D/No.148/2014.1146

  • lx

    rx

    rlh

    llh

    rrh

    lrh

    llg

    rrg

    rlg

    lrg

    ry

    ly

    u

    X H G y

    (1)

    ただし,

    (2)

    制御器 Hは,聴取者の耳の位置において所望信号,すなわち入力信号に所望方向のHRTFを作用させた信号が合成されるように設計される。その結果,入力信号と出力信号の関係は,

    (3)

    となる。従って,制御器 Hは Gの逆システムとして設計される。すなわち

    (4)

    なお,制御対象となる聴取者の耳の位置を制御点と言う。この制御器の設計に関しては,さまざまなアプローチが検討されている。当所でも,畳み込み演算に基づく時間領域での処理3),特異値分解法による周波数領域での処理4)

    を検討してきた。現在は,計算時間,占有する作業領域などの計算負荷を考慮し,周波数領域での処理を採用してい

    る。この場合,制御器は,離散周波数ビン*4ごとに逆行列を計算し,逆フーリエ変換により時間領域に戻すことによって,FIR(Finite Impulse Response)フィルターとして求められる。ここまで2個のスピーカーを用いたバイノーラル再生法について概説したが,これは3個以上の複数スピーカーを用いた方法に容易に拡張できる。スピーカーの数を増やすと,その数に比例して制御点の数も増やすことができるため,複数スピーカーによる制御は,聴取範囲を広げる有力な手段である。このとき(2)式は,次のようになる。

    (5)

    ここで,pは制御点の数を,qはスピーカーの数を表す。

    *4 離散値の周波数領域成分。

    3図 2個のスピーカーによるバイノーラル再生

    NHK技研 R&D/No.148/2014.11 47

  • 3.HRTFの多方向同時推定4章で述べるように,当所では枠型スピーカーを用いた複数スピーカーによるバイノーラル再生法の研究を進めている。スピーカーの数が増えるとHRTFの測定が煩雑となり,長時間を要するようになる。そこで,システム同定理論*5に基づくHRTFの多方向同時推定法を開発した。各方向のHRIRは有限長 n次のFIRモデルで近似できると仮定する。また,m方向のHRIRの集合を,入力を m方向の測定信号,出力を片耳の外耳道入口で収音される信号としたMISO(Multiple Input Single Output)システムと見なす。一般に, m入力1出力の n次FIRモデルは

    (6)

    と表される。ここで y(k)は離散時間の時刻kにおける出力,w(k)は正規性雑音を表す。また,xi(k)は i番目の方向の入力 ui(k)から構成される入力ベクトル,θiは i番目の方向のFIRモデルのパラメーターベクトルを表し,それぞれ次式で与えられる。

    (7)

    更に,(6)式を時刻 k=1, 2, … Nまで並べると

    (8)

    と書き表すことができる。ここで Xiは各時刻における入力ベクトルxi(k)を並べた行列であり,次式で与えられる。

    (9)

    簡単化のために,

    (10)

    とおくと,(8)式は

    (11)

    と書き表すことができる。この入出力関係を満たすパラメーター θを,最小二乗法により推定する。詳細な導出法は文献5)に譲るが,1段先予測*6に基づく評価規範

    (12)

    を最小化するパラメーター が最小二乗推定値であり,

    (13)

    で与えられる。ここで,

    (14)

    と置いた。なお,(12)式の ・ は2ノルム(ユークリッドノルム)を表す。従って,HRTFの多方向同時推定では,まず,推定する m方向から測定信号を同時に印加し,左右の耳の外耳道入口で応答を収音する。次に,左右の耳それぞれの応答について(13)式を計算することにより,各方向のFIRモデルのパラメーターの推定値を求める。(13)式が解を持つためには,Rが正定値行列*7である必要がある。この条件を満たす測定信号は,以下の手順により作成することができる6)。1)周期 TのM系列*8から信号 m(k)を作成し,これを1番目の方向の入力

    *5 対象をブラックボックスと見なし,その入出力データから統計的な手法により対象のパラメーターを算出する理論。

    *6 離散時間線形時不変システムにおいて,1ステップ前の時刻までに測定された入出力データに基づいた出力の予測。

    *7 その固有値がすべて正となるエルミート行列。*8 2値擬似ランダム系列の一種。

    報告

    NHK技研 R&D/No.148/2014.1148

  • スピーカーユニット

    (15)

    とする。ここで,周期 Tは次式を満たす。

    (16)

    2)1番目の方向の入力 u1(k)を時間軸上で lサンプルだけ負の方向に巡回シフトしたものを2番目の方向の入力

    (17)

    とする。

    3)以下同様に,i番目の方向の入力 ui(k)は,i-1番目の方向の入力 ui-1(k)を時間軸上で lサンプルだけ負の方向に巡回シフトしたものとする。

    (18)

    4.枠型スピーカーによる22.2ch音響のバイノーラル再生

    4.1 フラットパネルディスプレー一体型の枠型スピーカー

    一般的なリビングルームでの8Kの視聴を考えると,スピーカーの数に対する制限に加え,部屋の広さや家具などにより,その設置場所も制限されることが予想される2)。そこで当所では,フラットパネルディスプレー(FPD:Flat Panel Display)一体型の枠型スピーカーの研究を進めている。85型液晶ディスプレーのために開発した枠型12スピーカーを4図に示す。4図から分かるように,枠の上辺と下辺には各5個のスピーカーユニットが等間隔で配置され,左右の側辺にはその中間位置に各1個のスピーカーユニットが配置されている。この配置は,22.2ch音響方式の前方チャンネルに対応している。枠上の各ユニットは,相互の干渉と混変調を防ぐために,独立したキャビティー(空気室)に収められている。それぞれのユニットは高い耐入力と低いひずみ特性を有しており,振動板の直径は7cmと小型であるにもかかわらず,最大音圧レベルは92dBとなっている。更に,5図に示すように,NHKの標準モニター用の技術であるエッジ構造を小型化して導入し,大

    6図 HRTFの測定

    4図 枠型12スピーカー

    5図 高調波ひずみを低減するエッジ構造

    NHK技研 R&D/No.148/2014.11 49

  • leftright

    leftright0.8

    1

    0.6

    0.4

    0.2

    0

    -0.2

    -0.4

    -0.6

    -0.8

    -150045040035030025020015010050

    サンプル

    振幅

    (b)右耳

    0.8

    0.6

    0.4

    0.2

    -0.2

    -0.4

    -0.6

    -0.8

    -150045040035030025020015010050

    サンプル

    1

    0振幅

    (a)左耳

    leftright

    leftright

    20

    0

    -20

    -40

    -60 1,000 10,000周波数(Hz)

    (b)右耳

    20

    0

    -20

    -40

    -60 1,000 10,000周波数(Hz)

    (a)左耳

    振幅

    (dB)

    振幅

    (dB)

    振幅時の高い直進性と逆共振の抑圧を実現することにより,従来の同口径ユニットに比べ,中域で20dB程度のひずみ低減に成功している。左右の側辺にはそれぞれ2個のサブウーファーユニットが備えられており,LFEチャンネルの再生により,広がり感や包み込まれ感などの空間印象を向上させるとともに,22.2ch音響の低域成分の再生により,低域音響特性を改善している。4.2 フラットパネルディスプレー一体型の枠型

    スピーカーによるバイノーラル再生22.2ch音響方式の各チャンネルのうち,ディスプレーの位置に重なるFLcチャンネル,FRcチャンネル,FCチャンネル*9を除いた前方チャンネルは,枠型12スピーカー上の各スピーカーユニットに割り当てられる。一方,除外された3チャンネルは,振幅パンニング*10により虚音像

    として合成される。実験によれば,水平方向のパンニングと比較して,垂直方向のパンニングは前方により安定した虚音像を合成することが可能である。従って,上記3チャンネルの合成には,各チャンネルを挟む上辺と下辺のスピーカーユニットを用いている。側方,後方のチャンネルは,12個のスピーカーユニットを用いたバイノーラル再生により,規格上の所定位置に音像として合成される。聴取位置は視距離1.5H(Hはディスプレーの高さ)の1点とした。このとき(4)式は劣決定問題*11となり,解が一意に定まらない。そのため,制御器を設計する際に計算する

    *9 本特集号の解説「8Kスーパーハイビジョン音響制作システムの開発と標準化動向」を参照。

    *10 隣接するスピーカーに音響信号を振り分けることにより,スピーカー間の任意の方向に音像を定位させる方法。

    *11 観測の数が変数の数より少なく,変数の値を一意に決定できない問題。

    7図 スピーカーユニットから左右の耳へのHRIRの例

    8図 スピーカーユニットから左右の耳へのHRTFの例

    報告

    NHK技研 R&D/No.148/2014.1150

  • (a)左耳 (b)右耳

    1

    0.8

    0.6

    0.4

    0.2

    0

    -0.2

    -0.4

    -0.6

    -0.8

    -1100 150 200 25050

    サンプル

    振幅

    leftright

    1

    0.8

    0.6

    0.4

    0.2

    0

    -0.2

    -0.4

    -0.6

    -0.8

    -1100 150 200 25050

    サンプル

    振幅

    leftright

    振幅

    (dB)

    振幅

    (dB)

    (a)左耳 (b)右耳

    20

    0

    -20

    -40

    -601,000 10,000

    周波数(Hz)

    20

    0

    -20

    -40

    -601,000 10,000

    周波数(Hz)

    leftright

    leftright

    逆行列の条件数*12が最も低くなり,制御器がロバスト*13

    となる最小ノルム解*14を採用している。制御器の設計に使用するHRTF,すなわち枠型スピーカー上の各スピーカーユニットから聴取位置までのHRTFは,3章で述べた同時推定法により求めた。当所の音響無響室での測定の様子を6図に示す。枠型12スピーカーの各ユニットに測定信号を印加し,聴取位置に配置したダミーヘッドで収音した。測定信号には,信号長217-1サンプル,サンプリング周波数48kHzのM系列信号を用いた。スピーカーユニットは枠上に配置されているため,聴取位置からの距離はユニットごとに異なる。この距離差により生じる遅延と,スピーカーキャビネットでの反射を吸収するために,(18)式の巡回シフト量 lは,一般的なHRIR長より長い1,200サンプルとした。測定音圧は,ダミーヘッドの頭部位置において70dBとした。

    所望信号の合成に使用するHRTF,すなわち側方や後方のスピーカーがない方位から聴取位置までのHRTFは,同じダミーヘッドを用いて測定した。同時推定は困難であるため,測定信号には,信号長217サンプル,サンプリング周波数48kHzのLogTSP(Logarithmic Time-StretchedPulse)*15を用い,1方向ずつ測定した。例として,左右側辺のスピーカーユニットから左右の耳へのHRIRを7図に,その周波数振幅応答(HRTF)を8図に示す。ただし,HRIRはピークがフルスケールを基準として-2dBとなるように正規化を行ったのち,512

    *12 外乱やデータの摂動に対する感度を表す値。2ノルムを用いると,行列の最大特異値と最小特異値の比が条件数となる。

    *13 外乱やモデルの不確かさに対して,一定の性能を維持する状態。*14 劣決定問題において,そのノルムが最小となる解。*15 有限の継続時間内において,周波数が時間の対数に比例して変化す

    る正弦波パルス信号。

    9図 側方から左右の耳へのHRIRの例

    10図 側方から左右の耳へのHRTFの例

    NHK技研 R&D/No.148/2014.11 51

  • (a)左耳位置 (b)右耳位置

    1

    0.8

    0.6

    0.4

    0.2

    0

    -0.2

    1

    0.8

    0.6

    0.4

    0.2

    0

    -0.21,000 1,500 2,000 2,500 3,000500サンプル

    振幅

    サンプル

    振幅

    leftright

    leftright

    3,500 4,000 1,000 1,500 2,000 2,500 3,000500 3,500 4,000

    振幅

    (dB)

    振幅

    (dB)

    (a)左耳位置 (b)右耳位置

    20

    0

    -20

    -40

    -60 1,000 10,000周波数(Hz)

    20

    0

    -20

    -40

    -60 1,000 10,000周波数(Hz)

    leftright

    leftright

    サンプルの矩形窓で切り出している。7図と8図において,「left」と「right」は,左右側辺それぞれのスピーカーユニットから測定信号を印加した場合の応答を示す。また,聴取位置側方,すなわちSiLチャンネル,SiRチャンネル*16の方向から左右の耳へのHRIRを9図に,その周波数振幅応答を10図に示す。4.3 制御器の性能評価制御器の性能を定量的に評価するために,応答の測定実験を行った。前節のHRTF測定の際と同じ位置に枠型12スピーカーとダミーヘッドを配置し,枠型12スピーカーの入力に制御器を接続する。この制御器の左右の入力端より所望信号を印加し,ダミーヘッドの左右の耳の位置でその応答を収音する。所望信号は単位インパルスとした。ただし,単位インパルスを直接印加することは困難であるため,LogTSPを印加し,応答に逆信号を畳み込むことによ

    りインパルス応答とした。11図に測定されたインパルス応答を示す。また,その周波数振幅応答を12図に示す。11図と12図において,「left」と「right」は,左右それぞれの入力端から単位インパルスを印加した場合の応答を示す。この場合,同側耳では遅延を伴う単位インパルスが,対側耳では無信号が観察されることが期待される。12図を見ると,同側耳で観察される信号は所望の全域通過特性を精度よく近似しており,対側耳で観察されるクロストークはおおよそ全帯域で15dB以上抑圧されていることが分かる。いずれも,低域および高域において精度が低下しているが,これはスピーカーユニットの再生周波数帯域の外の帯域となるためである。

    *16 本特集号の解説「8Kスーパーハイビジョン音響制作システムの開発と標準化動向」を参照。

    11図 制御点で測定されたインパルス応答

    12図 制御点で測定された周波数振幅応答

    報告

    NHK技研 R&D/No.148/2014.1152

  • 2ユニット 4ユニット

    6ユニット 12ユニット

    周波数(Hz)ユニット数

    条件数

    15

    10

    5

    12

    4

    6

    12

    1,000

    10,000

    次に,制御器を設計する際に計算する逆行列の条件数を指標として,その安定性を評価した。条件数は,外乱やデータの摂動に対する感度の測度として用いられ,条件数の大きい問題は「悪条件である」といい,微小なノイズや計算過程の誤差混入に弱いとされている。ここでは,枠型12スピーカーのうちバイノーラル再生に使用するスピーカーユニット数とレイアウトを13図に示すように変化させ,周波数ごとの条件数を計算した。その結果を14図に示す。条件数がユニット数におおよそ反比例して減少し,2個のユニットを用いた再生で見られる条件数のピークが,ユニットの増加に伴い徐々に抑圧されることが見て取れる。この結果は,バイノーラル再生に用いるスピーカーの数を増やすことにより,制御器の安定性,ひいては合成される音像の安定性を向上させることができることを示唆している。

    5.おわりに22.2ch音響の家庭での再生方式として,FPD一体型の枠型スピーカーによるバイノーラル再生法を提案し,その概要について報告した。試作した枠型12スピーカーを用いた測定実験により,提案法の有効性を示した。また,バイノーラル再生法の基礎となるHRTFの多方向同時推定法について述べた。現在は,安定性を優先して聴取位置を1点としているが,これを多点へ,更にはある限られた範囲へと拡張することが当面の課題である。また,信号処理量の削減など,システムの実用化に資する検討も進める予定である。なお,本研究の一部は,慶應義塾大学理工学部・足立研究室と共同で行った。研究の進捗にご尽力いただいた足立修一教授,学生諸氏に感謝する。

    13図 制御器の安定性の評価に使用したスピーカーレイアウト

    14図 条件数

    NHK技研 R&D/No.148/2014.11 53

  • 本稿は,日本音響学会誌および映像情報メディア学会誌に掲載された以下の論文を元に加筆・修正したものである。石川,徳住,丸田,足立,松井,安藤:“システム同定理論を用いた頭部伝達関数の三次元多方向同時推定,”音響学誌,Vol.69,No.7,pp.321-330(2013)K. Matsui,S. Oishi,T. Sugimoto,S. Oode,Y. Nakayama,

    H. Okubo,H. Sato,K. Mizuno,Y. Morita and S. Adachi:“Binaural Reproduction of 22.2 Multichannel Sound withFlat Panel Display- Integrated Loudspeaker Frame forHome Use,”映情学誌,Vol. 68,No. 10,pp. J447-J456(2014)

    参考文献 1)鹿喰:“スーパーハイビジョンの研究開発,”NHK技研R&D,No.137,pp.4-9(2013)2)澤谷:“家庭におけるマルチチャンネル音響再生技術,”NHK技研R&D,No.128,pp.11-17(2011)

    3)K. Matsui and A. Ando:“Binaural Reproduction of 22.2 Multichannel Sound over Loudspeakers,”129th Conv. Audio Eng. Soc.,Prepr.8272(2010)

    4)K. Matsui and A. Ando:“Binaural Reproduction of 22.2 Multichannel Sound with Loudspeaker ArrayFrame,”135th Conv. Audio Eng. Soc.,Prepr.8954(2013)

    5)足立:MATLABによる制御のためのシステム同定,東京電機大学出版局,pp.52-54,pp.91-97(1996)

    6)竹中,足立:“最小二乗法による多入力システム同定のための同定入力の生成法,”計測自動制御学会論文集,No.47,Vol.6,pp.291-293(2011)

    まつ いけんたろう

    松井健太郎

    1998年入局。名古屋放送局を経て,2001年から放送技術研究所において,高臨場感音響の研究に従事。現在,放送技術研究所テレビ方式研究部に所属。

    報告

    NHK技研 R&D/No.148/2014.1154