音像定位どうして決まるか?    オーディオの科学へ戻る    2003.11.28

 ステレオ装置の性能を論じる際『音像定位』(または『音場定位』)も重要な要素である。例えばオーケストラ曲を聴く場合、個々の楽器の場所が鮮明にわかり、あたかも眼前でオーケストラが演奏しているイメージが得られるのが望ましい。ここでは、ステレオ装置の音像定位がどの様なファクターで決まるかを議論する。しかし、その前に実際の音の定位、つまり音源が何処にあるか(方向と距離)を人間はどうして検知するのか、そのメカニズムを知っておく必要がある。さらに、比較のため、視覚により画像・映像がどの様に形成されるか知っておくと問題点がわかりやすい。最後に、実際のオーディオ・システムでの音像定位の良否について触れる。

視覚イメージの形成(ステレオ画像)

 いうまでもなく、画像の検知は眼球のレンズが網膜に作る実像が視神経を刺激し脳へ送られることから始まる。この場合、左右・上下の2次元情報は正確に捉えられるが、前後(奥行感)は単眼だけでは検知できず、両眼視差によって検知される。写真の場合は、少し水平方向にずらして撮ったいわゆるステレオ写真を、専用のステレオ眼鏡で見ることにより鮮明に奥行感が得られることを経験した人は多いだろう。

ところで、単眼だけでは本当に奥行感は得られないのだろうか? 誰しも、経験でわかることだが、片目をつぶっても、奥行感が全く得られないわけではない。私は、両眼の視力が著しく異なるが(1.0と0.1)例えば、テニスなどをしても一応ボールは捕らえられる。また、普通の写真を見ても立体感が全く得られないわけではない。

このように、比較的物理情報が正確に反映される画像の場合でも、特に前後感などは、いわゆる脳内処理により、陰影などの情報、脳内にある過去の経験やイメージと結合し立体的なイメージを形成するものと考えられる。一方、音像の形成は以下に述べるように、画像に比べ物理的情報が乏しく、脳内処理により補われる部分が大きいようである。よく言われるように音は耳で聴くのでなく脳で聴くわけである。

実音の定位

左右の検知

 左右については比較的正確な物理的情報が得られる。左図に示すように、音源から発した音波は球面波として広がり、両耳に達する時間差が位相差として検知され、また頭部によって遮蔽されることにより音量差を検知する(もちろん距離の差によっても音量差は生じるがこれは極わずかである)。 この時、波長が両耳間の長さに近い中音域(500〜3000Hz)の左右検知は位相差が、より波長の短い高音域の検知は音量差が主役を演じるらしい。そのため、音源の方向を正確に知るには出来るだけ多くの周波数成分を含んでいる必要があり、これらを総合し訓練した人では±1度の感度があるという。

逆に、純音(単純サイン波)では方向感を得るのが難しく検知感度は大幅に低下する。もし、低周波発振器があるなら実験してみるとよくわかる。

上下位置の検知

上下方向の検知は両耳が水平に且つ左右対称についているので難しい。しかし、耳介(みみたぶ)の構造が上下非対称であることから、到達した音波が耳介により反射干渉を起し、聴力感度にピークやディップなどの周波数依存性が生じる。その、ピークやディップの位置や強度が、音源の上下方向の角度により異なり、これを脳内で解析し上下方向を検知するという。このように、耳介やその周辺の頭部の構造によって生ずる聴覚感度の周波数依存性のこと頭部伝達関数といい、これにより±5度程度の感度で上下方向を検知することが出来るそうである。当然、純音では上下方向の検知は殆んど不可能である。

なお、頭部伝達関数の具体的なグラフはここに示しておく

余談だか、暗闇でも獲物を捕らえることの出来るフクロウは、耳穴の方向が左右で異なり、一方が上向なら片方が下を向いており、より直接的な手段で上下方向も検知するという。

前後位置の検知

前後の検知を可能にする物理的情報はそれほどクリアでない。考えられることを列挙すると、1.音量、2.直接音と反射音の割合、3.高音の減衰による周波数スペクトルの変化といったところである。

個々に見ると、
1. 音量変化:これは相対的なものであり、それだけでは距離感はつかめない。ただ、音源が移動している場合は有力な情報を与える。静止している場合は、脳内に記憶されたその音のイメージと比較し脳内処理により距離を推定することは可能であろう。

2. 直接音と反射音の割合
 当然、距離が遠くなると反射音の割合が増えてくる。反射音は時間遅れがあり、また高音の減衰も激しい。遠くの雷がいわゆる『ゴロゴロ』音になるのはこの影響が大きいだろう。周囲に反射するような物が無くても、少なくとも地面や床はあるわけなので有効な情報と思われる。実際、参考図書1 によれば、無響室では、距離感は掴み難いそうである。

3. 高音の減衰: 確かに、音源が遠ざかるほど高音成分がより強く減衰し鋭い音は柔らかくなる。高音減衰の原因は空気の伝達特性にもその傾向があるが反射音が高音ほど減衰しやすいことも大きく効くようです。ちなみに、空気による高音の減衰特性は、湿度によって変わり、そのデータをここに示しておく。これによると、2,3mの近距離ならそれほど大きく減衰しない。

その他、点音源の場合、耳の位置での波面の曲率半径の差を検知するということも考えられる。言い換えれば、上の図(図1)で球面波の中心位置を検知出来るかという問題となる。確かにこれが検知可能なら直接的(物理的)な距離情報としてわかりやすいが、このためには左右それぞれの耳の位置での波面の方向を検知する能力がなければならない。言い換えれば、片耳だけで音源の方向を正確に検知出来なければならないことになり、上に挙げた左右・上下方向の検知のメカニズムが正しいならあまり期待出来ない。

これとは別に、物理的メカニズムは分からなくても、経験的に上下方向と同じように前後方向にも固有な頭部伝達関数があり周波数特性から検知可能ということも考えられるが、残念ながらそれを示すデータは見当たらない。

実際にはさらに、視覚情報などと合わせて脳内に実音像が形成されるのだと思うが、結局前後感についてはスッキリしない。さらに明快な情報をお持ちの方があれば教えて下さい。

私の見た本では、古い所で 参考図書 1 p.198 に『遠近感に対しては聞きなれた音の音色の変化、直接音の強さと残響音の変化の比などで判断されるらしく、あまり正確でない』

もう少し新しい所で 参考図書 2 p.18)に『正面にある音源の距離の判断は、反射音が無い場合はきわめてあいまいになり、音の大きさに依存し、大きな音は近くに感ずる』

といったところで、どうも学会レベルでもハッキリしないようである。

ステレオシステムでの音像定位


上で現実の音の定位について議論したが、ステレオシステムでの音像定位は別に考える必要がある。

ステレオ録音

始めに、録音時について、簡単のため指向性のない2つのマイクを天井から同じ高さに数10cm間隔でつるした場合について考える。(クラシック音楽の録音などでは良く見かるので)

この場合、左右についての情報は時間差(位相差)音量差共に検知可能だが、2のマイクの間隔にもよるが、両耳間での値とは同じでない。位相差はすこし強調され、音量差は頭部による遮蔽効果が取り入れられていない。つまり、中低音域の左右角度が強調され、高音域の左右角度は過小評価されることになりそうである。この時点で、原音のもつ位置情報がかなり歪められる。

なお、実際の録音では無指向性マイクが使われることは稀で、指向性マイクにより左右の音量差を強調するとか、補助マイクを使い、各楽器パートの位置を強調するなどして、コンサートの雰囲気に近い再生音が得られるように編集(ミキシング)を行なうようである。

次に、上下方向について、このシステムでは、実音の上下感を伝える頭部伝達関数が記録されないので、上下方向に関する情報は完全に失われ、位相差や音量差は全て左右方向の情報に還元される。逆にこのことは、天井につるしてあるマイクで収録しても再生時には下方に定位するわけでなく、ほぼSPの高さに定位することと対応している。

最後に距離感。これは実音の距離感が何で掴めるかがハッキリしないので難しいが、主な因子と考えられている音量差、反射音、高音の減衰感などは収録されるので完全とはいえないまでも距離情報としては収録される。

再生時の問題点

次に、再生時について、ここでは2つのフルレンジ・スピーカー(SP)をもちい、いわゆる正三角形の頂点より少し後ろ、SPの高さで聴くこととする。SPの指向性と壁面による反射は考えず、各々のSPから出る音波は球状の波面を持ち広がっていくとする。

始めに、録音時にマイクの中央前方にある単音源(図 1のような場合)を再生する場合を考える。この場合、我々の耳は直接的には2個のスピーカを音源として検知するはずだが実際にはその中間に虚音像が定位する。しかし、これは必ずしも自明なことではなく説明を要する。

 図2(a),(b)は2つのスピーカーを60cm離して置き、それぞれ波長 (a) 15cm(2270Hz)、(b) 8cm(4250Hz) の単音を発生させた時の音圧(空気の密度)の等高線である。(濃淡がわかりやすいよう距離による減衰を無視して両スピーカーから出るサイン波を足し合わせた計算値。濃淡の数値には意味はない)。また、図3は波長15cmの単音を、中央に置いた1個のスピーカーが発生する時の音圧を表す。

 目の錯覚により、見る人により異なるかもしれないが、図2(a)は、干渉により複雑な波面を示すが、中心より後方から音波が放射しているように見える。しかし、もちろん図3の1個のスピーカーの場合と大きく異なる。また、図2(b)の場合は2つのスピーカーから同心円状に球面波が放射しているように見える。

 実際に音としてはどの様に聴こえるであろうか? 低周波発振器を用い耳の感度が最も良いといわれる 2000〜3000Hz の音を発生し実験を試みた。その結果、

  1. 同位相同音量の単純音(サイン波)を両スピーカーから発した場合は音源の定位感はきわめて曖昧で両スピーカー間の何処から音が出ているのかわからない。なお、聴取位置を左右に振ると周波数に応じて強弱が激しく変化する。これは、干渉現象として理解できる。このことは、ステレオ装置では各周波数成分の強度は聴く位置に依って激しく変化することを示すものである。
  2. 単純音を片一方のスピーカらのみ発生すると、どちらのスピーカーから音が出ていることがわかる程度で、音声などに比べて定位感は曖昧である。 同じ周波数の方形波を発生すると定位感は少し向上する。
  3. これに対し、テストCDの音声やテレビのアナウンスの定位感は鮮明で、特にテレビ画像と合わせて聞くと真に口の位置から音声が出ていると感じられる。

 以上はもちろん個人的な体験なのでどれ程一般的に言えるのかわからないが、単純音に対してステレオ再生は殆んど定位感を与えないシャープな音像が得られるためには、少なくともかなり広い範囲の周波数スペクトル成分を持つ必要がある。さらに、音声や特定の楽器など、『意味のある音』ほど音像はシャープに定位する。という結論が得られる。すなわち、音像の形成には脳内処理が大きく関わっていると言えそうである。特に、視覚の影響は決定的である。

左右方向の定位
 次に、音源が左右にブレた場合つまり、左右方向の位置感覚は何で決まるかを考える。録音時には、少なくとも左右チャネルの位相差は記録されているので、音源の方向の中央からのズレは両耳効果で検知可能である。しかし、その角度は原音とは一致しない。理由は録音されている位相差は両耳間隔で生じる値とは異なり、また一方のSPの音は両耳に入る(クロストーク効果)ので位相差はさらに複雑になる。一方、音量差も重要な情報であるが、これは録音技術に依存する部分が大きい。何れにせよ、各楽器の相対的な左右方向の位置は判別可能であろう。ただし、左右方向の絶対的な位置については左右スピーカー位置が基準となるので、原音とは余り関係なく、ほぼ両スピーカーの間に定位するようである。つまり、大編成のオーケストラも弦楽四重奏も左右方向の広がり感は余り変わりがないのではなかろうか? もちろん、これも脳内処理に依存する部分が大なので個人差も大きいものと思う。

上下方向の定位
 上下方向の検知は頭部伝達関数に拠るので、録音時のマイクと音源の高さに関わりなくSPの位置に定位する。マルチ・ウエイ SPの場合は頭部伝達関数が大きく変化する高音域を受け持つトゥイターの位置と考えてよさそうである。実際には、上下方向の検知能力は元々弱いので演奏会場を頭に描きながら違和感なく上下方向の音像を形作るのではなかろうか?

前後の定位
 実音での前後感の検知のメカニズムがハッキリしないので、当然ステレオシステムでの前後感についても何が決定的な要素かわからない。しかし、経験的には、ほぼ両SPを結ぶ位置に定位するのではないだろうか?

 ここで、ステレオシステムにおける前後感に関する面白い実験を紹介する参考図書 2 p.156)。音源はホワイトノイズで無響室での実験である。同じ音源を2つのSPに分岐して再生すると(相関係数 1の音)SPの後方に小さな音源として定位する。独立に発生させた2つのホワイトノイズを別々に発生すると(相関係数 0の音)音像は両SPの間に大きく広がる。というものである。この傾向が一般音にも成り立つとすると、再生装置による信号の乱れが少ないほど、音像はシャープに後方に定位する。逆に乱れ(歪やノイズ)が多いほど音像は広がり手前に定位するということになる。同じ音源の場合SPより後方に定位するのは、図2(a)に描いたように、合成波の音源が後方に位置するように見えるのでうなずける。しかし、これは無響室での実験であり、反射による前後感についての情報が無い場合で、一般のリスニングルームでの前後感とは異なる。実際は、上記のようにSP付近に定位するので、直接音と反射音の混ざり具合が最も大きい因子のような気がする。経験豊かな、オーディオ・ファイルの意見によると、指向性が強いホーン型スピーカーは前方に定位する傾向がみられるそうである。これは、相対的に反射波の割合が少なく、より近くに感じられると解釈できる。

 さて、以上はあくまで耳に音が達するまでに物理的な音情報がどの様に伝わるかを論じたものである。最近の、脳科学の進歩により、外界の知覚、(ここでは音像の形成)はストレートに物理情報を反映するものではなく、過去の記憶、(間違った知識などを含め)色々な知識、視覚情報などと脳内で結合し約0.1秒程度かかって形成されると言うことが明らかになっている。特に、実音、または映像を伴った録音の場合は視覚が決定的な影響を及ぼすことは経験が教える所であろう。

オーディオ・システムでの音像定位の良否

 すでに述べたように、2つのマイクで収録し、2つのスピーカーで再生するステレオシステムにおける音像情報はいわば非可逆圧縮情報のようなものであり、脳内で各人のアルゴリズムにより解凍しそれぞれ異なる音像を得るわけで、原音再生は原理的に実現しない。といっても、元になる信号はあくまで耳に入る物理情報であり、もちろん装置の性能にも左右される。普通は、録音された情報を出来るだけ忠実に再生することにより演奏会に近い雰囲気を味わえるものと考えてよい。この時、最も重要な、左右方向の情報を乱すのは、位相の乱れであり、最近のスピーカーでは位相特性が重視されるゆえんである。

 マルチウエイSPシステムでは普通デバイディング・ネットワークを使うので特にクロスオーバー周波数付近で位相の乱れが生じ、定位が悪くなるといわれている。ただし、位相差が左右の定位に効くのは上述のように中音域であり、この付近をクロスオーバー周波数に設定するのを避けておけばよい。定位を重視し、位相特性を良くするのにはフルレンジSPを使うのが良いとする考えもあるが、フルレンジSPは、定位感を強く左右する中高音域での分割振動が避けられず、これによる位相の乱れや、周波数特性に生じるピークやディップが、頭部伝達関数を狂わし、物理的には、定位に関しても一概にフルレンジスピーカーが優れているとは言えない。

おそらく、物理的に見て最も定位感が優れているのは、駆動源と振動板が同じで分割振動が生じず位相特性も優れている、フルレンジのコンデンサーSPであろう。ただ、コンデンサーSPは色々な理由から迫力ある低音再生が難しく、さらにメインテナンスを怠れば壊れやすいなど難点がありあまり普及しないのではなかろうか。

いずれにせよ、現在のオーディオ・システムで最も未完成なのがスピーカーシステムであり、周波数特性を重視すると音像定位感が損なわれ、定位感を重視すると周波数レンジを我慢する必要があるといった二律背反の傾向があり、主にどの様なジャンルの音楽を聴くかによって自分の好みに合ったシステムを構築する必要がある。

さらに、部屋の床や壁からの反射や吸収も周波数特性のみならず位相特性に大きく影響するので、いくら特性のよい高価なスピーカーを買っても、リスニングルームに問題があると『宝の持ち腐れ』になるので心しなければならない。

おことわり

 さて、私は、音響工学は専門でなく、ましてや脳科学に関しては全くの素人です。上記の見解には私の推量の部分もあり、間違い、勘違いは多々あると思います。お気づきの点があれば遠慮なくAudio BBSかメールでご指摘下さい。

参考図書   Topへ

1. 『通信工学ハンドブック 』1957年
2. 『音の科学』難波精一郎 編 朝倉書店 1988年