■ 11_05. コンピュータの音声処理 ■
■ 人が音を感じる大まかな仕組み
人が音を感じる大まかな仕組みは、、、
空気の振動(粗密) → 鼓膜の振動 → リンパ液の振動 → 有毛細胞の揺れ → 電気信号 →
神経 → 大脳皮質の聴覚部分 → 「音」 を認識、、、というふうになっています。
人は、空気の振動(音波)を、電気信号に変換して聞いているわけです。
ビッシリと生えた有毛細胞は、音の高低(周波数)によって感応する部位が決まっているらしく、
赤ちゃんの有毛細胞は全ての音域を感知でき、年をとるにつれて、高い音域の有毛細胞から、
死滅していくので、たいてい50歳過ぎの人は15KHz以上の音が聞こえません。
測定ソフトで測ったら、ワタシの耳は11KHzが限界でした。(〜悲し過ぎる現実〜)
■ コンピュータが音を記録する大まかな仕組み
コンピュータも、空気の振動(音波)を電気信号に変換して音を記録します。
空気の振動 → マイク(振動板の揺れ) → アナログ電気信号 、、、と変換して、、、
アナログ電気信号のままではコンピュータで処理できないので、二進法のデジタル信号に換えて、
コンピュータに送りこんでいます。
アナログ信号 → デジタル信号 に変換するのが ADC( Analog-to-Digital Converter )
デジタル信号 → アナログ信号 に変換するのが DAC( Digital-toAnalog Converter )です。
デジタルの電気信号として一般的なフォーマットは、PCM(Pulse Code Modulation) です。
PCM は波形データを圧縮しない形式で、音楽CD や Windows で使われています。
■ サンプリングレート
音波には「時間」が関係します。
音波の振幅を数値化する間隔をサンプリングレートと呼びヘルツ(Hz)で表します。
1秒間に13回、音波を数値化するなら、サンプリングレートは13Hzです。
音楽CDのサンプリングレートは 44.1kHz なので、毎秒44100回サンプリングしています。
イメージとしてとらえるなら、、、
音波をデジタル録音するのは、「波」を連続した数値の「点」に変換することです。
これを再び音にするときは、連続した「点」を繋ぎ合わせて「波」に変換します。
音波
連続した「点」
このように、デジタル処理では、音波を連続した数値として保存します。
数値を音波に変換する時は DAC が数値を読み取り、波形に変換します。
点の数(サンプリン数)が少ないと、なめらかな波にならず、ヒステリックな音になります。
綺麗な波形を描こうと思えば、それだけ多くの点が必要ですね、、
サンプリン数の多い、連続した「点」
■ 音の容量
デジタル音声の容量は ビット深度( 1つの音を表すのに使う情報量 )で異なります。
大まかにいって、無音〜爆音を何段階に分けて記録するかが ビット深度 です。
ビット震度が 16ビット なら、0〜65535段階です。( 音楽CDのビット深度は 16bit )
16bit で周波数1Khzの音を1秒間録音するには、(16bit = 2Byte なので)
2Byte ×1000hz × 1秒 = 2000Byte = 2KByte 必要になります。
「ピー と鳴ったらメッセージを録音して下さい〜」 の ピー が 1KHzの音です。
■ 音の長さ
音の長さは、波(振幅)の数で決まります。
周波数1Hz(毎秒1振幅)の音を4秒間鳴らすには、 4 個の波(振幅)が必要です。
1Hzの音なんて耳では聞こえません。空気の揺れです。
音の速さは温度や湿度で変化しますが、普通秒速330mなので、1Hzの波(振幅)の幅は330m、
33Hzの波なら、10m になりますから、、、
33Hzの低音を忠実に再生するには 音道が5mのロード・ホーンが必要ですね 〜〜 何の話?
■ 音の高さ
音の高さ、すなわち音程は、周波数(一定時間に波が上下する数)で決まります。
周波数が高ければ、音が高く、周波数が低ければ、音が低く感じられます。
音波をデジタルで表現するとき、数字が高くなったり低くなったり繰り返すことで表現します。
16 ビットであれば、0 の連続が「無音」として扱われます。
この基本となる 0 よりも高くなったり低くなったりすることで、音波が表現されます。
特定の周波数を発生させたい場合、1秒間に目的の周波数だけ音波を発生させます。
例えば、40Hz の重低音を発生させたければ、1秒間に 40 回だけ数値を上下させます。
この時の数値が上下する間隔をサイクルと呼びます。
■ サンプル数
1サイクルに必要なサンプル数は、サンプリングレート÷周波数で求めます。
CD(サンプリング周波数44,1 kHz)で 44 Hz の重低音を再生させる場合、441000÷44 で、
1サイクルに約 1000 サンプル必要になる事がわかります。
CD(サンプリング周波数44,1 kHz)で 20Khz の高音を再生する場合、441000÷20000で、
1サイクルに約 20サンプルで済みます。
人間が聞き分けられる周波数は20Hz〜20Khz、、、という理屈で、CDは規格されたそうですが、
CDの規格では最高域の倍音が再生できない、、、という理論が、昨今は優勢です。
■ 音の強さ
音の強さ(音量)は、波形データの振幅、つまり波の高さで決まります。
波の最上部と最下部の絶対値が振幅になります。
音の強さは一般的にデシベル (dB)で表されます。
1db= かすかに聞こえる最低音量
120db= フルオーケストラの最大音量
140db= ジェット戦闘機のエンジン全開音を25m離れて聴く音量
識別可能な最小音と最大音の差をダイナミックレンジといいますが、以下の式で求めるようです。
dB = 20 log (S1/S2)
db がダイナミックレンジ、S1 と S2 には、それぞれ比較する2つの音の振幅を指定します。
無音〜爆音を何段階に分けて記録するかが、ビット深度 でした、、、
ビット震度が16 ビットなら、0〜65535段階です。
ビット震度が24 ビットなら、0〜65535×256段階です。
ビット深度を16ビットにするか24ビットにするは、ダイナミックレンジに影響します。
dB = 20 log (S1/S2) に当てはめると
ビット深度が 16bit (CD音源)なら、ダイナミックレンジは 96 となり、
ビット深度が 24bit (DVD) なら、ダイナミックレンジは 144 となります。
フルオーケストラの最大音が120dbだったので、CDの 96 では足りませんが、、、
最大音量にさしかかるところで、録音技術者が、入力音量を調節しているらしいです。
と言うことで、、、ライブ感を満喫するには、24bit以上が必要、、、という人が増えています。
参考 : higemodern.exblog.jp