今日は、ハイレゾの説明としてよくある「音を細かく取るのでより原音に近い」という謳い文句に「いや、それは違うだろ」とつねづね思っていたので、それ(などなど)について書きます。
ハイレゾとは
2つの団体(JEITA、日本オーディオ協会)がハイレゾを定義しています。
JEITAによる定義
リニアPCM換算でサンプリング周波数、量子化ビット数のいずれかがCDスペック(サンプリング周波数44.1 kHz/48 kHz、量子化ビット数16 bit)を超えているもの。ただし、いずれかがCDスペックを超えていても、もう一方がCDスペック未満の場合はこれに当たらない。
日本オーディオ協会による定義
日本オーディオ協会による定義は再生機器に関する定義のため省略しますが、ざっくり言うと
- アナログ系は40 kHz以上伝送可能
- デジタル系は96 kHz/24 bit以上の精度
- 生産もしくは販売責任における聴感評価
を満たすものを言います。
サンプリング周波数と量子化ビット数
音声はアナログ波形(連続した波形)とみなすことができます。それに対して、CD音源やハイレゾ音源はサンプリングしたデジタル波形です。サンプリングとは、CD音源で説明しますとアナログ波形を1秒に44100回(44.1 kHz)、音量を±32768段階(16 bit)の精度で保存することです。
この1秒当たりの回数をサンプリング周波数、音量を測定する精度を量子化ビット数(ビット深度)と言います。
本題
ハイレゾを売るための説明でよく使われる図の一つです。
http://www.sony.jp/high-resolution/about/(2016年1月21日閲覧)より引用
CD音源に比べてハイレゾ音源は「ギザギザ」が細かく、原音に近いように見えます。しかし、そこに騙されてはいけません。
問題は、原音はアナログ波形、CD音源とハイレゾ音源はデジタル波形で図が描かれていることです。デジタル音声を耳で聞くことはできません。必ず、スピーカーなりイヤホンなりに出力する際にD/Aコンバーターという機器でアナログ音声に変換しなければなりません。(広義)D/Aコンバーターの中にはローパスフィルターが入っているので、それを通過する際に「ギザギザ」は除去されるのです。
つまり、CD音源とハイレゾ音源は(それぞれのサンプリング周波数未満の成分は)原音と一致*1します。さらに言えば、このことは数学的に証明できます。
サンプリング定理(標本化定理)という理論があります。
工学的には、原信号に含まれる最大周波数成分をfとすると、2fよりも高い周波数fsで標本化した信号は、低域通過(ローパス)フィルターで高域成分を除去することによって原信号を完全に復元することができるということを示している。
https://ja.wikipedia.org/wiki/標本化定理(2016年1月21日閲覧)より引用
今の説明が要らないくらい同じことが書かれています。
もちろん、今言ったことには不備(かっこ書きの部分)があってCD音源とハイレゾ音源が同等という意味ではありません。原音にサンプリング周波数の半分以上の周波数成分が含まれていたなら、一致はしません。
しかし、周波数成分で話をすれば正確に伝わるのに、アナログ波形とデジタル波形を並べて、形がより近いから原音に忠実と説明するのは消費者を騙す行為ではないでしょうか。
この図の問題はまだあります。
原音の波形は明らかに変化が遅い(高周波成分がない)です。CD音源の図でいうと10回サンプリングしていますが、この図の波形にはCD音源でもオーバースペックではないでしょうか。
さて、音声をデジタル録音する際には最高周波数成分の2倍を超えるサンプリング周波数で収録すれば(D/A変換においては)完全に原音を復元できることを説明したので、次は高サンプリング周波数の必要性について語らせてください。
可聴域の問題
そもそもCDのサンプリング周波数は、人間の可聴域は〜20 kHzと言われていることから、余裕を持って44.1 kHz(<22.05 kHzまで収録できる)と決められました。
とはいえ、20 kHzの音声が聞こえる人間はなかなかいません。
以下のサイトからモスキート音がダウンロードできます。
聞こえるでしょうか。
22.05 kHz未満の音は完全に収録できるにもかかわらず、本当に96 kHzなど必要でしょうか。
マイクロホンの問題
スピーカーやヘッドホンに再生可能周波数帯域があるように、マイクロホンにも収録可能周波数帯域があります。
マイクロホンの周波数特性を調べてみてください。そんな高域まで対応したマイクロホンなかなか無いですよね。
ましてや、ハイレゾ収録のために過去の名機と呼ばれるマイクロホンがすべて取り換えられてしまっているのでしょうか。
量子化ビット数
ここまで、ハイレゾは意味ない意味ないと言ってきましたが、そうではない面もあります。
量子化ビット数、つまりダイナミックレンジ(最大音量と最小音量の差)です。人間の聴覚は120 dBのダイナミックレンジがあると言われていますから、16 bit (96 dB)では足りない*2ことになります。
ハイレゾ音源を高音質と感じる人は、おそらくこのダイナミックレンジの広さを感じているのだと思います。
おわりに
この記事はハイレゾ音源の説明において問題があることに言及したものであり、ハイレゾ音源自体は意味があると思います。私自身、ハイレゾ音源を愉しんでいる1人ですし、技術の発展に伴い、より高い情報量で保存することは当然のことだと思います。
細かいこと
ローパスフィルターの平坦な部分を使えるので、カットオフ周波数を高くするためにサンプリング周波数を高くする意味はある。ノイズシェーピングのためにもね。
楽曲制作における高サンプリング周波数は、DSPの精度において意味はあると思う。高ビット深度はミキシングの過程で言わずもがな。
DSD (Direct Stream Digital)については書けなかったけど、DSDの方が理論上高音質。けど、ミキシングできないのでDSDこそニセレゾ(ry
補足