動画の音質を高めるには? サンプルサイズ・サンプリングレート・音声ビットレートを知ろう!

動画配信の基礎知識
PublicDomainPictures / Pixabay
この記事は約5分で読めます。
動画に音声はつきものです。 筆者もそうだったのですが、最初はとりあえず音が鳴ればいい、というスタンスで動画を扱います。 ただ、何度も何度も行っているうちにだんだんと「どうやったらいい音にできるのか」「どのような知識を持っていれば音のパラメーターを最適化できるのか」ということが気になってくるかと思います。 本稿では、動画の「音」について解説し、 ・どうすれば「いい音」にすることができるのか ・どういう知識のもとで、どう考えて音質や音声データの容量をコントロールすべきか という事を学びます。

「動画の音」とは

動画は、映像データと音声データが合わさってできています。 映像と音声が別になっており、別々のデータ方式(コーデック)のものを合わせたものが動画ファイルです。 これについては以前の記事で詳しく記載していますので、一度そちらに目を通してみてください。
MPEG-4とMP4って同じじゃないの!?動画のコーデックとファイル形式を知ろう
本稿では動画ファイルの「コーデック」と「ファイル形式」について簡単にまとめ、違いが分かるようになります。
動画ファイルは上記のような構造になっているので、画質と音質は別々に調整することができます。 よって動画の音質は、音声データ部分に左右されるという事になります。

音声データには様々なものがある

音声データにも様々なデータ方式があります。 大きく分けると以下の2つで、それぞれ複数のコーデック(データ方式)があります。  
特徴 コーデック(データ方式)
可逆コーデック 圧縮率は低いが、 元の音質にまで戻すことができるデータ方式。 FLAC ALAC など
非可逆コーデック 圧縮率が高いが、 再生する際に元の音質まで戻すことができないデータ方式。 MP3 AAC WMA など
インターネットの動画で使われるものは、圧縮率の高い非可逆コーデックです。 AAC、MP3が多く、最近一般に視聴される動画の大多数がAACになっているものと思われます。 よって、インターネット動画配信で高音質を目指すためには、AACまたはMP3(非可逆コーデック)の音質はどのようにすれば上下するのかということを理解することが重要となります

音声データの音質にかかわるパラメーター

以下に、音声データの音質を左右する要素を3点あげます。 以下を把握して理解し、音声データ作成時に適切に設定することで、正しく音質をコントロールすることができるでしょう。

サンプルサイズ(ビット深度)

サンプルサイズが大きいほど細かく音の大きさを区切るため、なめらかに聞こえます。サンプルサイズが小さいと荒い耳ざわりの音に聞こえます。 16bitなら2の16乗で、音の大きさを65536分割して再現しています。 24bitなら2の24乗となり、16777216分割です。
実際に、同じWAVファイルから、32bitのMP3ファイルと8bitのMP3ファイルを作成して聞き比べると、8bitの方は「サー」というノイズがのり、32bitでは元ファイルと同じレベルで滑らかな音声となりました。(二つのファイルのビットレート、サンプリングレートは同じ) またMP3やAACの場合は、ビットレートも大きく音質に左右します。

サンプリングレート

動画でいうところのフレームレートです。 サンプルレートとも言います。 1秒間を何回に区切って音をデータ化しているかという数値となっており、44.1kHzであれば、44100回に区切って音をデータ化していることになります。 細かく切れば切るほど音の再現度が高まり、音質が良くなります。 CDは44.1kHzになっており、人間の耳に聞こえるといわれている音域はこの44.1kHzでほぼカバーできているそうです。 よってそれ以上のサンプリングレートにしても、人間の耳はそれを感じることができないのだとか。 とはいえ、高サンプリングレートだと音が違う、と感じる方も多いため、これよりも高いサンプリングレートの音声ファイルも存在します。 インターネット動画の音声では、44.1kHzか48kHzが利用されることが多くなっています。 身近なところだと、Youtubeでは44.1 kHz 推奨を推奨しています。 (48 kHz や 96 kHz などを使う事は可能だそうです。) なお、音楽業界は44.1kHzで、映像業界は48kHzを採用しているため、動画に利用する音声では、特に問題がない限りは48kHzを採用することを推奨します。

ビットレート

音声データが1秒間にどれぐらいのデータ量になっているかという数値です。 単位は bps。 ビットレートが高ければ、たくさんのデータで1秒間の音を再現できるため、音質が良くなります。 インターネット動画でつかわれるAACやMP3の場合、上限が320kbpsとなっています。 (MP3は仕様上の上限。AACはソフトウェアによってはもっと高くすることもできる。)

まとめ

簡単にまとめると、 ・高サンプリングレート ・高ビットレート であれば、データ的には音質を高めることができます。 しかし、ビットレートが高ければ高いだけ、音声データの容量が増えてしまいます。 320kbpsであれば、1時間で300MBにもなってしまいます。 動画の画質を決める際にも、画質と容量はトレードオフになりますよ、ということを書きましたが、音質も同様の考え方が成立します音楽などをきれいに伝えたければ、画質を犠牲にして音質を高めるという方法も考えられるでしょう。 映画などであれば、視聴者の利便性を多少下げることになっても、画質・音質両方を追い求めてもいいでしょう。 セミナーなど、講師が一人でしゃべっている様子が伝わればいい程度であれば、音質はそこまで必要がないでしょう。 ただ、もともとの音声データにノイズが乗っていたり、音割れしてしてしまっていたりということですと、データ的な音質を高めてもあまり意味がありません。 まずは、なるだけいい環境での録音を心がけることが最も重要なことかもしれません。 録音方法についてはまた別の機会に記事にしたいと思います。 そのうえで、動画のデータとして高音質な設定にするべきでしょう。