[広告]
声とことばの磯貝メソッド
ヴォイスチェックサービス

リップノイズの除去

ここでは、口中で鳴る「ピチャ」「ネチャ」(「パチッ」と聞えることもあります)というノイズを扱います。(唇が出す音は除去したことがないので分かりません。) リップノイズは発語の直後が多いのですが、発語中にも出ます。

●リップノイズの発見

耳で聞いて(性能の良いヘッドホンで確認)気にならなければ放っておけばいいです。気になる場合はそのノイズがあるのが波形のどの部分かを詰めていきます。

スペクトラム表示で見つけることもできます。下の図は、上段のトラックを下段にコピーし、下段をスペクトラム表示に切り替えたものです。5kHz辺りで数ミリ秒、濃く出ているところがあったら怪しいです。

スペクトラム表示のAudacity画面

この辺かなと当たりをつけたら波形を拡大します。以降、ひとつ目の0.8秒あたりのノイズ除去作業を具体的に説明していきます。0.8秒辺を位置選択して時間軸を拡大していくと……。

リップノイズ拡大波形

ありました。これは発見すると嬉しくなってしまうぐらいの非常に除去しやすい波形です。0.804〜0.806秒ぐらいの2ミリ秒強の間に波が10個ぐらいでしょうか。2ミリ秒の間に波が10個ということは1秒当り5千個の波があるということですから、周波数にすると5kHz。スペクトラムで濃く出ていた周波数と一致します。この細かな波を除去します。このやり方も何通りかあります。

(1)ノイズ部分を削る

ノイズの波形だけをカットする方法です。これは無声部分では有効ですが、それ以外では使えません。試しにやってみましょう。カットの仕方は無声部分のノイズ除去と同じです。

ノイズ波形を選択したAudacity画面
ノイズ波形を選択
ノイズカット後ののAudacity画面
ノイズカット後

やはり、継ぎ目で尖った不自然な波形になりました。こういう波形は余計な倍音を含み、結果としてノイズになるので避けたいです。

(2)ノイズの乗っている波を削る

前記のような現象を避けるためにキリのいいひと波単位でカットする方法です。選択範囲はゼロレベル線(X軸、時間軸)との交点から交点、上りで始まったなら上りで終る、下りで始まったのなら下りで終るようにするとカット後の波形も自然につながります。

ノイズの乗っているひと波を選択したAudacity画面
波の選択
ノイズの乗っているひと波をカットした後のAudacity画面
カット後
(3)ノイズの乗っている波を置き換える

波を丸ごと削ってしまうと影響が大きい場合は形の似ている波形(大概すぐ隣にあります)をコピーして貼り付ける方法もあります。

コピー元波形の範囲を指定したAudacity画面
コピー元波形の範囲を指定してコピー
置き換え対象範囲を指定したAudacity画面
置き換え対象範囲を指定して貼付け
置き換え後のAudacity画面
置き換え後
(4)ノイズ部分を「修復」する

Audacityの機能で「修復」というエフェクトがあります。これにより、きれいな滑らかな波形になり、結果的にリップノイズが除去されたのと同じ効果が得られる場合があります。場合によっては本来の波形とは似ても似つかない波形になることもありますから、そういう場合は別の方法で除去するしかありません。

ノイズ波形を選択し、[エフェクト]-[修復]を選択します。

ノイズ波形を選択したAudacity画面
ノイズ波形を選択
ノイ修復後のAudacity画面
修復後
(5)ノイズ部分を手書きで滑らかにする

Audacityには「ペンツール」というのがあって波形を手書きで描くことができます。この機能を使ってノイズの細かい波形を滑らかな線に書き換えます。

ペンツールで描くためには、まず波形に点が現れるまで時間軸を拡大します。それからペンツールボタンをクリックしてペンツールモードに切り替え、ペン型のマウスポインターをクリックしながら動かして任意の線を引きます。

点が見えるまで拡大されたノイズ波形
波形を点が見えるまで拡大
手書き修正中のノイズ波形
手書き修正中

iZotope RXを使ったリップノイズの除去

iZotope RXというノイズ除去を目的としたソフトウェアがあります。現在はバージョン8が出ています。このソフトウェアには様々なノイズ除去機能や劣化した音声を補正する機能があり、それらの機能を使ってリップノイズを除去することもできます。
プロが使うような高価なものなので、素人を想定したこの記事群の趣旨からは外れますが、広く有効な情報と考えてご紹介することとします。

まず、どんな感じのソフトウェアか、画面をご覧下さい。

iZotope RX 全体像

波形とスペクトログラムとが重なって表示されます。右横にツールボタン、波形の下右側に表示・選択方法を指定するボタンがあります。使うのはこの辺りです。

リップノイズの除去には、少なくとも二つのツールを使えます。ひとつは、Spectral Repairツールを使った個別除去、もう一つはMouse De-clickツールを使った一括除去です。各々をページを分けて解説します。


タグ:iZotope RX

Spectral Repairツールを使った個別除去

(この記事は「iZotope RXを使ったリップノイズの除去」の子記事です)

音声はAudacityによるノイズ除去と同じものを使います。まず、リップノイズを見つけなければいけません。スペクトログラムで5kHz位を中心に縦に濃く出ているのが恐らくリップノイズです。これを選択します。分りやすいところで3ヶ所、その内の最初の1.0秒辺りのノイズを除去します。

iZotope RX リップノイズの箇所

修復範囲選択の仕方は、時間範囲指定(Time selection)、周波数範囲指定(Frequency selection)、時間・周波数範囲指定(Time-frequency selection)、任意の囲み線(Lasso selection)などがありますが、時間・周波数範囲指定でいいでしょう。

iZotope RX 選択ツール

時間・周波数範囲指定のボタンをクリックし、ポインターで ノイズ部分を四角く囲みます。

iZotope RX ノイズ選択

次にツールを呼び出します。右側のツールボタンのSpectral RepairをクリックするとSpectral Repairウィンドウが開かれます。

iZotope RX ツールメニューiZotope RX Mouse De-clickウィンドウ

Spectral RepairウィンドウでAttenuateタブをクリックします。パラメータがいくつかありますが設定は試行錯誤で最適な値を探してください。Renderボタンをクリックすればスペクトログラムで濃く出ている部分が弱められます。

iZotope RX ノイズ除去後

ノイズのあった箇所が周囲と同じように薄くなりました。これで、このリップノイズは除去されました。


タグ:iZotope RX

Mouse De-clickツールを使った一括除去

(この記事は「iZotope RXを使ったリップノイズの除去」の子記事です)

Mouse De-clickとは、とは「カチッ」というclick音、口から出るそれに近い音を除去する機能です。

これも修復範囲を選択しますが、一括除去が目的の場合は全範囲を指定することになります。ただしその場合でも、狭い時間範囲で効き具合を確認してから全範囲に適応した方がいいでしょう。今回は録音時間が短いので一気にやってしまいます。

iZotope RX ノイズ除去前

範囲を選択したら、ツールを呼び出します。右側のツールボタンのMouse De-clickをクリックするとMouse De-clickウィンドウが開かれます。

iZotope RX Mouse De-clickボタン RX Mouse De-clickウィンドウ

パラメータがいくつかありますが設定は試行錯誤で最適な値を探します。上手く設定しないと、除去されずに残ったり、やりすぎて音が籠(こも)ったりします。どうしても残るノイズがあれば、Spectral Repairで個別に除去します。

結果のスペクトログラムは以下の通りです。

iZotope RX リップノイズ除去後

音声を聴き比べてください。

ノイズあり
ノイズ一括除去処理後

また、Mouse De-clickツールでは、Output clicks onlyをチェックすることにより、除去したノイズの方を残すことができます。

iZotope RX リップノイズのみ

聴いてみてください。どれだけ除去されたか、気付かないレベルでもいかに多くのノイズが含まれているかがよく分かります。(かなりグロテスクです)



タグ:iZotope RX

音源の最適なレベルとは

PCで作成した音声ファイルのレベル(ここでは音量を指します。グレードの意味ではありません)はどのくらいが良いのでしょうか。乱暴に言ってしまうと「ほどよく充分な音量」ということになります。いやいや、具体的にどれくらいのレベルをどうやって設定すればいいのか分かりませんよね。以下、色々な事情を踏まえてご説明します。

低すぎてはいけない

まず、レベルが低すぎるのは困ります。聴く人が上げりゃあいいじゃないかという考えもありますが、現代のリスニング形態を考えると好ましくありません。昔は――たとえば1970年代、私たちはステレオ(オーディオ鑑賞システムをこう呼んでいました)のターンテーブルにレコード載せてスピーカーの前で正座して音楽を鑑賞していました。針を落として曲が流れ始めて「あ、ちょっと小さいかな」なんて思いながらアンプのボリュームを時計回りに回したりしていました。それはさほどやっかいな事ではありませんでした。しかし、デジタルの時代、音楽プレーヤーから色々な曲が次々に流れてくる度に音量を調整するなんてことやってられますか? 無理ですね。そう考えると各々の音源のレベルはある程度揃っていないと都合が悪いのです。

時間の長い朗読の音源だとしても、やたら音量レベルの低い音源があったとしたらプレーヤーの音量をガッと上げて聴かなければいけません。そのあとで音量を戻し忘れて音楽を流したら爆音で心臓が飛び出そうになったなんてことがよくあります。これはたいへん迷惑です。やはり、世間が求める標準的なレベルに合わせるのが礼儀というものではないでしょうか。

なぜそんなにレベルの低い音源を作ってしまうのでしょうか。おそらく知らないからでしょう。その音源のレベルがどれくらいなのか、どの程度のレベルが最適なのかを。よく分からずになんとなくレベル設定していたり、あるいはレベルオーバーを恐れて低く設定しすぎたとかそういった原因なのでしょう。

高すぎる心配はあまりない

じゃあ、レベルが高すぎても駄目なのか。たしかにそうです。ただ、これはレベルが高すぎる音源が出来てしまう問題ではなく、録音や編集の段階で限界を超えて歪ませてしまう問題です。デジタルでは0dBという上限があるのでそれ以上は大きくしようがありません。ですから、0dBを超えないようにしつつノーマライズマキシマイズなどの方法で、目一杯でありながら高すぎないレベルの音源を作れるのです。

ノーマライズされた音源
ノーマライズされた目一杯のレベルの音源
今どきの基準

0dBの上限で目一杯上げてやろうというやり方は変わりつつあります。ラウドネス値という、人間の聴覚でどれくらいの音量で聞こえるかを数値化した測定方法が生まれ、さらにそれで測った基準値に統一しようという動きが少し前から出てきたのです。YouTubeだのSpotifyだののプラットフォームではラウドネス値の基準を設けて自動でレベル調整して再生するようになりました。

それを受けて私たちはどうすればいいでしょうか。こうしなさいという義務はありませんが、YouTubeなどにアップロードしたらこれぐらいに調整されますよというレベルを知っておいて、それくらいの値で自ら調整すればいいのではないかと私は考えます。それを判断するラウドネス値の単位はLUFSというやつですが、具体的には、YouTubeやSpotifyの基準である-14LUFSを目安にすればいいのではないでしょうか。ただし、音楽などの音がいっぱい詰まった音源でもその音量ですから、声だけの音源ならばもっと低くていいのではないかと思います。音楽と同じ強さで話し声が聞こえるとうるさいですよね。それを踏まえて、私はいつも-18LUFSという値で調整しています。

どうやって調整するか

最近は波形編集ソフトにはラウドネス値を測定したり設定した値になるように調整したりする機能が付いています。標準で付いていなくても外部のプラグイン(Youlean Loudness MeterとかTBProAudio dpMeter)をインストールできます。Audacityの場合は[エフェクト] - [Loudness Normalization]でラウドネスの調整ができます。ただし、Audacityのこの機能で調整したレベルは、少なくとも私がいつも使っているツール(wavesの「WLM Meter」やAdobe Auditionの「ラウドネス一致」)で調整した場合よりも低くなるようで、お勧めしていいものかどうか悩ましいところではあります。

プラグインとかそんなの分からない、面倒だという方のために、適当に-18LUFSくらいに設定する方法をご紹介します。波形を見て「このくらいかな」といい加減に判断して調整するだけです。

-18LUFSの目安

-6dB、つまりピークの半分のラインから下がそれなりに詰まっていて、たまにラインを超えるくらい。人の喋りや読みなら、それくらいでだいたい-18LUFSくらいのラウドネス値になります。