ギターの音を歪ませるエフェクター。その「つまみ」をどう合わせたか—— じつは、聞いただけではなかなか当てられません。 この研究は、歪んだ音からつまみの設定をAIが推定します。しかも、誰も挑んでこなかった"本物のアナログ"ペダルで。
好きな曲のギターの音色を再現したいとき、ギタリストはエフェクターの2つのつまみ—— Drive(歪みの量)とTone(音の明るさ)——を、試行錯誤で合わせます。 でも、これがなかなか当てられない。理由は、音の中で2種類のちがう現象が混ざっているからです。
Driveを上げると波形がつぶれて歪みます。これは入力に素直に比例しない 非線形 NON-LINEAR / 非線形 入力を2倍にしても、出力は2倍にならない関係。少し変えただけで音が大きく・不規則に変わるので、先が読みにくい。 な変化。少し回しただけでも、音が一律でなく劇的に変わります。
一方の Tone は、高い音を削る・残すといった 線形 LINEAR / 線形 入力に素直に比例する、すなおな関係。Toneの明るさ調整(フィルタ)はこちら寄りで、Driveの歪みとは性質がちがう。 なフィルタの動き。Driveの歪みとは、まったく別の性質の変化なんです。
非線形(Drive)と線形(Tone)が組み合わさり、しかもつまみのカーブ自体もまっすぐではない。だから「この音ならこの設定」という法則が、あるようで、ない。
違いはほんのわずか。だから聞き比べるほど、かえって自信がなくなる。ふだんギターをさわっている人でも、音だけで設定を言い当てるのは難しいのです。
じつは「音からエフェクターの設定を当てる」研究は、これまでもありました。 でも対象はすべてデジタル(パソコンの中のソフト)。本研究は、多くのギタリストが実際に使う 本物のアナログ・ペダル(BOSS OD-3)に、はじめて挑みました。FIRST
扱いやすいぶん、現実のペダルとはどうしてもズレが残る。
この"アナログの難しさ"をどう乗り越えるかが、研究の勝負どころ。
アナログの「揺らぎ」と「目盛りのなさ」を、データの録り方と"あえての大ざっぱさ"で乗り越えました。
目盛りがないので、つまみを最小→最大まで約20秒かけて連続で回しながら録音。0%と100%で少し止めて、基準にします。
録音にのる機材や電源の雑音を ウィーナーフィルタ WIENER FILTER 録音にのる定常的なノイズを、統計的に差し引いて消す方法。いちばんノイズの大きい地点から雑音の"型"をとって除去する。 で除去。音色はそのまま、雑音だけを引きます。
0.2秒ごとに切って MFCC MFCC(メル周波数ケプストラム係数) 音色の特徴を数値の並びにしたもの。AIが「音色のちがい」を扱いやすくする定番の特徴量。 に変換。クリーン音とエフェクト音の2枚を CNN CNN(畳み込みニューラルネットワーク) 画像認識などで強いAI。ここでは音色の特徴の"模様"を学んで、つまみの段階を見分ける。 へ入れます。
0〜100をぴたり当てる 回帰 回帰 と 分類 数値そのものをぴたり当てるのが「回帰」、いくつかの段階に振り分けるのが「分類」。本研究は0,10,…,100の11段階の分類にした。 ではなく、0,10,…,100の11段階に「分類」。これがカギでした。
最初は数値をぴたり当てる「回帰」で挑みましたが、誤差が大きくなりがちでした。 そこで 0〜100 を 11段階に振り分ける「分類」に変えたところ、アナログ特有の微妙な揺らぎを受け流せて、かえって安定して当たるように。 正確さを欲張らず、少し粗くまとめる——それがアナログを攻略する決め手でした。
学習に使った音(ギター1弦開放の「ミ」=E4)でテストした結果、つまみの目盛り(0〜100)に対する平均の誤差は——
むずかしいはずの実機のアナログなのに、デジタルを対象にした先行研究とほぼ同等の精度。「11段階の分類」作戦が効きました。
うまく当たるのは、学習した音程の前後 ±5半音くらいの範囲。それを外れた音程はまだ苦手です。
とくに Tone(線形フィルタ)は、音程を単純に変換するとフィルタの形までズレてしまい、当てにくい。一方 Drive(非線形の歪み)は、音程のデータを増やす工夫で精度が上がりました。 今後は「フィルタを一度外してからデータを増やす」「弾く強さや音量のちがいにも対応する」といった改良が課題です。
「ギターとAI」の話に見えて、信号処理から電気回路まで、いろんな分野が交差しています。
CNNで音色の特徴を学ぶ。"回帰か分類か"という問題の立て方そのものが、精度を左右しました。
波形やMFCC、ノイズ除去フィルタ。音という波から、必要な特徴だけを取り出す技術です。
オペアンプやダイオードが生む"非線形なクリッピング"。歪みの正体は、回路の物理にあります。
ギター・エフェクト・音色をデータとして扱う。音楽制作(DTM)とも地つづきの分野です。
誤差(MAE)や正解率で性能を測り、どこが得意・苦手かを客観的に見極めます。
「揺らぐ実機からどう正確なデータを録るか」。測り方そのものを設計する力が問われます。