🎸 RESEARCH × HIGH SCHOOL

さわっていても、
音だけじゃ、わからない。だから、AI。

ギターの音を歪ませるエフェクター。その「つまみ」をどう合わせたか—— じつは、聞いただけではなかなか当てられません。この研究は、歪んだ音からつまみの設定をAIが推定します。しかも、誰も挑んでこなかった"本物のアナログ"ペダルで。

▶ 音 → AI → つまみ(Tone / Drive)の設定を言い当てる

SCROLL ↓

CHAPTER 01

なぜ、耳ではわからない?

好きな曲のギターの音色を再現したいとき、ギタリストはエフェクターの2つのつまみ—— Drive(歪みの量)とTone(音の明るさ)——を、試行錯誤で合わせます。でも、これがなかなか当てられない。理由は、音の中で2種類のちがう現象が混ざっているからです。

歪みは「非線形」

Driveを上げると波形がつぶれて歪みます。これは入力に素直に比例しない非線形 NON-LINEAR / 非線形 入力を2倍にしても、出力は2倍にならない関係。少し変えただけで音が大きく・不規則に変わるので、先が読みにくい。な変化。少し回しただけでも、音が一律でなく劇的に変わります。

明るさは「線形」フィルタ

一方の Tone は、高い音を削る・残すといった線形 LINEAR / 線形 入力に素直に比例する、すなおな関係。Toneの明るさ調整(フィルタ)はこちら寄りで、Driveの歪みとは性質がちがう。なフィルタの動き。Driveの歪みとは、まったく別の性質の変化なんです。

混ざると、法則がありそうで、ない

非線形(Drive)と線形(Tone)が組み合わさり、しかもつまみのカーブ自体もまっすぐではない。だから「この音ならこの設定」という法則が、あるようで、ない。

聞くほど、迷ってくる

違いはほんのわずか。だから聞き比べるほど、かえって自信がなくなる。ふだんギターをさわっている人でも、音だけで設定を言い当てるのは難しいのです。

CHAPTER 02

"本物"のペダルは、
別物だった。

じつは「音からエフェクターの設定を当てる」研究は、これまでもありました。でも対象はすべてデジタル(パソコンの中のソフト)。本研究は、多くのギタリストが実際に使う 本物のアナログ・ペダル(BOSS OD-3)に、はじめて挑みました。FIRST

これまで:デジタル

設定が数値。同じ条件をきっちり再現できる
きれいなデータが大量に作れる
ただしデジタル特有のノイズが、推定の"手がかり"に混じる恐れも

扱いやすいぶん、現実のペダルとはどうしてもズレが残る。

本研究:アナログ実機

つまみに目盛りがなく、同じ設定を正確に再現できない
電源の状態や部品の個体差で、音が微妙に揺らぐ
そもそも「データを正確に録ること」自体がむずかしい

この"アナログの難しさ"をどう乗り越えるかが、研究の勝負どころ。

CHAPTER 03

どうやって、解いた?

アナログの「揺らぎ」と「目盛りのなさ」を、データの録り方と"あえての大ざっぱさ"で乗り越えました。

🎚️

回しながら録音

目盛りがないので、つまみを最小→最大まで約20秒かけて連続で回しながら録音。0%と100%で少し止めて、基準にします。

🧹

ノイズを消す

録音にのる機材や電源の雑音をウィーナーフィルタ WIENER FILTER 録音にのる定常的なノイズを、統計的に差し引いて消す方法。いちばんノイズの大きい地点から雑音の"型"をとって除去する。で除去。音色はそのまま、雑音だけを引きます。

🔢

音を「特徴」に

0.2秒ごとに切って MFCC MFCC(メル周波数ケプストラム係数) 音色の特徴を数値の並びにしたもの。AIが「音色のちがい」を扱いやすくする定番の特徴量。に変換。クリーン音とエフェクト音の2枚を CNN CNN(畳み込みニューラルネットワーク) 画像認識などで強いAI。ここでは音色の特徴の"模様"を学んで、つまみの段階を見分ける。へ入れます。

🎯

11段階に分類

0〜100をぴたり当てる回帰 回帰と分類 数値そのものをぴたり当てるのが「回帰」、いくつかの段階に振り分けるのが「分類」。本研究は0,10,…,100の11段階の分類にした。ではなく、0,10,…,100の11段階に「分類」。これがカギでした。

💡 "あえて大ざっぱに"が効いた

最初は数値をぴたり当てる「回帰」で挑みましたが、誤差が大きくなりがちでした。そこで 0〜100 を 11段階に振り分ける「分類」に変えたところ、アナログ特有の微妙な揺らぎを受け流せて、かえって安定して当たるように。正確さを欲張らず、少し粗くまとめる——それがアナログを攻略する決め手でした。

CHAPTER 04

どれくらい、当たった?

学習に使った音(ギター1弦開放の「ミ」=E4)でテストした結果、つまみの目盛り(0〜100)に対する平均の誤差は——

Drive(歪み)の誤差

3.8

0〜100中・約4%のズレ

Tone(明るさ)の誤差

4.4

0〜100中・約4%のズレ

📏 平均誤差(MAE)の比べっこ

0〜100の目盛りでの平均的なズレ。短いほど高精度。デジタルを対象にした先行研究との比較。

先行研究(デジタル対象)約5.0

5.0

本研究・Drive(実機アナログ)3.8

3.8

本研究・Tone(実機アナログ)4.4

4.4

むずかしいはずの実機のアナログなのに、デジタルを対象にした先行研究とほぼ同等の精度。「11段階の分類」作戦が効きました。

🔍 得意なこと・まだ苦手なこと(正直なところ)

うまく当たるのは、学習した音程の前後 ±5半音くらいの範囲。それを外れた音程はまだ苦手です。

とくに Tone(線形フィルタ)は、音程を単純に変換するとフィルタの形までズレてしまい、当てにくい。一方 Drive(非線形の歪み)は、音程のデータを増やす工夫で精度が上がりました。今後は「フィルタを一度外してからデータを増やす」「弾く強さや音量のちがいにも対応する」といった改良が課題です。

ぴたり当てにいくより、
ざっくり分ける。

正確さを欲張らず、11段階に粗くまとめる。
その"あえての大ざっぱさ"が、アナログの揺らぎを受け流して、かえって正確に届いた。

「実機のアナログは無理」と思われていた壁を、データの録り方と発想の転換で越えた——その最初の一歩です。

CHAPTER 05

この研究、
どんな学問でできてる?

「ギターとAI」の話に見えて、信号処理から電気回路まで、いろんな分野が交差しています。

🧠

ディープラーニング・AI

CNNで音色の特徴を学ぶ。"回帰か分類か"という問題の立て方そのものが、精度を左右しました。

📈

信号処理

波形やMFCC、ノイズ除去フィルタ。音という波から、必要な特徴だけを取り出す技術です。

⚡

電気回路・音響工学

オペアンプやダイオードが生む"非線形なクリッピング"。歪みの正体は、回路の物理にあります。

🎸

音楽情報処理

ギター・エフェクト・音色をデータとして扱う。音楽制作(DTM)とも地つづきの分野です。

📊

データ分析・統計

誤差(MAE)や正解率で性能を測り、どこが得意・苦手かを客観的に見極めます。

🛠️

実験・データ設計

「揺らぐ実機からどう正確なデータを録るか」。測り方そのものを設計する力が問われます。

さわっていても、音だけじゃ、わからない。 だから、AI。

なぜ、耳では わからない?

歪みは「非線形」

明るさは「線形」フィルタ

混ざると、法則がありそうで、ない

聞くほど、迷ってくる

"本物"のペダルは、別物だった。

どうやって、解いた?

回しながら録音

ノイズを消す

音を「特徴」に

11段階に分類

💡 "あえて大ざっぱに"が効いた

どれくらい、当たった?

📏 平均誤差(MAE)の比べっこ

🔍 得意なこと・まだ苦手なこと(正直なところ)

ぴたり当てにいくより、 ざっくり分ける。

この研究、どんな 学問 でできてる?

ディープラーニング・AI

信号処理

電気回路・音響工学

音楽情報処理

データ分析・統計

実験・データ設計

さわっていても、
音だけじゃ、わからない。だから、AI。

なぜ、耳ではわからない?

"本物"のペダルは、
別物だった。

ぴたり当てにいくより、
ざっくり分ける。

この研究、
どんな学問でできてる?