🎹 PIANO × DEEP LEARNING

ピアノの「足の動き」を、
音だけで見破るAI。

プロのピアニストは、足元のペダルをミリ単位で踏み分けて音色を変えている。 ところが楽譜にも、人の耳にも、その繊細さは映らない。 ——それなら、ピアノ自身が鳴らした「音」から読み解いてしまおう。

AUDIO IN AI CNN+GRU PEDAL DEPTH
SCROLL ↓
CHAPTER 01

そもそも ペダルって、
そんなに繊細なの?

ピアノには足元に3本のペダルがある。中でも有名な サステインペダルSUSTAIN PEDALいちばん右にある、長く音を響かせるためのペダル。踏むと弦を止めるダンパーがすべて持ち上がり、音がふわっと伸びる。ソフトペダルSOFT PEDALいちばん左のペダル。踏むとハンマー(弦をたたく木)の位置が少しずれて、こもった柔らかい音になる。 は、ON/OFFじゃなくて踏み込む「深さ」で音色が連続的に変化する繊細な操作なんだ。

Q

楽譜を見れば、ペダルは分かるんじゃ?

楽譜のペダル記号はON/OFFだけ。実際の演奏では、ピアニストが楽譜にない場所でも自由にペダルを足したり、深さを変えたりしている。バロック時代の曲やポップスにはペダル記号自体ないこともある。

Q

耳で聞き分ければいいんじゃ?

サステインペダルのON/OFFくらいなら分かる場合もある。でも「ちょっと浅く」「半分くらい」「ぐっと深く」の違いを音だけで判定するのは、プロの演奏家でも難しい。人の耳には限界があるんだ。

Q

ソフトペダルって、そんなに変化する?

変化する。ハンマーの位置が数mmずれるだけで、高い倍音(音の成分)が減って、丸くやわらかい音に変わる。でも単音で聞くと違いは微妙で、グラフで見て初めて「あ、確かに変わってる」と気づくレベル。

Q

じゃあ、なんで深さを知りたいの?

名演奏を「コピー」したり、自分の演奏を客観的に分析したり、AIに上手な演奏を学習させたり——応用先はいろいろ。でもデータがないと何も始まらない。だから「どうやって深さを測るか」が研究テーマになる。

CHAPTER 02

楽譜と 実演奏
ペダルはこんなに違う。

左は「楽譜どおりに踏んだ場合」のペダル深度。記号はON/OFFしかないから、踏むか踏まないかの段差グラフになる。 右は「ピアニストが実際に演奏したとき」のペダル深度。なめらかな曲線で、微妙な踏み替えや深さの調整が見える。 この情報は、楽譜だけ・耳だけでは絶対に取れない。

楽譜どおり (ON/OFF)
ON OFF 時間 →

記譜できるのは「踏む」か「離す」かの2択だけ。深さも踏み替えのタイミングも表現できない。

実演奏 (連続値)
1.0 0.0 時間 →

なめらかな曲線。「半分くらい踏んでスーッと戻して、また深く踏む」みたいな繊細な操作が見える。

CHAPTER 03

この研究の アイデア は、
たった3ステップ。

これまでの研究は「MIDI機構付きの特殊なピアノ」を使ってデータを集めていた。198時間ぶん!でもそんなピアノ、普通の人は持っていない。 この研究は——スマホとシールがあればOKという、めちゃくちゃシンプルな方法を考えた。

01

ペダルにシールを貼る

SOFT SUSTAIN

サステインとソフト、2つのペダルに違う色のシールを貼る。これがビデオで追いかける「目印」になる。

02

音と映像を同時撮影

CAMERA AUDIO + VIDEO

市販のビデオカメラで、ペダルを横から撮りながら音も録音。映像からシールの位置を追えば「深さ」が、音は学習データになる。

03

AIに「音→深さ」を学ばせる

CNN + GRU

音から 特徴量MFCC / LOG-MEL音をAIが扱いやすい数字の並びに変換したもの。今回は特に音色のクセを表す「MFCC」が良い結果に。 を取り出し、深層学習モデル(CNN+双方向GRU)で「この音色なら深さこのくらい」を学ばせる。

CHAPTER 04

で、結果は どうだった?

テストデータ約5分ぶんに対して、AIが推定したペダル深度と、実際の深度を比べた。 評価には誤差を測る指標 RMSEROOT MEAN SQUARED ERROR「予測と正解の差」を二乗して平均し、ルートを取った値。要するに「平均してどれくらいズレてるか」。0に近いほど優秀。MSEMEAN SQUARED ERRORRMSEの中身、ルートを取る前の二乗誤差の平均。論文どうしの比較で使われる。 を使った。

📊 サステインペダル深度推定の精度比較 (MSE / 小さいほど良い)

従来研究 (Fangら, 2025)0.0425
0.0425
本研究 (MFCC + CNN + GRU)0.0363
0.0363

※ 従来研究は198時間のMIDI付きピアノデータを使用。本研究はビデオ撮影だけで作った2時間ぶんのデータ。

SUSTAIN PEDAL — RMSE
0.191
↘ 従来研究を上回る精度

サステインペダルの踏み込み深さ(0〜1)を、平均誤差0.19程度で推定できた。

SOFT PEDAL — RMSE
0.202
★ 世界初の連続値推定

これまで誰もやっていなかったソフトペダル深度推定を実現。MIDI 1.0では0か1かしか取れない情報を、連続値で取れた。

🎯 実際の推定結果(サステインペダル)

1.0 0.0 時間(フレーム) →
正解(ビデオから計測)
AIの推定値

踏み込みのタイミングと大まかな上下動はしっかり追えている。ただし「いちばん深く踏み込んだ瞬間」だけは少し控えめに見積もる傾向があった——これは学習データに深い踏み込みが少なかったせい。今後の改善ポイント。

楽譜にも、耳にも残らなかった
ピアニストの 指先ならぬ足先 の表現を、
音だけで取り戻す。

この研究の本質は「特殊な機器なしで、誰でも自分のピアノで研究を始められる」という間口の広さにある。 高価なMIDI付きピアノを買わなくても、シールとカメラがあれば自分の演奏を分析できる時代がやってきた。

音楽 × AI のフロンティアは、まだまだ広い。

CHAPTER 05

この研究、どんな 学問 でできてる?

ピアノペダルの研究、と聞くと「音楽の研究?」と思うかもしれない。 でも中身は、信号処理・機械学習・物理・画像処理・音楽理論——いろんな分野のクロスオーバーで成り立っている。 高校生が「自分の好きな道」を考えるヒントになるかも。

🎵

音響信号処理

音をコンピュータが扱える数字に変換する技術。MFCCやスペクトログラムは、音声認識や音楽推薦にも使われている基礎技術。

🧠

深層学習(AI)

CNN(画像系)とGRU(時系列系)を組み合わせる発想。AIの「組み合わせ方」自体がデザインする対象になる、奥が深い分野。

📷

画像処理 / コンピュータビジョン

映像からシールの色を検出して、重心座標を追いかける。スポーツ解析やロボットの目とも同じ技術がベースになっている。

🔬

音響物理学

ピアノの弦・ダンパー・ハンマーの仕組み、倍音、共鳴。なぜソフトペダルで音色が変わるのか?は物理の話。

🎼

音楽情報学

楽譜・演奏・楽曲をデータとして扱う比較的新しい学問領域。AI作曲・自動採譜・演奏分析など、応用先がとても広い。

📊

統計 / データサイエンス

誤差をどう測るか(RMSE/MSE)、クラスのバランス、損失関数の設計——どんな研究も最後は「数字でどう評価するか」が肝心。