AIで「緊迫感のある避難放送」をつくる研究

CHAPTER 01

なぜ「やさしい呼びかけ」では
人は逃げないのか?

2011年3月11日、東日本大震災。多くの人が津波から逃げ遅れた背景に、避難の呼びかけが普段通りに丁寧で穏やかすぎたという指摘があった。人には「自分は大丈夫」と思いたくなる正常性バイアスNORMALCY BIAS「ここまでは津波は来ない」「周りも逃げてないから大丈夫」と、危険な情報をつい軽く受け止めてしまう心理。普段通りのアナウンスは、このバイアスを強めてしまう。がある。それを覆すには、声そのものに“ただごとじゃない”という温度が必要だ。

声のトーン、そんなに大事?

茨城県大洗町では、防災無線の担当者が緊迫感のある声で叫ぶように避難を呼びかけた結果、多くの住民が避難し人的被害が抑えられた事例が報告されている。

→ 同じ「逃げて」でも、声の張りで結果が変わる

NHKは何をしたの?

震災から3か月後、NHKは全国のアナウンサーを集めて検討会を開催。「確実に伝わること」「行動を促すこと」「予断を与えないこと」の3点に絞り、普段とは違う強い口調で呼びかける方針を決めた。

→ 2024年・能登半島地震で絶叫に近い呼びかけが実現

でも普通の人には無理では?

そう。NHKアナウンサーは訓練を受けたプロ。津波が迫る極限状態で、自治体職員が冷静に「適切な緊迫感」を出すのはほぼ不可能。さらに——

→ 呼びかけ続けた職員自身が犠牲になった例もある

じゃあ、どうする?

そこでAI音声合成。事前に音声をつくっておけば、発話者の心理状態に左右されず、安定して「緊迫感のある呼びかけ」を出力できる。担当者の安全も確保できる。

→ この研究が目指したゴール

CHAPTER 02

そもそも、
「緊迫感のある声」って何が違う?

能登半島地震の放送音声を分析すると、地震速報の声と津波警報の声には明確な違いがあった。声の高さや速さだけじゃない。アクセントACCENT言葉の中で特に強く・高く発音される部分。緊迫した声は「ここ強く!」というアクセントが頻繁に、しかも強く出る。の「数」と「強さ」が決定的に違ったのだ。

🌊 地震速報の声 CALM

おだやかで聞き取りやすい。アクセントの山は6個ほどで、強さもそれぞれ控えめ。情報を冷静に正確に伝えるための話し方。

「緊急地震速報です。強い揺れに警戒してください。」

🚨 津波警報の声 URGENT

声の高さの全体ラインが高く、アクセントの山が10個ほど。文の最初に特に強い山が来るのが特徴。語尾までピッチを下げない=「ただごとじゃない」感が出る。

「今すぐ逃げること! 東日本大震災を思い出してください!」

アクセントのエネルギーを比較すると、津波警報は地震速報の
×1.78倍
(津波警報 13.90 / 地震速報 7.83 — 藤崎モデルによる分析)

CHAPTER 03

AIにどうやって
「緊迫感」を覚えさせた?

使ったのは Style-Bert-VITS2STYLE-BERT-VITS2テキストから音声を作る最新のAIモデル。「同じ文章を、別の話し方で読ませる」ことが得意。話し方の特徴を“スタイルベクトル”という数字の束で扱う。というAI音声合成モデル。キモは、声の高さや速さを単純に上げるんじゃなくて、「叫ぶような声そのもの」を学習させること。

叫ぶ声 vs
落ち着いた声を録音

男子大学生1名に、防音室で「津波警報を真似た叫ぶような声」と「地震速報を真似た落ち着いた声」をそれぞれ約20分ずつ収録(合計約40分・計369個の音声サンプル)。

声の特徴を
256個の数字に変換

音声をメルスペクトログラム(音の指紋画像)に変換し、スタイルベクトルSTYLE VECTOR「声のクセ」「話し方の特徴」をまとめた256個の数字の組。同じスタイルの音声から平均を取れば、そのスタイルの“代表値”が決まる。として256次元の数字に。叫ぶ声と落ち着いた声の特徴がそれぞれ別の場所に集まる。

新しい文章を
そのスタイルで読ませる

テキストとスタイルの“代表値”をAIに入れれば、その文章を指定したスタイルで読み上げる音声が出力される。同じ文章を「叫ぶ声」「落ち着いた声」の両方で作れるのがこの手法の真価。

CHAPTER 04

で、本当に
緊迫してる声になった?

評価には、実際のNHKアナウンサーの放送音声を学習させたAI判定システムを使った。「高緊迫」「低緊迫」「それ以外」の3択で機械的にジャッジ。人間の好みに左右されない客観的なテストだ。

📊 「高緊迫」と判定された割合(100件中)

大学生が叫んで録音した声 89件

89%

AIが合成した高緊迫の声 97件

97%

驚くことに、AIの合成音声の方が、お手本の録音音声よりも“高緊迫っぽい”と判定された。これは、AIがスタイルの平均を取ることで、ノイズや揺らぎを抑えて安定した緊迫感を出せたから。

合成音声 vs 録音音声の精度

97%

↑ 録音音声(89%)を上回る精度

高緊迫スタイルを付与した合成音声100件のうち97件が「高緊迫」と正しく判定された。

高緊迫 vs 低緊迫のアクセント強度差

×1.59倍

↑ アクセントエネルギーが大幅増

同じ文章でも、高緊迫スタイルは39.35、低緊迫は24.67(30発話の総量比)。声を“高くしただけ”ではない違いが数字で出た。

従来手法(声を高く・速くするだけ)の評価

3.49/5

↓ 信頼性が0.49ポイント低下

声の高さを1.2倍・話速を1.25倍にすると、緊急性は上がっても聞き取りやすさと信頼性が悪化していた。

録音音声の総時間と発話数

369個

高緊迫169 + 低緊迫200

防音室で大学生1名が約40分かけて収録。AIが「緊迫感の正解」を学ぶ教材になった。

この研究の本当の意味は、
「叫ぶAI」をつくることじゃない。
呼びかける人と逃げる人、
その両方の命を守ること。

東日本大震災では、防災無線で避難を呼びかけ続けた職員が津波の犠牲になった事例があった。もし町長や信頼できる地域のリーダーの声を事前にAIに学習させておけば、その人本人が安全な場所にいながら、その人の声で住民に避難を呼びかけられる。

呼びかけ担当者の安全確保と、住民への訴求力の向上を両立する——
それがこの研究のたどり着いた、もう一つのゴールだ。

※ ただし「叫ぶ声」の再現は得意でも、「落ち着いた声」の再現は今後の課題。微妙な揺らぎや息づかいの表現に課題が残る。

CHAPTER 05

この研究、
どんな学問でできてる?

「災害」と「AI」、一見遠いふたつをつなぐのに、いろんな学問の引き出しが必要だった。気になる分野があったら、その先に大学の学部や学科がある。

🤖

機械学習・AI

Style-Bert-VITS2のようなディープラーニングを使った音声合成モデル。ランダムフォレストで音声を分類する仕組みも、この分野の応用。

🎙️

音響工学・音声処理

声を「数字」として扱う技術。MFCC、基本周波数(F0)、メルスペクトログラムなど、声の特徴を取り出す方法を学ぶ。

📡

防災・減災工学

どうすれば人は避難するのか。情報の伝え方、放送のタイミング、避難経路設計。社会と工学の境界にある分野。

🧠

認知心理学

正常性バイアスや同調バイアスなど、人が「逃げない」理由を解き明かす学問。声のトーンが行動に与える影響もここ。

📐

信号処理・数理工学

藤崎モデルのように、声の高さの変化を数式で表す研究。物理の波・微分方程式・フーリエ解析が活きる。

📺

メディア・コミュニケーション学

NHK放送ガイドラインのように、「公共放送はどう伝えるべきか」を考える分野。報道倫理と人命救助のバランスを問う。

もしも、あの声が 違っていたら。

なぜ「やさしい呼びかけ」では人は逃げないのか?

声のトーン、そんなに大事?

NHKは何をしたの?

でも普通の人には無理では?

じゃあ、どうする?

そもそも、「緊迫感のある声」って何が違う?

AIにどうやって「緊迫感」を覚えさせた?

叫ぶ声 vs落ち着いた声を録音

声の特徴を256個の数字に変換

新しい文章をそのスタイルで読ませる

で、本当に緊迫してる声になった?