「ここまで津波は来ないだろう」——
その一言が、命を奪うことがある。
AIで“緊迫感のある避難放送”をつくる研究の話。
2011年3月11日、東日本大震災。多くの人が津波から逃げ遅れた背景に、避難の呼びかけが普段通りに丁寧で穏やかすぎたという指摘があった。 人には「自分は大丈夫」と思いたくなる正常性バイアスNORMALCY BIAS「ここまでは津波は来ない」「周りも逃げてないから大丈夫」と、危険な情報をつい軽く受け止めてしまう心理。普段通りのアナウンスは、このバイアスを強めてしまう。がある。それを覆すには、声そのものに“ただごとじゃない”という温度が必要だ。
茨城県大洗町では、防災無線の担当者が緊迫感のある声で叫ぶように避難を呼びかけた結果、多くの住民が避難し人的被害が抑えられた事例が報告されている。
震災から3か月後、NHKは全国のアナウンサーを集めて検討会を開催。「確実に伝わること」「行動を促すこと」「予断を与えないこと」の3点に絞り、普段とは違う強い口調で呼びかける方針を決めた。
そう。NHKアナウンサーは訓練を受けたプロ。津波が迫る極限状態で、自治体職員が冷静に「適切な緊迫感」を出すのはほぼ不可能。さらに——
そこでAI音声合成。事前に音声をつくっておけば、発話者の心理状態に左右されず、安定して「緊迫感のある呼びかけ」を出力できる。担当者の安全も確保できる。
能登半島地震の放送音声を分析すると、地震速報の声と津波警報の声には明確な違いがあった。声の高さや速さだけじゃない。アクセントACCENT言葉の中で特に強く・高く発音される部分。緊迫した声は「ここ強く!」というアクセントが頻繁に、しかも強く出る。の「数」と「強さ」が決定的に違ったのだ。
おだやかで聞き取りやすい。アクセントの山は6個ほどで、強さもそれぞれ控えめ。情報を冷静に正確に伝えるための話し方。
「緊急地震速報です。強い揺れに警戒してください。」
声の高さの全体ラインが高く、アクセントの山が10個ほど。文の最初に特に強い山が来るのが特徴。語尾までピッチを下げない=「ただごとじゃない」感が出る。
「今すぐ逃げること! 東日本大震災を思い出してください!」
使ったのは Style-Bert-VITS2STYLE-BERT-VITS2テキストから音声を作る最新のAIモデル。「同じ文章を、別の話し方で読ませる」ことが得意。話し方の特徴を“スタイルベクトル”という数字の束で扱う。 というAI音声合成モデル。 キモは、声の高さや速さを単純に上げるんじゃなくて、「叫ぶような声そのもの」を学習させること。
男子大学生1名に、防音室で「津波警報を真似た叫ぶような声」と「地震速報を真似た落ち着いた声」をそれぞれ約20分ずつ収録(合計約40分・計369個の音声サンプル)。
音声をメルスペクトログラム(音の指紋画像)に変換し、スタイルベクトルSTYLE VECTOR「声のクセ」「話し方の特徴」をまとめた256個の数字の組。同じスタイルの音声から平均を取れば、そのスタイルの“代表値”が決まる。として256次元の数字に。叫ぶ声と落ち着いた声の特徴がそれぞれ別の場所に集まる。
テキストとスタイルの“代表値”をAIに入れれば、その文章を指定したスタイルで読み上げる音声が出力される。同じ文章を「叫ぶ声」「落ち着いた声」の両方で作れるのがこの手法の真価。
評価には、実際のNHKアナウンサーの放送音声を学習させたAI判定システムを使った。「高緊迫」「低緊迫」「それ以外」の3択で機械的にジャッジ。人間の好みに左右されない客観的なテストだ。
「災害」と「AI」、一見遠いふたつをつなぐのに、いろんな学問の引き出しが必要だった。気になる分野があったら、その先に大学の学部や学科がある。
Style-Bert-VITS2のようなディープラーニングを使った音声合成モデル。ランダムフォレストで音声を分類する仕組みも、この分野の応用。
声を「数字」として扱う技術。MFCC、基本周波数(F0)、メルスペクトログラムなど、声の特徴を取り出す方法を学ぶ。
どうすれば人は避難するのか。情報の伝え方、放送のタイミング、避難経路設計。社会と工学の境界にある分野。
正常性バイアスや同調バイアスなど、人が「逃げない」理由を解き明かす学問。声のトーンが行動に与える影響もここ。
藤崎モデルのように、声の高さの変化を数式で表す研究。物理の波・微分方程式・フーリエ解析が活きる。
NHK放送ガイドラインのように、「公共放送はどう伝えるべきか」を考える分野。報道倫理と人命救助のバランスを問う。