キービジュアル

東京都立大学の「学び」を体験! ― 小野 順貴

Profile
小野 順貴 教授【先導研究者】
  【教員紹介】

システムデザイン学部 情報科学科

キーワード
音源分離, 音, センシング

聖徳太子のように10人の話を聞き分けるには?

イメージ1
音声認識は雑音の中では難しい

AI技術の進歩により、スマホでも実用レベルの音声認識が可能になりました。しかし、周囲にさまざまな音がある環境、例えば、にぎわうファストフード店では、音声認識はとても難しくなります。店員さんの声、ほかのお客さん同士の声、BGMなどが混じりあって聞こえてくるからです。一方人間は、こうした雑音が多い環境でも、特定の音声を聞き分ることができ、カクテルパーティー効果と呼ばれています。

聞きたい音を聞き分ける音の分離技術

雑音の中で特定の音だけを聞きたいときに用いられる機器としては、指向性マイクロホンがあります。あなたもテレビの収録現場などで、長く大きなマイクロホンが使われているのを見たことがあるでしょう。こうした指向性マイクロホンは、雑音の中でも特定方向の音を収録することができますが、逆にいえば、あらかじめどの方向に聞きたい音の発生源があるかを知らなければならず、さらにその方向にマイクロホンを向ける必要があります。これに対し、音の発生位置を事前に知らなくても、複数のマイクロホンを並べ、録音された混ざった音を処理してそれぞれの音を分離する、いわば音を聞き分ける技術を音源分離といいます。人間の耳は2つですが、マイクロホンは2つに限らず、もっとたくさん使うことができます。人間とは異なる仕組みですが、最新の音源分離技術を使えば、聖徳太子のように、10人が同時に話をしてもそれぞれの人の話を聞き分けることが可能になりつつあります。

音源分離の広がる応用

音源分離は音声認識に限らず、幅広い応用が期待されています。例えば補聴器が、さまざまな音の中から聞きたい声だけを増幅してくれたら、聴こえは大幅に改善するでしょう。音楽演奏を個々の楽器パートや歌声に分離することができたら、耳コピしたり、弾き間違いを修正したりすることが、より簡単にできるようになるでしょう。未来のスマートスピーカーは、複数の人が同時に話しかけても、ちゃんと聞き分けて対応してくれるようになるかもしれません。

光で音を見る? 新しい音のセンシングを切り拓く

イメージ1
音の情報を広い範囲で集めるには?

音は遠くに伝わるにつれて小さくなるので、マイクロホン1つで遠くの音をとらえるのは難しいです。広い範囲で音の情報をとらえ、処理するためには、マイクロホンを分散的にばらまくことができればよいのですが、これは簡単ではありません。通常のマイクロホンはオーディオケーブルでつながなければならず、配線が煩雑になりますし、ワイヤレスマイクロホンは、無線帯域の制約から使える数に限りがあったり、混線したりしてしまいます。

音の強さを光の明るさに変換する

近年、「光で音を見る」新しい音情報処理への取り組みが始まっています。この研究では、マイコンボードにマイクロホンとLEDを取り付け、音の強さを光の明るさに変換する「ブリンキー」という小型のセンサノードが開発されています。つまりブリンキーのLEDは、音が大きいと明るく、音が小さいと暗く光ります。また、ブリンキーはバッテリーも内蔵しており、ケーブルも無線接続も使わず、広範囲にばらまくことができます。ばらまかれたたくさんのブリンキーをビデオカメラで撮影すれば、広範囲での音の大きさの情報を一括して得ることができます。ビデオカメラの画素数は100万ピクセル以上が普通ですから、ブリンキーが100個あっても1000個あっても問題ありません。

ビデオカメラを使った音のセンシング応用

ブリンキーを利用し、広範囲の音情報をビデオカメラで得ることができるようになると、いままでとは全く違う音のセンシング応用が切り拓ける可能性があります。例えば、災害時にブリンキーをヘリコプターでばらまいてドローンカメラで見て回ることにより、助けを求めている人の声を見つけることができるかもしれませんし、工場内にブリンキーを配置すれば、監視カメラで機械の異常音を検出し、位置を特定することもできるでしょう。音の大きさの情報だけを用い、音声自体を記録しているわけではないので、プライバシーが保護され、高齢者の見守りなど、家の中で用いる応用にも安心して使うことができます。

高校生・受験生の皆さんへのメッセージ

人間にとって「音」はコミュニケーションの道具であると同時に、外界を認識する重要なメディアでもあります。人間は音声で意志を伝達しあい、音楽を楽しみ、音で周囲のさまざまな状況を知覚しています。人間のように高度な音情報処理の実現のため、これまで多数の研究が進められ、近年のAI技術により音声認識はついに実用レベルに達しました。次のステージでは音楽、そしてあらゆる音の認識へと移っていくでしょう。PCが音楽演奏を手伝ってくれたり、スマホが周囲の音を聞き、危険があれば教えてくれたりする日も近いかもしれません。


夢ナビ編集部監修