TOP > 研究活動 > 研究者総覧「情報知」 > メディア科学専攻 > 音声映像科学講座 > 武田 一哉

研究者総覧「情報知」

メディア科学専攻

氏 名
武田 一哉(たけだ かずや)
講座等
音声映像科学講座
職 名
教授
学 位
博士(工学)
研究分野
音響信号処理 / 音声・言語情報処理 / 行動信号処理

研究内容

音の情報科学
携帯電話やメモリプレイヤーなど、人間にとって最も身近な情報メディアである「音メディア」を中心に、情報通信、情報サービス、マンマシンインタフェース、など社会情報基盤の高度化に資する基礎技術の研究を行っている。研究の基礎となる方法論は、統計的信号処理手法であり、大規模な実世界データから知識や構造を抽出・モデル化することで、一見複雑で多様に見える人間の振る舞いや、人間を含むシステムを理解・再構成することを目指している。
大規模な実世界コーパス(データベース)の収集・構築に興味を持っており、これまでに自動車車内の音声対話に関する大規模なマルチメディアデータベースを作成した他、学外の研究機関との共同プロジェクトなどで、様々な音声データベースの構築を行ってきた。現在研究室のメンバと協力して取り組んでいる研究課題は、以下のとおり。
(1) 空間音響技術
音は波として複雑な反射・回折を経て空間内を伝播する。音源の情報だけでなく伝播に伴う空間的な特性(音源からの距離、音源の方向、音場の性質)は、音の知覚において重要な要素である。このような音伝播の特性をモデル化し、音源音に付加するとともに、その信号を適切に受聴者に呈示することで、音の空間的な印象を再現することが可能となる。
この空間音響再生技術の一手法として、HRTF(頭部音響伝達特性)の利用を研究している。これは、音源位置から受聴者の外耳道入り口までの音響伝達特性を、音源音に畳み込む方式である。我々は大規模にHRTFを計測し、これに基づく統計的な方法で個人毎、方向ごとのHRTFを精度良く推定することを可能とした。特に頭部周辺の近距離場のHRTFの計測技術と、計測データ量はともに世界最先端である。
(2) 音声信号処理
言語は音声で伝達されることを前提に発達しており、音声は人間にとって最も身近なコミュニケーション手段である。このため、人間・機械間のコミュニケーション手段として音声を用いることが期待されており、これを実現するための音声認識技術の研究を行っている。近年、大規模な計算が安価に実現可能となったことから、音声認識システムの基本性能は、大幅に向上し、例えば新聞記事の読み上げのように、言い回しや語彙のパタンが事前に学習可能である場合には、5%程度の単語誤りで連続音声を認識することが可能である。しかし、音声認識を実環境下で、情報機器とのインタフェースに適用するためには、雑音に対する耐性、発話文パタンの予測、などまだまだ困難な問題が多い。
そこで、雑音抑圧技術を中心に、音声認識技術の適用可能範囲を拡大するための研究を進めている。特に、走行自動車内の対話音声処理では世界最先端であり、世界最大規模の自動車内対話音声データベースを利用して、分散マイクロホンを用いたスペクトル回帰法、一般化ガンマ分布とそのオンライン推定に基づく最大事後確率法の高度化など、新しい雑音抑圧手法を提案している。
(3) 行動信号処理
音声信号処理の基本モデルであるソースフィルタモデルは、人間に関連して観測される様々な信号(行動信号)に、適用可能である。人間の行動は、認知・判断・行動といった、性質が異なりかつ各々が複雑な機構を持つ要素から構成されている。そこで、これまで音声信号処理に適用が試みられてきた、様々な統計的なアプローチを行動信号に適用することで、複雑な人間の振る舞いを還元的にモデル化するだけでなく、モデルパラメータを推定する方法を研究している。
これまで自動車の運転に付随するアクセルやブレーキの操作信号を観測し、それらの時系列パタンを混合ガウス分布を用いて運転者毎にモデル化することで、観測行動信号から運転者を識別する実験を行ってきた。識別性能の観点から、スペクトル解析を利用した運転者の行動モデルの妥当性を示すことに成功した。
音の情報科学

音の情報科学

経歴

  • 1985年 名古屋大学工学研究科博士前期課程(電気・電子専攻)修了、同年KDD(国際電信電話株式会社 現KDDI)入社
  • 1986年 国際電気通信基礎技術研究所(ATR)出向
  • 1988年~1989年米国MIT滞在研究員。1990年KDD研究所復職
  • 1995年名古屋大学工学研究科助教授。2003年 情報科学研究科教授

所属学会

  • 日本音響学会
  • 電子情報通信学会
  • 情報処理学会
  • IEEE

主要論文・著書

  1. Kazuya Takeda, Hakan Erdogan, John H. L. Hansen, Huseyin Abut (Eds.), In-Vehicle Corpus and Signal Processing for Driver Behavior, Springer-Verlag (2008)
  2. 西脇由博,宮島千代美,北岡教英,武田一哉, 確率的手法を用いた車線変更軌跡のモデル化 情報処理学会論文誌,Vol. 51, No.1, pp.131-140, 2010
  3. Kenta Niwa, Takanori Nishino, Kazuya Takeda, Selective Listening Point Audio based on Blind Signal Separation and Stereophonic Technology, IEICE Trans. on Infomation and Systems, vol.E92-D, no.3, pp.469-476 (2009.3)