フォルマントとは何か？‐nakano sound

2017.3.14更新　2017.3.14作成

話す人は声（＝空気の振動）を発し、聞き手は声（＝空気の振動）を聞き取る

人が会話をするとき、声という名の空気振動をキャッチボールしています。

人それぞれ違った個性の声を持っていますが、なぜ、相手が話している「あ」「い」「う」「え」「お」を「あ」「い」「う」「え」「お」と認識できるのでしょうか？

相手の声の何を聞き取って「あ」「い」「う」「え」「お」と認識しているのでしょうか？

声が出るメカニズム（かなりザックリとした説明）

下図のようなメカニズムで、声が出ます。

声帯で原音が発生し、それを喉、口、鼻で加工する（＝共鳴、増幅）ことにより、我々が普段耳にしている「声」となります。

この「喉、口、鼻での加工」によって、原音に「あ」「い」「う」「え」「お」の響きが付加され、「声」となります。

声帯での原音（喉頭原音）は、話し声で　男性平均100～150Hz、女性平均250～300Hzとされています。（本格的に統計を取ったわけではないと思うので、数値は目安としてください。）

フォルマントと「あ」「い」「う」「え」「お」の響き

声帯で生じた原音が喉、口、鼻で加工されることにより、音量が増幅されると同時に、倍音の特定の周波数において音量のピークができます。（下図）

引用　http://media.sys.wakayama-u.ac.jp/kawahara-lab/LOCAL/diss/diss7/S3_6.htm

このピークのことをフォルマントと言います。

低い方から、第一フォルマント、第二フォルマント、第三フォルマント、第四フォルマントと呼ばれ、F1,F2,F3,F4と表されます。

人間は、「あ」「い」「う」「え」「お」を、フォルマント（特に、F1とF2）によって認識しています。

「あ」を発するときのF1,F2、「い」を発するときのF1,F2、「う」を発するときのF1,F2、「え」を発するときのF1,F2、「お」を発するときのF1,F2、を聞き取ることによって、言葉を認識し、会話が成立しています。

F1とF2は下図のようにまとめられます。

引用　http://media.sys.wakayama-u.ac.jp/kawahara-lab/LOCAL/diss/diss7/S3_6.htm

また詳細は今後触れていきますが、例えば「あ」はF1が高く、F2が低い、「い」はF1が低く、F2が高いということが言える図になります。

上記のように
○声帯で発生した音が、喉、口、鼻で加工される
○加工されることによって、特定の周波数の音がピークとなる（＝フォルマント）
○人間はフォルマントを聞き取ることによって、言葉を認識する
ということになります。

【このページの参考文献】

ヨハンスンドベリ　歌声の科学（2007）
和歌山大学大学院システム工学研究科聴覚メディア研究室HP　http://media.sys.wakayama-u.ac.jp/kawahara-lab/LOCAL/diss/diss7/S3_6.htm