recognizingの話の続き
「音楽を聞き取れる人、特に和音を聞き取れる人が
実際に聞き取りをしているときの感覚は
"聞き取っている" というよりも"知っている"とか"知っていた"、
みたいな感覚に近いですよ」
に加えて、最近よく口癖のようにお弟子さんに言ってしまうことで、
「音楽ってのは語学みたいなもんですからねぇ」
ってのがある。
なんとなくこれらがリンクしたような気がしたのでメモしようかと思ったのが
このつぶやきの書きはじめだった。
語学のトレーニングで
shadowingってやつ?あれが狙っていることそのものなのではないか?と思ったのです。
(シャドーイング : 教材やネイティブの発音をなぞるように自分もいっしょに発音すること )
repeat after meではなくてshadowingを薦める語学の先生ってのはまさしくこの、
聞き取ってるんだか予測してるんだかよくわからん状態になっちゃいなさい、
って言ってるんだと思う。
母国語においては、我々は意識してないけど常に心の中でshadowingしているものだと思う。
こんな経験はないか?
知らない土地に行ったとき、知らない固有名詞、地名とか駅名とかって
日本語なのに聞き取れなくないですか?
これってshadowingが追従できなくなった瞬間をあらわしてるんだと思う。
言語においても我々の脳はアイウエオ単位の音を聞き取っているのではなくて、
もっと大きな単位で何かを認識するらしい。
その"アバウトに大きな単位で認識できる能力"というのがおそらく大事なことで
逆に、1音単位で超正確に測定できるコンピュータは言語も音楽も認識できない。
apple (
ǽpl) : りんご
というスペルと日本語訳は私にとってただの知識であり本当の意味ではvocabularyではない可能性がある。
実際の会話では聞き取れない可能性がある。アメリカのアクセントなら聞き取れるがヨーロッパのアクセントでは聞き取れないという可能性もある。
さらに、私の
ǽplの発音は世界中の誰にでも通じるものではないかもしれない。
つまり"正解"、"正確である"、ってそもそもなんなのさ?ということになりかねない。
あまりに正確で細かい単位で認識対象を定義してしまうと、認識という行為すらできなくなる。
音声認識のプログラムは学習のアルゴリズムなどを駆使して"正解"の幅を広げる努力をしているに違いない。
私たち人間は、
男性と女性で1オクターブ違うappleの発音を認識できるように、
訓練次第でピアノとギターの音色の違いとか、微妙なテンションノートの 違いを超えてCmajというコードを
なんとなく認識できるようになる、
どうやらそういう力を生まれ持って授かっているんじゃないかな、と思った。