大きい声はそれだけで感情表現に見える。
逆に言えば、小さい声も同様に感情表現に見えるということ。
大きい声の感情とは、声を大きくする時の感情と考えると、怒る時や驚く時がそうだろう。
逆に小さい声の感情とは、不安の時や自信がない時か。
で、何が言いたいかというと、単純に声の大小で、感情が表現されているように人間は感じてしまうという話。
聞き手側の人間が勝手に意味付けすると言っても良いかもしれない。
逆に言えば、声の大小で感情を表現できるとも言える。
声のパラメータと感情を対応させて考えてみる
音声読み上げソフト VOICEVOXだと、
- 話速
- 音高
- 抑揚
- 音量
- 開始無音
- 終了無音
の設定が可能だ。
個人的には他にぱっと思いつかないので、とりあえずこれを基本にしてみる。
つまり、上記の項目と感情を対応させることで、同じ発音でも感情を表現できるのではないか?という話。
例えば、怒っている時というのは、話速が少し速くなるだろうし、抑揚も出てくるだろうし、音量も大きそうだということ。
実際に試してみると確かに多少感情がのっているように感じるが
実際に試してみたところ、確かに多少感情がのっているようには感じる。
ただ、実際に人間が怒る時とは結構違いを感じてしまった。
ということは、上記以外に、怒りを表現するパラメータか、パラメータでは対応できないものがあるのかもしれない。
パラメータで対応できないものとしては、最初の入力段階、つまり用意されている発音にそもそも問題があるという可能性だ。
感情表現豊かなAI音声には喜怒哀楽の発音すべてが必要かも
これについては、多くの人がそうだろうなと思うかもしれない。
であれば、感情表現豊かなAI音声を作るには、通常の発音以外にも喜怒哀楽状態の発音が必要ということになる。
至極当たり前のことなのかもれないが、AI音声が人間の音声に近づきつつも、イコールになれない理由はこれが原因の可能性はあろう。
そして、これについては現在の技術でも対応できる可能性が高い。
もしかしたら、どこかが試しているのかもしれないけれど。