この間のBuilに合わせてCognitive Servicesのアップデートがありました。
その中でニューラル音声によるテキスト読み上げ(Text to Speech)で対応ロケールが増えたという項目があり、見てみたら日本語もニューラル音声が増えていたので試してみました。(ちょっと前に仕事で触ったこともあり)
サンプルソースはこんな感じです。
設定で「SpeechSynthesisVoiceName」に対象音声をそれぞれ指定しているぐらいの差です。
これまでの通常音声は日本語だと3種類あってそのうちの1つ「ja-JP-HarukaRUS」を、ニューラル音声のほうでは「ja-JP-NanamiNeural」を指定します。
というわけで適当な文章を読み上げさせてみます。
サンプル文に難はありそうですが、文全体として結構自然な感じになったと思いませんか?
裏側はCognitive Servicesなので対象テキストと音声データが常にネットワーク上に流れるのでそのあたりは考慮しないといけませんが。(そのうちContainer対応するのを期待)
OS標準のナレーターなどもニューラル音声に代わってほしいですね。