日本語のニューラル音声によるテキスト読み上げ

この間のBuilに合わせてCognitive Servicesのアップデートがありました。

その中でニューラル音声によるテキスト読み上げ(Text to Speech)で対応ロケールが増えたという項目があり、見てみたら日本語もニューラル音声が増えていたので試してみました。(ちょっと前に仕事で触ったこともあり)

サンプルソースはこんな感じです。

設定で「SpeechSynthesisVoiceName」に対象音声をそれぞれ指定しているぐらいの差です。
これまでの通常音声は日本語だと3種類あってそのうちの1つ「ja-JP-HarukaRUS」を、ニューラル音声のほうでは「ja-JP-NanamiNeural」を指定します。

というわけで適当な文章を読み上げさせてみます。

サンプル文に難はありそうですが、文全体として結構自然な感じになったと思いませんか?
裏側はCognitive Servicesなので対象テキストと音声データが常にネットワーク上に流れるのでそのあたりは考慮しないといけませんが。(そのうちContainer対応するのを期待)

OS標準のナレーターなどもニューラル音声に代わってほしいですね。

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト /  変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト /  変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト /  変更 )

%s と連携中