Cognitive

日本語のニューラル音声によるテキスト読み上げ

この間のBuilに合わせてCognitive Servicesのアップデートがありました。

その中でニューラル音声によるテキスト読み上げ（Text to Speech）で対応ロケールが増えたという項目があり、見てみたら日本語もニューラル音声が増えていたので試してみました。（ちょっと前に仕事で触ったこともあり）

Microsoft Translator APIですがCognitive Services配下になったりいろいろありましたが現在Translator Text APIはv3が提供されています。

また古いv2 APIを使っている人はメールが来ていると思いますけど4末で終了となりますので注意が必要です。

v3への移行はエンドポイントの変更だけでなくAPIそのものも結構変わっているところがあって注意が必要です。特に要求・応答がXMLからJSONになったりしてるので。。認証周りも注意しましょう。

細かい点はv3のAPIリファレンスみてください。

あと気付いたのは繁体字と簡体字のカルチャー（BCP 47 言語タグ）がv2とv3で変わったっぽいので注意する感じでしょうか。（v3ではzh-Hantやzh-Hansを使う）

※/languagesでサポートされる言語一覧など得られるけどイラっと来るJSON…

という感じで注意しましょう。

先日の関西のイベントでLTしてきました。

Custom Vision APIで学習させたモデルがExportできるようになってるのですが、タイプでDockerFileが選べるので試してみたというネタです。