パッチワークでAIアシスタントを作ろう

毎年恒例 meetup app osaka@9 でAIアシスタントぽいのを作る話をしてきました。

大阪でやってる割とゆるいイベントで、なんとなくみんな好きな技術の話とかする会です。今回も濃い話が多くておもしろかったです。

自分はというと数年越しにAIアシスタントぽいのを作った話をしてきました。詳細はスライド見てもらうとして、補足など。

まずは紹介したツールです。

で、パッチワークということでこれらを組み合わせて以下のような感じに。セッションでも話ましたけど目的によってはこんなにややこしくする必要はないですね。

image

準備は割と面倒ですがそれっぽい動きにはなりました。あとはもうちょっとレイテンシー下げたいですね。ローカルのSLMとかも組み合わせたり活用したい。STT/TTSの処理を個別に挟まない、音声 → LLM(Realtime API)→ 音声がネットワーク越しでも早いんだよなぁ。。

ちなみに会話用クライアントの部分は Azure OpenAI Service Realtime Audio SDKのサンプルをカスタマイズしたものを使ってます。

元がMITライセンスのものを使って弄ったのを公開するときのライセンスどうするのかぱっと思いつかなかったのでForkして追加しました。(TTSの部分増やしたりコマンドラインツールとして使いやすくしたりした程度です)

せっかく買ったLooking Glass Goも活用していければなぁ~

image

という感じでした。

コメントを残す