毎度恒例のMark Russinovich氏のセッションです。
最初はデータセンターの建屋とネットワークのところから。データセンターに行った時の写真。黄色いケーブルは上層と下層を繋ぐネットワークケーブル。地球4回巻けるぐらいの長さになるらしい。黒いのは液体冷却用かな。ラックの裏側のはEthとInfiniBand。宙ぶらりんのケーブルは怒られそうなやつ。赤シャツも居てジョークを言ってたらしいが元ネタがわからん。![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
サーバーの中身の話。Azure Boostから。伝統的なインフラからオフロードインフラへ。写真は実物。DRAMの真ん中にSoC(Arm)、DPUやFPGAも載ってる。Guest RDMAもある。去年のBuild時から1.4~2倍ぐらいストレージやネットワークの性能が上がってる。デプロイも今は33%ぐらい。![]()
![]()
![]()
ベアメタルインスタンスもご用意。そのうち提供されるかも。ND144、GB200が載ってる。リモートで入ってベアメタルなことを確認。![]()
![]()
![]()
次はMultipath Reliable Connection(MRC)なプロトコルの話。大量の機械学習とかモデルの分散トレーニング中に落ちたらチェックポイントまで戻っちゃうのでリンク切断されても落ちないような仕組み。デモは実際に落としても通信は大丈夫な感じ。![]()
![]()
![]()
![]()
![]()
![]()
![]()
RDMAもAzure Boostで直接的に。リモートで推論するのをTCP/IPでするとToken/secは3472ぐらい、RDMAにすると倍ぐらいになります的な。![]()
![]()
![]()
![]()
![]()
![]()
次はCore。Azure Container Instance。昨今CopilotやGitHub Actionsなど、色んなとkろで使われてる。単発で即起動・短期終了みたいな使われ方が多いかな。今までNested Hyper-V上とかでインスタンス作ってたけどDirect Virtualizationで直接VM立ち上げる感じに。![]()
![]()
![]()
![]()
![]()
デモではAzure Container InstanceのContainer Live Migrationを。Tickが途切れず別VM上に移っても継続できてる。
次はAI関連。Manifold。すべてのGPUプールを1つのGPUプールとして扱う。基盤になるCPUやGPU、FPGA/ASICも抽象化。サイズの違うモデルなどをうまく扱うために抽象化したかった感じかな。さらにDirect Virtualizationで効率的に。![]()
![]()
![]()
CPUポッドで見るとGPUがない。猫画像を推論させるのにCPUなポッドと分離したGPUポッドに直接接続して推論させる感じかな。![]()
![]()
![]()
![]()
![]()
![]()
次はトークンのキャッシュの話。謎PreviewなAzure Context Cache。![]()
![]()
デモは分散したりしたときのキャッシュのヒット率とかで効果を見る感じ。![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
次はACI ServerlessとAI Sandboxes。デモは1万コンテナーをサンドボックスとして立ち上げる。だいたい2秒弱ぐらいで起動します。![]()
![]()
![]()
![]()
![]()
![]()
次はセキュリティ。Confidential Computing関連。Live Migrationにも対応。![]()
![]()
![]()
![]()
![]()
![]()
Integrated HSM(Hardware Security Module)。最近AMD D/E v7シリーズに入ったやつがGAした。NCrypt API対応はもうすぐ。秒間18879リクエストの署名リクエストを捌ける。外に出ず安全に。![]()
![]()
![]()
最後は未来のお話。今回はProject MOSAICですね。高価で電気食うレーザーの代わりにMicroLEDを使って建屋内などの近距離通信に使おうというプロジェクトの話。![]()
![]()
![]()
![]()
![]()
![]()
という感じでした。