Microsoft Build 2025 – Inside Azure innovations with Mark Russinovich

今年もMark Russinovichセッションのお時間です。

Screenshot_2025_05_21-285

いつものAzureイノベーションの内側話ですね。
Screenshot_2025_05_21-286

最初はインフラ。伝統的なインフラからインフラをオフロードできるように。
Screenshot_2025_05_21-287Screenshot_2025_05_21-290

最新のAzure Boost的なやつ。(2年前にみたやつ1/2)ネットワークポートの2つは100Gbリンク。パフォーマンス周りは図の通り。2つのToRにつながってるのでルータの障害にも対応。すでにAzure Fleet(配備されてるホストコンピューター群でしょう)の20%で有効、GPUもHPCもサポートしてます。
Screenshot_2025_05_21-291Screenshot_2025_05_21-295Screenshot_2025_05_21-296

最大200Gbpsスループットで毎秒40万接続いける。ゲストRDMAも対応していくらしい。ゲストVM上のRDMAやGPUも対応できるように。分散AIトレーニングとかで活用できる。HPCでやってたようなメモリの一部をマップして別のVMのメモリバッファに直接ダンプしたりできるぽい。GPU DirectをサポートするGPUでもいける。
Screenshot_2025_05_21-300Screenshot_2025_05_21-302Screenshot_2025_05_21-307Screenshot_2025_05_21-309Screenshot_2025_05_21-310

ホストOSのpatch周り。Hot patchでいける部分は20ms未満に。ドライバーのHot Swapも対応できるようになって 1秒未満で対応。VM-PHU(Preserving Host Updates)はホストでアップデートが開始されるとゲストVMをサスペンドしてIOも止めてた。新しいやり方はパッチを充てる瞬間だけ仮想プロセッサ(VP)を止める方法みたい。
Screenshot_2025_05_21-317Screenshot_2025_05_21-319Screenshot_2025_05_21-320Screenshot_2025_05_21-321Screenshot_2025_05_21-322Screenshot_2025_05_21-323Screenshot_2025_05_21-324Screenshot_2025_05_21-325

デモでは従来のやり方だとpingがつながらない時があるけど自動サスペンド方式だとそのようなことは無くアップデートが終わる。
Screenshot_2025_05_21-326Screenshot_2025_05_21-334Screenshot_2025_05_21-336

AIワークロードにおけるストレージに対する要求は割と高い。学習時は画像やイメージなど大量にあるしモデルのチェックポイントを保存できないといけない、推論時は巨大なモデル(100~1000GB)をロードして数千~数十万台にデプロイする必要もある。
Screenshot_2025_05_21-338Screenshot_2025_05_21-341

デモではトレーニングデータがある領域をBlobfuse2で複数Blob(320台)をまとめてる。14TB/sでBlobに書き出して23Tb/sで読み出せる。
Screenshot_2025_05_21-342Screenshot_2025_05_21-343Screenshot_2025_05_21-344Screenshot_2025_05_21-348Screenshot_2025_05_21-349Screenshot_2025_05_21-350

次はクラウドネイティブ関連。まずはAzure Linuxから。Linuxをより安全に堅牢にする。LinuxGuradでOSは不変にしてコンテナーすら署名されていない信頼されないのは動作させない。
Screenshot_2025_05_21-351Screenshot_2025_05_21-353Screenshot_2025_05_21-354Screenshot_2025_05_21-355

デモは実際に署名されてるところとか、動作が許可されないところとかを。
Screenshot_2025_05_21-356Screenshot_2025_05_21-360Screenshot_2025_05_21-361Screenshot_2025_05_21-363Screenshot_2025_05_21-370

マルチテナントのホスト向けサンドボックスについて。使いやすいコンテナーやVMからもう一段細かくしてHypervisorで分離されたマイクロVMをWebAssemblyで動かすのがHyperlight。Azure Front Door Edge ActionsでHyperlightなMicro VMを動かす予定。
Screenshot_2025_05_21-374Screenshot_2025_05_21-376

デモはクライアントからアクセスされて画像を返すところをMicroVMなWasmを1msで立ち上げて違う画像を返す感じ。
Screenshot_2025_05_21-377Screenshot_2025_05_21-378Screenshot_2025_05_21-379Screenshot_2025_05_21-380Screenshot_2025_05_21-383Screenshot_2025_05_21-385Screenshot_2025_05_21-387Screenshot_2025_05_21-388

Azure Container Instanceについて。スタンバイプールが使えるようになった。2500コンテナx4台で1万コンテナーを2分ぐらいで起動。
Screenshot_2025_05_21-389Screenshot_2025_05_21-390Screenshot_2025_05_21-391Screenshot_2025_05_21-392Screenshot_2025_05_21-394Screenshot_2025_05_21-398

Azure Cincubationsの話。CNCFからKEDAは卒業、CopaはSandbox、Daprも卒業、RadiusはSandboxかな。Radiusはレシピを切り替えることで同じ構成のシステムを別の実行環境で動作させたりが簡単にできるやつかな。

Screenshot_2025_05_21-404Screenshot_2025_05_21-402Screenshot_2025_05_21-405Screenshot_2025_05_21-406Screenshot_2025_05_21-409Screenshot_2025_05_21-410Screenshot_2025_05_21-410Screenshot_2025_05_21-412

Screenshot_2025_05_21-413Screenshot_2025_05_21-414Screenshot_2025_05_21-416Screenshot_2025_05_21-417Screenshot_2025_05_21-419Screenshot_2025_05_21-421Screenshot_2025_05_21-422

DrasiはContinuous Query Patternな構成を作るためのフレームワーク的な。

Screenshot_2025_05_21-426Screenshot_2025_05_21-428Screenshot_2025_05_21-433

Confidential Computing。今となってはだいぶ浸透したかもね。GPUやネットワークもConfidentialに。デモは実際にアクセスできない(読みだせない)ところを。
Screenshot_2025_05_21-434Screenshot_2025_05_21-438Screenshot_2025_05_21-439Screenshot_2025_05_21-440Screenshot_2025_05_21-441Screenshot_2025_05_21-442Screenshot_2025_05_21-443Screenshot_2025_05_21-444Screenshot_2025_05_21-445

Screenshot_2025_05_21-446Screenshot_2025_05_21-447Screenshot_2025_05_21-448Screenshot_2025_05_21-451Screenshot_2025_05_21-452Screenshot_2025_05_21-454Screenshot_2025_05_21-455Screenshot_2025_05_21-457

新しいコンピューティングの話。世界初アナログ光学コンピューター。
Screenshot_2025_05_21-458Screenshot_2025_05_21-461Screenshot_2025_05_21-462Screenshot_2025_05_21-463Screenshot_2025_05_21-466Screenshot_2025_05_21-467

デモはアナログ光学コンピューターで数字の識別をさせてる。ニューラルネットワークの操作を全部光学でやってる!というところが重要。
Screenshot_2025_05_21-468Screenshot_2025_05_21-469Screenshot_2025_05_21-473

最後はおなじみモンスターマシン、VCPU1792個、メモリ30TBのタスクマネージャーのCPUグラフでインベーダーゲームするやつ。
Screenshot_2025_05_21-476Screenshot_2025_05_21-477Screenshot_2025_05_21-479

という感じの2025年BuildのMarkセッションでした。

Screenshot_2025_05_21-480

コメントを残す