6月13日(土)にMicrosoft関西支店のセミナールームをお借りしてAzure MLハンズオン勉強会を実施しました。
なおハンズオンそのものはMicrosoftの大田さんがデリバリしました。
なお自分はいろんな資料あつめて最近(だいたい//build/,Igniteあたり)のAzure Updateを話しました。
当日の資料等はこちら。
20150613 Azure最新Update
協調フィルタリングを利用した推薦システム構築
推薦システムを構築する手順書 with Azure Machine Learning
当日頂いた質問等はこちらです。(MLがらみはMS大田さんがほぼ回答しています)
- Q: Data Lake や Data Factory の話し聞きたい!
- A: 検討します
- Q: SQL Datawarehouse ってオンプレの DWH と何が違う?
- A: 例えばSQL ServerなどはPDWの機能があり今後にたような機能が提供されると思われます。SQL Data WarehouseはSaaSなのですぐに使えます
- Q: オンプレミスって、Azure Stack限定ですか?
- A: Azure Stack はオンプレミス(自社内サーバー)に Azure 環境を構築する製品です。その他にAzureの一部機能を模したものであればAzure Packもあります。
- Q: API Apps + Swagger の話し聞きたい
- A: 面白いと思います。要望が増えたらやりましょう
- Q: 学習データと評価データの分け方は何を基準に?
- A: 分割についての詳細はこちらの URL をご参照ください。
- Q: モデルの評価方法や検定方法は何がありますか
- A: こちらを参照してください。https://azure.microsoft.com/ja-jp/documentation/articles/machine-learning-algorithm-choice/
- Q: 機械学習には時系列分析もありますでしょうか?
- A: はい、金融の分野などで活用されているようです。
- Q: 資料P33のSplit機能について、学習用に75%、トレーニング用に25%と書かれていますが、Runするたびに全体からランダムに75%,25%と振り分けられるのですか?P34の説明だとランダムではなさそうに感じたので質問です
- A: split の分け方の詳細はこちらを参照してください。 https://msdn.microsoft.com/library/azure/70530644-c97a-4ab6-85f7-88bf30a8be5f
- Q: P22でクレンジングを2回に分かれているのは何故でしょうか?
- A: 1つめのクレンジングでは、重複データなどの削除、2つめのクレンジングでは映画のデータを100件に絞り込んで、現実的な時間内で処理が終わるようにしています。
- 論文のページはこちらです。http://research.microsoft.com/apps/pubs/default.aspx?id=79460
- Q: Launch column selector から複数の列を選択する場合、選択する順番は影響するのでしょうか?
- A: 影響しません。もともとのデータの列順を維持します。
- Q: joinのFullOuterJoinの説明がhelpに記載がないですがどいったものでしょうか?
- A: こちらを参照してください。 https://en.wikipedia.org/wiki/Join_(SQL)#Full_outer_join
- Q: パラメータとか、モデルの保存とか、いろいろ入力枠がありますが、日本語はどの程度使えるでしょうか。
- A: UTF-8ならおそらく問題ないと思いますが、環境依存文字などは入れないようにしてください。
- Q: 今のところ資料の通りにやっていますが、各モジュールに複数ある接続点に機能の違いがあるのですか?
- A: 機能の違いは、セッション中に紹介した Quick Help 内の (more help) を使って確認してください。
- Q: いろいろなアルゴリズムがあるけどどうすればよいか?
- A: “こちらを見ると便利です。http://azure.microsoft.com/ja-jp/documentation/services/machine-learning/ [アルゴリズム]-[選択する方法]
- https://azure.microsoft.com/ja-jp/documentation/articles/machine-learning-algorithm-choice/
- Q: Remove Duplicate Rowsにて今回の場合では複数の同じRowの中から、残す対象のRowを、例えばRatingのMax/Min/Meadiaとかで絞り込んで決めるめることはできますか、また平均値にするとか
- A: 現状では提供されていないようです。このモジュールの詳細はこちらを参照してください。なお、実現する場合には R, Python などで独自実装を検討してください。
- https://msdn.microsoft.com/library/azure/02016f47-e4c3-4a06-9ae5-16c747389e34
- Q: 学習データの数値データならば、分散が大きくなるように選ぶ方が良いと思いますが、学習データの多変数の数値データがある場合、分散(ばらつきが大きくなるように)が大きいデータ群をもちいた方がよいと思いますが、そのような分け方はできますか?
- A: データの分割方法はこちらを参照してください。現状では、[レコメンダー分割]の内部でうまいことご要望の動作をしているかもしれませんが、詳細な指定方法は内容です。そういった実装が必要な場合には、R, Python を使って独自モジュールを実装してください。
- https://msdn.microsoft.com/library/azure/70530644-c97a-4ab6-85f7-88bf30a8be5f
- Q: RMSE値と標準偏差の違いって何ですか?
- A: こちらを参照してください。
- http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1394399398
- Q: Azure ML でロト当てる方法教えて下さい
- A: 競馬ならあるみたいです http://introndatalab.com/blog/90
- 過去データを基に統計的に次の数字を予測するぐらいですかね
- あたり生成ロジック解析したらばっちりですね
- Q: P74ですが、info だったか detail だったか、何か押さないとJSONが見れませんでした。
- A: ありがとうございます。画面右下の [Detail]を押してご確認ください。
- Q: モデルの評価3の評価はないのでしょうか?
- A: 今回はつけていませんが、モデルの評価2と同じように設置してみてください。
- Q: ML Studio で出来ることを PowerShell や REST API で実現出来ますか?
- A: ML Studio でできることは現状では PowerShell, Rest API では実現できないです。
- Q: Windows10の完成度はどうですか?
- A: Win10 Build 10130でもまだまだ荒い。。。(by 非MS社員)
- Q: P.75 「アイテムが推薦されている」⇒「Azure ML 推薦システムデモが正しく動作する」の意味でしょうか?
- A: 75Pにそういった記述がないので、正しいページ数を教えてください。
(ただ、おそらく推測されている通りの答えです。) - Q: Azure MLの書籍のURLは?
懇親会ではなぜか漫談ぽくなってしまった、、、