関西でAzure MLハンズオン勉強会しました

2015/06/19 / buchizo

6月13日（土）にMicrosoft関西支店のセミナールームをお借りしてAzure MLハンズオン勉強会を実施しました。
なおハンズオンそのものはMicrosoftの大田さんがデリバリしました。

関西でもやってみよう！ Azure Machine Learning ハンズオン勉強会【JAZUG/関西Azure研究会】

なお自分はいろんな資料あつめて最近（だいたい//build/,Igniteあたり）のAzure Updateを話しました。

当日の資料等はこちら。

20150613 Azure最新Update

協調フィルタリングを利用した推薦システム構築

推薦システムを構築する手順書 with Azure Machine Learning

当日頂いた質問等はこちらです。（MLがらみはMS大田さんがほぼ回答しています）

https://onedrive.live.com/redir?resid=4A174CA4CD15DFAE!154986&authkey=!AMzWoWLQgnHJcus&ithint=file%2cxlsx

Q: Data Lake や Data Factory の話し聞きたい！

A: 検討します

Q: SQL Datawarehouse ってオンプレの DWH と何が違う？

A: 例えばSQL ServerなどはPDWの機能があり今後にたような機能が提供されると思われます。SQL Data WarehouseはSaaSなのですぐに使えます

Q: オンプレミスって、Azure Stack限定ですか？

A: Azure Stack はオンプレミス(自社内サーバー)に Azure 環境を構築する製品です。その他にAzureの一部機能を模したものであればAzure Packもあります。

Q: API Apps + Swagger の話し聞きたい

A: 面白いと思います。要望が増えたらやりましょう

Q: 学習データと評価データの分け方は何を基準に？

A: 分割についての詳細はこちらの URL をご参照ください。

Q: モデルの評価方法や検定方法は何がありますか

A: こちらを参照してください。https://azure.microsoft.com/ja-jp/documentation/articles/machine-learning-algorithm-choice/

Q: 機械学習には時系列分析もありますでしょうか？

A: はい、金融の分野などで活用されているようです。

Q: 資料P33のSplit機能について、学習用に75%、トレーニング用に25%と書かれていますが、Runするたびに全体からランダムに75%,25%と振り分けられるのですか？P34の説明だとランダムではなさそうに感じたので質問です

A: split の分け方の詳細はこちらを参照してください。 https://msdn.microsoft.com/library/azure/70530644-c97a-4ab6-85f7-88bf30a8be5f

Q: P22でクレンジングを2回に分かれているのは何故でしょうか？

A: 1つめのクレンジングでは、重複データなどの削除、２つめのクレンジングでは映画のデータを100件に絞り込んで、現実的な時間内で処理が終わるようにしています。

論文のページはこちらです。http://research.microsoft.com/apps/pubs/default.aspx?id=79460
Q: Launch column selector から複数の列を選択する場合、選択する順番は影響するのでしょうか？

A: 影響しません。もともとのデータの列順を維持します。

Q: joinのFullOuterJoinの説明がhelpに記載がないですがどいったものでしょうか？

A: こちらを参照してください。 https://en.wikipedia.org/wiki/Join_(SQL)#Full_outer_join

Q: パラメータとか、モデルの保存とか、いろいろ入力枠がありますが、日本語はどの程度使えるでしょうか。

A: UTF-8ならおそらく問題ないと思いますが、環境依存文字などは入れないようにしてください。

Q: 今のところ資料の通りにやっていますが、各モジュールに複数ある接続点に機能の違いがあるのですか？

A: 機能の違いは、セッション中に紹介した Quick Help 内の (more help) を使って確認してください。

Q: いろいろなアルゴリズムがあるけどどうすればよいか?

A: “こちらを見ると便利です。http://azure.microsoft.com/ja-jp/documentation/services/machine-learning/ [アルゴリズム]-[選択する方法]
https://azure.microsoft.com/ja-jp/documentation/articles/machine-learning-algorithm-choice/

Q: Remove Duplicate Rowsにて今回の場合では複数の同じRowの中から、残す対象のRowを、例えばRatingのMax/Min/Meadiaとかで絞り込んで決めるめることはできますか、また平均値にするとか

A: 現状では提供されていないようです。このモジュールの詳細はこちらを参照してください。なお、実現する場合には R, Python などで独自実装を検討してください。
https://msdn.microsoft.com/library/azure/02016f47-e4c3-4a06-9ae5-16c747389e34

Q: 学習データの数値データならば、分散が大きくなるように選ぶ方が良いと思いますが、学習データの多変数の数値データがある場合、分散（ばらつきが大きくなるように）が大きいデータ群をもちいた方がよいと思いますが、そのような分け方はできますか？

A: データの分割方法はこちらを参照してください。現状では、[レコメンダー分割]の内部でうまいことご要望の動作をしているかもしれませんが、詳細な指定方法は内容です。そういった実装が必要な場合には、R, Python を使って独自モジュールを実装してください。
https://msdn.microsoft.com/library/azure/70530644-c97a-4ab6-85f7-88bf30a8be5f

Q: RMSE値と標準偏差の違いって何ですか？

A: こちらを参照してください。
http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1394399398

Q: Azure ML でロト当てる方法教えて下さい

A: 競馬ならあるみたいです http://introndatalab.com/blog/90
過去データを基に統計的に次の数字を予測するぐらいですかね
あたり生成ロジック解析したらばっちりですね

Q: P74ですが、info だったか detail だったか、何か押さないとJSONが見れませんでした。

A: ありがとうございます。画面右下の [Detail]を押してご確認ください。

Q: モデルの評価3の評価はないのでしょうか？

A: 今回はつけていませんが、モデルの評価2と同じように設置してみてください。

Q: ML Studio で出来ることを PowerShell や REST API で実現出来ますか？

A: ML Studio でできることは現状では PowerShell, Rest API では実現できないです。

Q: Windows10の完成度はどうですか？

A: Win10 Build 10130でもまだまだ荒い。。。（by 非MS社員）

Q: P.75 「アイテムが推薦されている」⇒「Azure ML 推薦システムデモが正しく動作する」の意味でしょうか？

A: 75Pにそういった記述がないので、正しいページ数を教えてください。
(ただ、おそらく推測されている通りの答えです。)

Q: Azure MLの書籍のURLは？

A: http://www.amazon.co.jp/dp/4897979927

懇親会ではなぜか漫談ぽくなってしまった、、、

コメントを残すコメントをキャンセル