2016年1月9日土曜日

AzureMachineLearningのハンズオンセミナーに参加(1/8)

azure machine learnigのハンズオンセミナーに参加してきたので備忘録。
このアイリスの品種を機械学習で見分けるという例がよく用いられるらしいです。

「がく片の長さ」と「がく片の幅」だと、うまく分類ができていないですね。


「がく片の長さ」と「花びらの長さ」にすると、分類されているように見える

こんな感じ。

一番下の領域Aは、セトナ。真ん中の領域Bは、バーシクル、一番上の領域Cはバージニカ。この2つの要素で分析器を作れる。

もう1つの例。ネット対戦ゲームのユーザ離れ予測。これは過去の実績。

この翌月のログイン回数を表す数式(モデル)で、12月分を見た場合、翌月(つまり1月)の(予想)ログイン回数がマイナス(-1000)になっている。これはログインをしなくなる(つまり離れた)ということを表している。

例えばこのモデルの精度が高いようであれば、レアアイテム獲得数を増やすなど改善をすることで、ゲーム離れを軽減させることができるかもしれない。

機械学習でつかる分析手法は大きく分けて3つ(回帰分析、統計分類、クラスタリング)に分かれるという話。

機械学習には、「教師あり学習」と「教師なし学習」「強化学習」の3つがある(ちょっと調べたら「半教師あり学習」というのもあるらしい)が、先の分析手法は、回帰分析と統計分類が、教師あり学習で、クラスタリングは教師なし学習で使われる手法となる。

教師あり学習は、事前に結果が出ているデータ(教師データ)があり、それをもとに分析器を作る。

教師データは大量に必要となる。



統計分類は、与えられた値から、ラベルを予測する手法。

回帰分析は、与えられた値から、すい値を予測する手法。

教師なし学習における手法である、クラスタリングは、値の類似性をものとに、与えられた値をいくつかのグループに分ける手法。正解があるわけではない。
またグループに意味を持たせるのは、人間が行う。





この例では、3つの分類に分けられたが、分類1は肥満、分類2は不通、分類3は痩せ型と意味つけることができる。

ここからはAzureMachineLearning(AML)の話。AMLでも、先の手法を簡単に使えるし、異常検知やリコメンドエンジン作成なども簡単に作成できる。



AMLの画面。見えづらいですが、、

AMLでできること。講師の方に少し話を伺ったのですが、
・DeepLearningもできるが、かなり大変らしいです
・AWSのものとのざっくり比較としては、AWSはあまり細かい設定はできない。データを入れて、結果が返ってくる(ある意味シンプル)。AMLは、パラメータが細かく設定ができる。とのこと。
 ※ただ、この後の演習の際に少々聞いた見たのですが、やはりパラメータはデータサイエンティストなどのレベルじゃないと、使いこなせない見たいです。

操作は非常に簡単でした。が個々の要素については、ヘルプを見てもわかりに行く印象がありました(ある程度、機械学習の分野でやったことがある人であれば、問題ないと思われるレベルですが)