データ分析を始めて失敗したこと


せっかくなので、色々分析した事とかを今後書いていく予定だけど、
それよりも実際にツールを使い始めて失敗した事について書く。

・今更感

うちの会社では結構データ分析に対して積極的で、
ツールの導入前でも各種KPI(売上、ARPU、ARPPU、インストール数、DAU、LTV)をよく見ていた。

ツールの勉強もあって、これらの数字を出し直したりしていたが、上司には

「そんな高いツール使って、出すもんでもないだろ」

と一蹴されてしまう つД`)

・当たり前感

セールした商品の売れ行きは?
優良ユーザーの動きで違いはあるのか?

そんな仮説で実際に調べてみたが、
「セールしたほうが売れてました」
「優良ユーザーとそれ意外のユーザーでも購入時間は変わりませんでした」

上司「いや、知ってるから。てかそれってセールした日の売上見ればわかるよね」

失敗の原因

高いツールを導入したという焦りからか、早く成果を出したいと思ってたが、
どうもツールで結果を出す事が面白くて
色々と気になるデータを出すことに力を入れてしまい、
広く浅いデータ収集を行なってしまっていた。

上司に怒られた原因を考えてみると
私が考えなしに様々なデータ結果に目が眩んでしまった大きな原因だろう。

ツールで数字を出すことは間違っていないが、
狭く深くデータ収集出来るのがSPSSのメリット。

「セールしたほうが売れています。
セールで買うユーザーは利用して1ヶ月以内の新規ユーザーに偏っていました。
逆に、長くて高課金ユーザーはセールでなくても買っています。」

とか、そういうレベルまで深掘りして初めて高いツールを使っている意味があると
わかっていたけど実践できたのは使い始めてから1ヶ月経ってからだった…

IBM SPSS Modeler(旧SPSS Clementine)を使ってみた


使い始めてもうすぐ1ヶ月くらい経つので、
感想など書いてみようかと思う。
ご参考までに。

IBM SPSS Modelerのメリット・デメリット

メリット

・簡単!

はじめはその独自のUIに苦労したが、
その点は入門セミナーでカバーされているので
比較的簡単に使い方はマスターできた。

・早い!

50万レコードでも直ぐに結果がでるので、色々と試行錯誤しながら
分析が進められる。早いは正義。

ちなみに、現在動かしているマシンスペック。

・Core i7
・メモリ 16G(当然64bit OS)
・HDD 500MB 

IBM社の営業の方にメモリは多いほどイイって聞いたので上記のスペックになってるが、
SPSS上でアプリに割り当てられるのは「4GB」までなので、8Gくらいで十分かと。
# 多いほどイイって言われたけど、実際は4Gまでしか使えないじゃんヽ(`Д´)ノ

・ラク!

データソースの切り替えがすごく楽なので、1ヶ月前と今月といった対象データや、
たくさんのプロジェクトのデータを横断して分析したりすることが可能。

地味だけど、これはすごく助かる。


デメリット

・情報がない!

とにかくマニュアルすら無いのと、使っている人が少ないからか
インターネット上にも情報が全くない!

躓いたりした時に聞く人がいなくて困ることしばしば。
# その分試行錯誤するので、かなり詳しくはなるが…

・ダサい!

出力表現が非常に不得意な印象。
20年前の大学の研究発表みたいなグラフしか書けない。

このままではあまりにもプレゼン資料で浮いてしまうので
エクセルにデータを持って行って、そっちで加工することにしている。

あと、Windowsでしか動かないのも…
Macで動いたらなー

・高い!

とにかく、導入コストが高い。

プロフェッショナルなツールなので、仕方がない部分はあるかと思うが、
直接効果がわからないマーケティングツールに
この値段はかなり上の人間が英断してくれないと、導入できないなーと思ったり。


導入してみて変わったこと

・技術者の負担が減った

これまでは分析というと、出して欲しい数字を技術者にお願いして出してもらっていたが、
今は購入ログとアクセスログを依頼して終わり。

その分、技術の方にはビッグデータを正確に取得したり、
各プロジェクトとの連携に時間を割いてもらっている。

・様々な切り口で試せる

これまでは技術者の人にデータをお願いしていたので、
依頼したデータ結果しか手に入らなかった。

しかし、ログデータしか貰わなくなったから
情報量がものすごく増えたのでどんどん深く調べることが出来る。

これは今まで無かった経験だったので、素直に楽しい。

・高度な統計の知識が身につき始めた

まだまだ絶賛勉強中ではあるが、
SPSSを使いこなすためには統計の知識が必須と痛感し、勉強するようになった。

しかも、数式をある程度意味さえ理解してしまえば、
本に書いてあることがすぐに試せるので、学習スピードが半端ない。

というか、勉強が楽しくてしょうがなくなる(笑)

【書評】マンガでわかる統計学 回帰分析編

マンガでわかる統計学の続編となる

マンガでわかる統計学 回帰分析編

も読んでみた。

が、前回と打って変わって急に内容が高度に(´;ω;`)
急に難しくなりすぎw

前回は結構さらっと読めたけど、
今回はじっくり読まないとすぐわからなくなってしまう…

が、数式を使わないデータマイニング入門 隠れた法則を発見する (光文社新書)のお陰で
なんのためにこの勉強が必要かというのは
理解できているので、モチベーションは下がらず、結構前向きに読むことができた。

ソーシャルゲームの分析というのは
かなりECサイトに似ていると思うので
商売と絡めた事例が豊富に出てくる本書は応用のしがいがある。

○曜日がケーキが売れるみたいな回帰分析は
実際には使えない(というか、説得力が少なくて言えない)けど
セールの価格と販売量みたいな感じでは回帰分析は役立ちそう。

こういう本読むとアイディアが湧いてくるから楽しい。


【書評】数式を使わないデータマイニング入門

マンガでわかる統計学に続き、
文系の私でも理解できそうな本を購入。

数式を使わないデータマイニング入門 隠れた法則を発見する (光文社新書)

正直、せっかくSPSSを使っているにもかかわらず、
何をしたらいいのか全くわかって無かったので、
この本は本当にありがたかった。

SPSSの入門セミナーでも回帰分析やニューラルネットワークのやり方はわかっても、
どういう場面で使うのかがずっと気になっていた。

そこでこの本である。
難しい数式を使わないでデータ分析のミッションや
大まかにやれることを概論ベースで解説してくれるので、
SPSSへの取り込みもイメージしやすく、何より、人に説明しやすいと思った。

本を読むのが遅い私は集中するために
静かな喫茶店でコーヒーを飲みながら読み進めていたが、
面白くてあっという間に読んでしまった。

特にこの本の気に入ったところは
SPSSでできないことは書いていない点である。

どれも入門セミナーで一度は出てきた単語ばかりなので、
SPSSでの動きがイメージしやすく、
仕事で使えそうなことばかりという印象だ。

分析するときに悩んだ時に何度も読み返してヤル気をもらうのにちょうどいいと思った。


【書評】マンガでわかる統計学

先日のSPSS入門セミナーで統計学の知識不足を感じたので、
早速幾つかの書籍を購入。

しかも大学卒業してからもう何年も経ち、
覚えも悪くなってきたアラサー男子(ダメリーマン…)には
もってこいの本を見つけた。

マンガでわかる統計学

マンガならきっと眠くならずに最後まで読めるに違いない。
そう思って早速購入。

マンガのストーリーが
昔の科学漫画っぽくて若干のノスタルジーを感じながらも
連続値とカテゴリ値といった基本から検定まで網羅している。

SPSSの入門セミナーで
連続値とカテゴリという話がよく出てたのだが、
なんとなく聞いていたのが、ここに来てようやく融解。

なるほど、この2つは意識しておかないと
グラフや相関を知るときに落とし穴になりそうだ。

やっぱり基本は大事だなあー。

IBM SPSS Modeler入門セミナーに行って来ました

恵比寿のIBM社へ
SPSSの入門セミナーを受けてきました。

会場には20名ほどの方が参加しており、
1−2人で参加されている人が多かった印象。

完全に主観だけど、
男性も女性も「マーケティング担当」って感じの人が多かったです。
(真面目そうな感じ)

皆さんスーツとかちゃんとした格好が多かったので
商社とか、コンサルみたいな人たちだったのかも。

Tシャツとジーンズとラフな格好の人は
全体の2割くらいで、多分、その人達はIT系。


講義の進め方は分厚いチュートリアルを渡されて、
それを初めから講師の人と一緒に進めていきます。

肝心の内容と言うと、
SPSSで利用できる機能をひと通り実行してみて
まずはやれることを知るという感じでした。


2日間のセミナーがあったのですが、
操作は比較的すぐ慣れ、ログデータのデータ加工には困らないレベルになりました。

ただ、このセミナーで一番痛感したのは
統計知識の不足。

あまりに悔しかったので、
講師の先生を捕まえて統計や分析についてどういう勉強をすればいいかを
聞いて来たので、来週から仕事の合間に初めようと思う。

IBM SPSS Modeler(旧SPSS Clementine)というツールを使うことになりました

部署を異動して、一番初めにポンっと渡されたのがこのツール。


どうも統計解析をするためのツールらしく、
同業他社もこれでデータマイニングを導入している会社が多いらしい(営業 談)

全く聞いたことがなかったので、
ちょっと調べてみたが、様々な業界で使われているらしいことがわかった。

嘘か本当か知らないが、オバマ大統領が選挙対策の時に
このツールを使って自分の政策に関心のある層を割り出して
選挙活動を行ったとかどうとか。

マニュアルもない状態でどうしろっていうんだー
って感じだったが、
IBM社の方で入門セミナーの用意があるらしく、
早速来週からセミナーを受けて来ます。