2019/5/25

自己紹介

  • きぬいと(@0_u0)
    • データ触るのに本名は必要ないので非公開です。
    • R初心者7年目
  • マーケティング系調査屋さんのアナリスト
    • 労働者階級2年目
      • データの前処理をRコード1行ですべて終わらせる仕事
      • 最近ShellとかPythonとかも1ライナーし始めている
  • 仲間になる予定の人が来てます。
    • 仕事真面目にやってます
    • 仲間はつねに募集中です。
  • 最近の出来事
    • キャリアなんもわからん問題でバズってしまった

宣伝

  • Statistician-jaのDiscordをつくりました
    • 「数理統計学」をやっていくサーバ
  • PythonとかRとかではなく「数理統計」のお勉強をやろう
    • lm(y~., data = dat)の裏のロジックをつかもう
    • 理論は廃れないのでみんなで理解しよう
  • 目標は統計検定1級に合格することなど
  • https://discord.gg/Nq75Smpにアクセス!
    • Meetupとかも構想中です。
    • 運営の仕方とか教えてほしい

今日のお話

  • マーケティング・サイエンスをやっていく前に必要な準備
    • 社内環境
    • 取引先への説明
  • R: エンジニアじゃない人も割と使ってる
    • でもこの場合エンジニア側からもビジネス側からも浮きがち
  • 対象: 会社でR使いたいけどエンジニアじゃないんだよなあという人
    • B to BでR使いたい人
    • 対象外の人は好きな寿司ネタを#TokyoRでつぶやいておいてください

仮想敵 説得したい人

  • こんな人たちと殴り合う話し合ってRの良さを知ってもらいたい
    • 定量化できない指標を信仰する人々
    • 母国語がMicr●s●ft office Excelの人々
  • R要素は?
    • これがRmarkdownでできているのでTokyoR LTが成立します!!!
  • データは?
    • 全部フィクションです。

マーケティング・サイエンスとは

  • 一昔前に「データドリブン」とか流行った
    • 定量的な評価に基づいて、科学的にマーケティングをやっていこう
  • あまり一貫した定義はない(あるある)
  • 「データを活用してマーケティングやっていこうよ」だと思ってください
  • というか

「マーケティング」って何?

実際に聞いてみた

  • Q.「マーケティングってなんだと思いますか?」

きぬいともよくわかんない

  • 「ドリルを買う人は、ドリルがほしいんじゃなくて、穴がほしいんだよ」
  • 新人だったころのきぬいと「胡散臭い」

「マーケティング」のよくわからなさ

  • どうなったら「うまくいった」と言えるのかがよくわからない
    • なにをみたらわかるのかよくわからない
  • 指標の測定方法もよくわからない
    • ABテストとかよくわからない
  • データの活用方法がよくわからない
    • 大体の企業にはデータはある
      • 「何がわかれば利益につながるのか」よくわからない
      • どんなデータがあると何がわかるのかよくわからない

なんもわからん

データもよくわからない

  • 実際人間の8割はデータもよくわからない
  • 非Tech系でのデータ活用はほぼ進んでいない……
    • データはあるのにうまくビジネスに活かせない
    • 当たり前のようにマーケティングサイエンスにも活かせない
    • なぜなのか?

取材班は南米の奥地へ飛んだ

理由1. KKD信仰

きいてみました

Q. みなさんが意思決定のときに信じるものはなんですか?

KKD(経験・勘・度胸)

  • 実際その道のベテランのK・Kは馬鹿にはできない(くやしい)
    • 実際Dなしに決定はできない(それはそう)
  • データ分析の価値もKKDに合うかどうかで決まるところもある
    • 「合っているかどうか」を評価する基準が定義できない
    • 結果「経験」「勘」に頼らざるを得ない
  • 「K・Kでわかんないことをデータで知って、D以外の行動要因にしたいのに」
    • 「結局データ分析に予算割いてもよくわからないのかあ」

つまり?

  • データ分析の結果を評価する基準がどこにもない
    • 明確な指標が社内外問わず定義できてない
    • それを明らかにするにはデータを見るしかない
      • が、データを見る文化がない
  • 評価指標(見たい数字)から定義するとこっちも楽
    • データから「見れる」指標を定義したい
    • データの見方だけでも整理するだけで違う

理由2. Excel信仰

きいてみました

Q. みなさん「データ分析」で何使ってますか?

「Excelでなんでもできるじゃん」

  • 「なんでもはできないわよ、できることだけ」
    • Excelでの手計算のミスが業務の8割を占めた2018年度
    • 誰もやりたくてやらかすわけじゃない
  • Excelでできないこと=「不可能」
    • 「Excelじゃどうしようもない大規模なデータなんです」
      • 20万行 × 3列
  • Excelで回帰分析やパラメータの調整
    • 実際できる
    • 計算プロセスも見やすいね
  • 「もう全部Excelでよくない?」

その結果

  • 【紙出用】【きぬいと編集】案件結果_上司確認_ver2_最終盤_A4調整_2019xxxx.xls

全部Excelでよくない?→よくない!

  • バージョン管理が煩雑になる
    • 追加で見たい指標がどんどん増えてサグラダファミリア.xlsx
  • 作業工程が属人化する
    • Excelのプロフェッショナリティが人権
  • この2つをどうにかしたくない?

非Tech系でRを使うということ

客の知らないことってなんなのか?

  • そもそもデータの見方がわからない
    • 故にKPIもKGIも定義できない
  • この辺の整理だけでも割とイケる
    • 分布や単純なクロス集計だけでも発見があることが多い
    • ここで初めてどの指標の評価をするかも判断できる
  • 予測や分類はこの次のステップ
    • データをちゃんと見せよう
    • 魅せることすら時期尚早

前提: 仕事の8割が記述統計

  • lmglm?知らない子ですね……
  • tableggplotで解決する問題が大半
    • 故に「楽にできる」Excelとの戦い
    • どうする……?どうやったらあの大企業のツールに勝てる……?

報告「Rでやっちゃいました」

「事後報告」は最強

  • 「お、おう……」で済む。
    • 「勝手なことをするな!」と言われたら……?
      • 全面戦争話し合いですね
    • 全く関係ないですけどヘイシャでは「やるねぇ〜!」と言われます
  • コード書いて、Ctrl+Enterで全部自動化
    • ExcelのCOUNTIFとかVLOOKUPをtidyに解決
    • 「あとはもうこれを読み込めば解決するんで」
  • Excelの表をきれいにするやつは?
    • あ、僕の仕事じゃないんで……

マーケティング・サイエンスのためのR

  • 記述統計レベルの問題を明らかにする場合が多い
    • と言いつつそこそこデータ量が多い(データだけはあるので)
  • ある業務でのきぬいと
  dat <- datA %>% 
    dplyr::group_by(ID, date) %>% 
    dplyr::summarise(count = n()) %>% 
    tidyr::spread(.,key = date, value = count) %>% 
    dplyr::mutate_if(is.numeric, funs(replace(.,is.na(.),0))) %>% 
    dplyr::ungroup()

出力

dat[,1:10] %>% head
## # A tibble: 6 x 10
##      ID `100` `101` `102` `103` `104` `105` `106` `107` `108`
##   <int> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1     1     1     0     0     0     0     0     0     0     0
## 2     2     0     1     0     0     0     0     0     0     0
## 3     3     0     0     1     0     0     0     0     0     0
## 4     4     0     0     0     1     0     0     0     0     0
## 5     5     0     0     0     0     1     0     0     0     0
## 6     6     0     0     0     0     0     1     0     0     0
  • たった6行で可視化のためのテーブルが完成するのやばない?
    • Excelで可視化するのが得意な人と協力できるね
    • 「R、やるじゃん」となる

つまり?

整 然 宇 宙 開 発 局

冗談抜きで

  • tidyverseで既存業務をだいぶ改善してきた(はず)
    • 残業時間を大幅に減らしたらストレスが減った
    • 上司が助かっているかはわからない……助かっていると信じたい
    • 宇宙による開発だけで月100万位稼いでいる(はず)
  • でかいExcelファイルを開くのに待つ必要性がだいぶ減った
  • ggplot2やらDiagrammeRやらでの可視化で表を見やすくできる
    • いいぞ

結論

  • Marketing Scienceは記述統計から入ろう
    • 回帰分析とか誰も知らない
    • よくあるご質問
      • 「切片は誤差とは違うんですか?」
      • 「回帰係数は1を越えるんですか!?」い
  • Statisticの語源に忠実にいこう
    • state/status「状態」の記述
    • マーケティングで推定とかそんなの魔法っすよ。
    • 予測モデルで金をとる前に金を取れる環境をつくろうな(ゲス顔)

今後

  • 研修とかのためにこれまでのTipsをドキュメント化する
    • Rmdでいけんじゃね?
      • たまにPython使うけど
      • PythonもRmdでまとめられるんじゃね?
  • R開発環境の統一
    • バージョン管理がめんどい
      • 未だに社員のローカル環境依存
      • こんな課題を解決したい(エンジニア発想)
    • Docker使えばなんとかなんじゃね?
    • 鋭意開発中
      • この辺知ってて一緒に働きたい人も募集中

Enjoy!!

  • Rmdでの資料作成及び公開方法にあたり、y__mattu氏とatusy氏より多大なるご支援を頂きました。