書籍「データサイエンティストの仮説思考」

※サイト管理人が興味をもった部分を紹介します。

はじめに

 これからのデジタル社会を生き抜くためには、データリテラシーを身につける必要があります。

 プログラム言語を使わずにデータサイエンティストの思考過程を覗いてみましょう。

書籍情報

タイトル

データサイエンティストの仮説思考

著者

著者・編集:孝忠大輔

日本電気株式会社 AIアナリティクス事業統括部 上席データサイエンティスト

著者:川地章夫、河野俊輔、鈴木海理、長城沙樹、中野淳一

出版

SE SHOEISHA 翔泳社

平均所得552万3千円とは?

 2019年の国民平均所得金額は552万3千円となっています。

 ヒストグラムを確認してみると、200~300万世帯が最も多いことがわかります。

 半分以上の方は552万3千円も所得はなく、世帯でみた中央値は437万円です。平均値=最頻値とは限りません。

 同じように、平均貯蓄は1791万円ですが、世帯でみた中央値は1104万円です。0世帯を含めると1026万円になります。

売上から課題を見つける

 売上データから課題を見つける手順

  1. データの集計値を確認する
  2. データをグラフにして、特異点や傾向性、相違性を見つける
  3. 複数のデータを関連づけする
  4. データから得られた知見を整理し、解決施策を検討する

 A店、B店、C店があったとします。データを確認し、グラフ化すると、売上が最も高いのがA店補だということがわかりました。

 B店はA店と比べると顧客数に課題があり、C店はA店と比べると顧客単価に課題あることがわかるのです。

 こんな様に、課題を分析し、見つかった課題について解決策を検討していくという手順になります。

データから法則を見つける

 データサイエンティストは、集計表を眺めながらデータに何らかの法則がないか確認します。

 プレミアムビールの購入層を見つけてみましょう。20代~50代までで購入者を確認すると、30代がプレミアムビールを購入しているようです。

 趣味とプレミアムビールの購入割合をみてみると、スポーツを趣味としている人の購入率が低く、旅行が趣味としている人の購入率が高いと出ています。更に、好きな音楽のジャンルがロックの人のプレミアムビールの購入割合が高いとでました。

 いろいろな仮説を立てながら、何度もデータに向き合うことによって、仮説の制度を高めることができるのです。

時系列データで変動を見つける

 時系列データにおける周期性は時間帯ごとだけではなく、季節変動や曜日変動など、色々な規則性を見つけることができます。

 夏やふゆは冷暖房を使うため消費電力量が多くなり、春と秋は消費電力が少なくなります。オフィスビルであれば平日と休日で消費電力が変わってくるでしょう。

 周期性を考慮せずに予測しようとすると、うまくいきません。データサイエンティストは時系列でーたに含まれる「トレンド」と「周期性」を考えた上で、未来の数値を予測するのです。

感想

サイト管理人

サイト管理人

 数値化、見える化の参考になる書籍です。

購入リンク

amazonは↓

電子

amazonは↓

(Visited 12 times, 1 visits today)
関連記事

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です