春は希望の泉とはよく言ったものだと思う今日この頃。
2/18-19のおとも
Udemy ゼロからおさらい 統計学の基礎(基本統計量・確率分布)
Udemy ゼロからおさらい 統計学の基礎
https://www.udemy.com/share/1000GoBEsYcFtTTXo=/
統計知っていかなきゃなって前回ぼやいてたので、前のセールで買ってたこちらで有言実行。
(たぶん)高校数学あたりまでの基礎的な統計学の知識を、演習も交えて思い出していきましょうみたいな雰囲気だったので、
だいぶ厳重にしまいこまれてしまった記憶を掘り起こすのに良さそうだなあと思って……。
.
入手したデータをさばきたい場合、何でどう集計・分析をすべきか考えていける
結果から伝えるべき数値を理解した上で判断することができる
データを基にどうしていけばいいのか、意思決定していくことができるようになる
統計学を学び、上記を可能にしていこう、というのがこの講座の狙いだそう。とりあえず実用に活かせるようになりなさいよと
.
以下講義メモ、今回は基本統計量と確率分布のセクションまで。
統計学: 母集団からランダムに採取されたサンプルの統計量(例: 平均、分散など)から、その母集団の傾向や性質を理解するための学問
→限られたリソースから全体をつかむことができ、その傾向や性質にあったプランを立てることができる。
例: 運送の効率化(予想)、駅の混雑回避(推計)、処方薬の効果(比較)
基本統計量
まずはデータの性質を正しく捉えられるようになるための手法から。
ヒストグラムでデータを可視化し、その理解に深めるということや、
平均、中央値、分散、標準偏差などの基本統計量というもので性質を捉えていくということについて。
先日見た放送大学の統計の講座とも共通する点も多かったのでけっこう流し見。
.
集計: 情報量の削減
平均が行っているのがこれで、バラついた情報をひとつの数値としてまとめることができる。
実際のサンプルの性質をつかむためには、これに加えそのばらつきが現れた分布を見ていく必要がある。
例: 評価の平均が3.5点となる商品Aと商品B
商品Aは3-4点付近に評点が集中している。
対する商品Bは、1-2点付近と6-7点付近に評点が集まり、その間の点数はほとんどつけられていない。
→商品Bは刺さる人には強く刺さる可能性があるのではないか?という仮説を立てることができ、
それを検証するための再検証に繋げていく……といったプランを、調査をしたことで立てることができた。
.
その分布を可視化するための手段としては、ヒストグラムが代表的である。
これは、どのような形状の山をしているか、山はいくつか、外れ値はないか、データの中心がどの辺りにあるか……と言った観点で見ていかれる図である。
分布の中心を捉える指標には、以下のような統計量がある。
平均: データの合計をデータ数で割ったもの
メリットは理解しやすく、統計的にもいい性質があるということ。
デメリットは極端な値の影響を受けやすいこと。
山が左右対称の形に近く、サンプル数が多い時にはよく使える。
中央値: データを順番に並べた時の真ん中の数値
メリットは極端な値の影響を受けにくく、外れ値のあるデータにも対応できるということ(値が定まるポイントが全体中での順番であるため)。
デメリットは統計的にいい性質をあまり持たないということ。
.
初めに挙げた例からも読み取れるが、データの散らばり具合も大事な判断基準となる。
それを示す指標には、分散がある。
分散 = 全変動(各データの偏差の2乗を合計したもの)/データの個数
しかし分散は平均と単位が違うため、そのまま足し引きができない。
→平方根を取り、単位を合わせる必要がある。この値を標準偏差という。
この成り立ちからも明らかであるように、標準偏差と分散の大小関係が崩れることはない。
確率分布
サンプルの理解を母集団の理解へとつなげるのに必要なもの。
確率変数: ある試行の結果によってある値が定まるとして、それぞれの値に対しそのある値をとる確率が定まっているような性質のある変数
確率分布は、その確率変数の取りうる値と、ある値をとる確率との対応関係。
よく例として引き合いに出されるのはサイコロの目が出る確率。
.
確率には、結果の数が整数値で取られ有限のものを離散的確率、無限に取れるようなものを連続的確率という。
確率変数のそれぞれの値の確率をグラフに落とし込むに当たって、確率が離散的であるか連続的であるかにより、使う関数が異なる。
離散的確率→確率質量関数、連続的確率→確率密度関数
また、確率密度関数で得られた確率を順に足していくと、累積分布関数が得られる。
累積分布関数は0から1へと右肩上がりに積み上がるグラフとなる。確率の合計なので……。
確率分布にはいくつかの代表的な形をした分布のパターンがある。
どんな状況のデータか、どんな取り方のデータだったのかによって、どのパターンを適用できるかを判断できる。
また、分布の形を規定する変数をパラメータと呼ぶ。
.
二項分布: 結果がふたつである試行を繰り返すことによって起こる分布
例: 10回のコイントスで3回表が出る確率、4回、5回……
この場合のパラメータは確率pである。
.
手近なツールで解くならば、ExcelのBINOMDIST関数。
BINOM.DIST(確認したいイベントの値,試行回数,成功確率,確率関数)
※引数4つめはBoolean型となり、TRUEなら累積分布関数、FALSEなら確率質量関数。
.
ポアソン分布: ある一定時間・空間内でイベントが発生する回数による分布
例: 1日平均n個の不良品が出る工場において、今日1日の不良品の個数を推計
パラメータはその期間中の平均回数λ。
.
ExcelではPOISSON関数で求められる。
POISSON.DIST(イベント数,平均,関数形式)
※引数4つめはBoolean型となり、TRUEなら累積ポアソン確率、FALSEならその指定したイベント数が発生するときのポアソン確率。
.
正規分布: ランダムな誤差を表す分布、左右対称で連続した山形のグラフを持つ
例: 工場で製造される部品の寸法誤差→規格の周りに実際の寸法値が集まりやすい
パラメータは中心となる平均μと、左右の広がり(データのばらつき)を示す標準偏差σ。
.
正規分布はデータ分析において、最も重要な確率分布である(手元の教科書見たら確率分布の王様とまで書かれてあった……)。
その重要さを担保するのは、以下のふたつの性質である。
- 正規化
どんな正規分布であっても、平均μが0、標準偏差σが1の標準正規分布に変換できる。
→異なるスケールのデータ同士を比べやすくなる。
(平均と標準偏差さえ持っていれば)どんな形の母集団でも、ランダムにサンプリングしたデータの平均は正規分布に従ったものとなる。
→母集団の平均の分布は正規分布に近似される。
※参考、和の分布もいけるらしい?
ここまで見てきたような分布の型(理論分布)を調べたい母集団に対し仮定的に当てはめて検討していくことで、
これまでに観測はされていない事象の発生確率といったものを近似的に求めるといったこともできる。
とうけいがくのちからってすげー!
私の前職、製造業の品質管理だったのですが、むしろそのときにちゃんと勉強しておけばいくつもの仕事が楽になったのでは……って思いながら見ていました。
この不良また起こるかも、起こるとしたら対策取らなきゃいけないし、でも全部の不良に対して万全を取れるほどにはリソースないし……みたいな事案が多くて、でもどうしていけばいいのか誰も知らなくて。
そういう手法とか勉強するための検定受けたいって言ったの却下されたこと思い出して胃痛がしてきた、せめてあの課長の頭の片隅に引っかかってくれていることを願うばかり……。
2/18-19の晩ご飯
それぞれ2日目のカレー、3日目のカレーで作った皿うどんカレー味。
保存されたカレーは菌の温床になりがちときく、それぞれでお腹を壊す確率は果たしていかほどとなるものか。