【E資格不合格から学ぶ】統計学(期待値と標準偏差)のポイントを解説!

  • 機械学習には興味があるけど「統計学」を理解できるか不安・・・
  • 「統計学」についてどこから学んでいいか分からない?
  • 「統計学」を体系的に教えて!

 「統計学」はAI(人工知能)を含む機械学習において用いられれている重要なものですが、興味があっても難しそうで何から学んだらよいか分からず、勉強のやる気を失うケースは非常に多いです。

 私は過去に基本情報技術者試験(旧:第二種情報処理技術者試験)に合格し、また2年程前に「一般社団法人 日本ディープラーニング協会」が主催の「G検定試験」に合格しました。現在、「E資格」にチャレンジ中ですが3回不合格になり、この経験から学習の要点について学ぶ機会がありました。

 そこでこの記事では、「統計学」のうち「期待値」や「標準偏差」等について学習する際のポイントについて解説します。

 この記事を参考にして「統計学」が理解できれば、E資格に合格できるはずです。

<<「統計学」のポイントを今すぐ見たい方はこちら

目次

1.記述統計と推測統計

記述統計と推測統計の説明
記述統計と推測統計の説明

1.1 確率変数と確率分布

確率変数
  • 事象と結び付けられた数値
  • 事象そのものを指すと解釈する場合も多い
確率分布
  • 事象の発生する確率の分布
  • 離散値であれば表に示せる
事象裏が0枚,
表が4枚
裏が1枚,
表が3枚
裏が2枚,
表が2枚
裏が3枚,
表が1枚
裏が4枚,
表が0枚
確率変数(裏を0,
表を1と対応させ
和をとった)
43210
事象が発生した
回数
7530045030075
事象と対応する
確率
1/164/166/164/161/16
確率変数と確率分布の例

1.2 期待値

  • その分布における、確率変数の・・・
    平均の値 or 「ありえそう」な値
事象XX1X2・・・Xn
確率変数f(X)f(X1)f(X2)・・・f(Xn)
確率P(X)P(X1)P(X2)・・・P(Xn)
事象Xと確率変数(X)と確率P(X)の関係
  • 連続する値なら・・・
期待値の定義式
期待値の定義式

1.3 分散と共分散

分散

  • データの散らばり具合
  • データの各々の値が期待値からどれだけズレているのか平均したもの
分散の定義式
分散の定義式

共分散

  • 2つのデータ系列の傾向の違い
  • 正の値を取れば似た傾向
  • 負の値をとれば逆の傾向
  • ゼロを取れば関係性に乏しい
共分散の定義式
共分散の定義式

1.4 分散と標準偏差

分散は2乗してしまっているので元のデータと単位が違う。
        ↓
2乗することの逆演算(=平方根を求める)をすれば元の単位に戻る。

標準偏差の定義式
標準偏差の定義式

2.確率分布

2.1 様々な確率分布

ベルヌーイ分布

  • コイントスのイメージ
  • 裏と表が出る割合が等しくなくとも扱える
ベルヌーイ分布の定義式
ベルヌーイ分布の定義式
500円コイン
500円コイン

マルチヌーイ(カテゴリカル)分布

  • サイコロを転がすイメージ
  • 各面の出る割合が等しくなくとも扱える


サイコロ
サイコロ

二項分布

  • ベルヌーイ分布の多試行版
二項分布の定義式
二項分布の定義式

ガウス分布(1次元正規分布)

  • 釣鐘型の連続分布
ガウス分布の確率密度関数
ガウス分布の確率密度関数

μ:平均
σ:標準偏差
(σ2:分散)

著者
著者

ガウス分布は真の分布が分からなくてもサンプルが多ければ正規分布に近づくよ!

例題

Q.ベルヌーイ分布は離散確率分布の一種であり、例えば、確率変数Xが0.2の確率で1をとり、0.8の確率で0をとるような分布である。この試行を10回行った時の確率分布の平均と分散を求めよ。

A.平均は0.2×10回=2
 分散は0.2×0.8×10回=1.6

2.2 連続型確率分布

2.2.1 確率

連続型確率変数の場合の確率は、次の式によって計算できる。

連続型確率変数の場合の確率の計算式
連続型確率変数の場合の確率の計算式

2.2.2 期待値

連続型確率変数の場合の期待値は、次の式によって計算できる。

連続型確率変数の場合の期待値の計算式
連続型確率変数の場合の期待値の
計算式
例題

次の連続型確率変数Xを表す確率密度関数f(x)に対する期待値E(X)を求めよ。     

連続型確率変数Xを表す確率密度関数
連続型確率変数Xを表す確率密度関数

【解答】

連続型確率変数Xを表す確率密度関数の期待値の計算例
連続型確率変数Xを表す確率密度関数の
期待値の計算例

2.2.3 確率密度関数になる重要な条件

確率密度関数になる重要な条件とは・・・
  • 確率密度関数f(x)の値は常に0以上
  • 「取り得る値の全範囲」にわたって、確率密度関数f(x)を積分すると1になる。つまりp(全範囲)=1となる。
  • 連続型確率変数の分散と期待値の関係式
連続型確率変数の分散と期待値の関係式
連続型確率変数の分散と期待値の関係式

3.推定

母集団を特徴づける母数(パラメーター:平均など)を統計学的に推測すること。

母集団と標本の関係
母集団と標本の関係

推測統計:集団から一部を取り出し元の集団(母集団)の性質を推測する

点推定
平均値などを1つの値に推定すること。

区間推定
平均値などが存在する範囲(区間)を推定すること

3.1 推定量と推定値

推定量(estimator):
パラメータを推定するために利用する数値の計算方法や計算式のこと。推定関数とも。

推定値(estimate):
実際に試行を行った結果から計算した値

推定値の記述方法
推定値の記述方法
著者
著者

推定量と推定値は日本語ではあまり区別しないことも・・・

3.2 標本平均

母集団から取り出した標本の平均値

サンプル数が大きくなれば、母集団の値に近づく
→ 一致性

サンプル数がいくらであっても、その期待値は母集団の値と同様
 不偏性

不偏性の定義式
不偏性の定義式

3.3 標本分散

サンプルサイズをnとすると・・・

標本分散の定義式
標本分散の定義式

一致性は満たすが・・・
不偏性は満たさない!!

思考実験:
たくさんのデータのばらつき具合
少数のデータのばらつき具合

学生
学生

どちらがよりばらつくかな?

3.4 不偏分散

不偏分散の定義式
不偏分散の定義式
学生
学生

なぜこのような数をかけるのなか?

4.まとめ

【統計学のポイント】
  • 期待値・分散の求め方
    ・確率変数と確率分布
    ・期待値
    ・分散と共分散
     分散(variance)・・・各データと平均値との差の2乗
     共分散(Covariance)・・・データx、yにおいて(xー平均値)×(yー平均値)の値
    ・分散と標準偏差
     標準偏差(SD:Standard Deviation)・・・分散に対する正の平方根(√)の値のことで、単位を二乗値から元に戻している。つまり、分散と標準偏差は単位が異なるだけで、同じものを表す統計量となる。
  • 確率密度関数
    「条件」と「期待値」の違い
    ・条件:「取り得る値の全範囲」にわたって積分すると「1」になる。
    ・期待値:E(x)=∫x・f(x)dx
  • 確率分布
    ・ベルヌーイ分布
    「コインを投げたときに表が出るか裏が出るか」のように、何かを行ったときに起こる結果が2つしかない試行のことをいう。
    ・二項分布
     このベルヌーイ試行をn回行って、成功する回数Xが従う確率分布を「二項分布」という。
    ・マルチヌーイ(カテゴリカル)分布
    ・ガウス分布(=正規分布)
     正規分布とは統計・統計学を理解する上で一番大切な確率分布。

最後まで読んで頂きありがとうございます。
皆様のキャリアアップを応援しています!!

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする

目次