【E資格不合格から学ぶ】kー近傍法のポイントを解説!

  • 「kー近傍法」について学びたいけど理解できるか不安・・・
  • 「kー近傍法」についてどこから学んでいいか分からない?
  • 「kー近傍法」を体系的に教えて!

 「kー近傍法 (k-nearest neighbor algorithm, k-NN)」は分類問題のための機械学習手法であり、巡回セールスマン問題において最初に使われたものですが、興味があっても理解できないケースは非常に多いです。

 私は過去に基本情報技術者試験(旧:第二種情報処理技術者試験)に合格し、また2年程前に「一般社団法人 日本ディープラーニング協会」が主催の「G検定試験」に合格しました。現在、「E資格」にチャレンジ中ですが3回不合格になり、この経験から学習の要点について学ぶ機会がありました。 

 そこでこの記事では、「kー近傍法」を学習する際のポイントについて解説します。

 この記事を参考にして「kー近傍法」が理解できれば、E資格に合格できるはずです。

<<「kー近傍法」のポイントを今すぐ見たい方はこちら

目次

1.アウトライン

  • kー近傍法 (k-nearest neighbor algorithm, k-NN)
  • 分類問題のための機械学習手法
    最近傍のデータを近い順にk個取ってきて、それらがもっとも多く所属(=多数決)するクラスに識別
  • 新しいデータ(赤色)を分類する → 近傍の点は紫2個、黄1個なので紫クラスに分類する
  • kを変化させると結果も変わる
  • kを大きくすると決定境界は滑らかになる

2.最近傍法・k近傍法説明 

最近傍法とは・・・

 あるデータ点のラベルを予測する際、訓練データの中でそのデータ点との距離が最小となる点のラベルを割り当てる手法最近傍法はk-NNにおいてk=1のときと同じ。

      

著者
著者

巡回セールスマン問題において最初に用いられた手法だよ!!

3.アルゴリズム

k近傍法の特徴
  • 訓練データを保持するだけで、パラメータを求めるステップがない。
  • 予測時は各訓練データとの距離から識別。
  • kの値が大きくしても必ずしも分類精度が良くなるとは限らない。
  • 決定境界はkを大きくすることで滑らかになる。
  • 最適なkの値は交差検証によって決めることはできない。
  • 陽に訓練ステップを必要としない。

     

4.実装演習

a.syntheticデータ分析

  • ハンズオン設定
    〇人口データを分類
    〇配布済みのjupyter notebook を利用
  • 課題
    〇人口データと分類結果をプロットしてください 

5.まとめ

【kー近傍法まとめ】
  • あるデータ点のラベルを予測する際、訓練データの中でそのデータ点との距離が最小となる点のラベルを割り当てる手法
  • 最近傍法はk-NNにおいてk=1のときと同じ。

最後まで読んで頂きありがとうございます。
皆様のキャリアアップを応援しています!!

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする

目次