【E資格不合格から学ぶ】k-means のポイントを解説！

2023年3月17日2025年2月14日

　「k-means（k-平均法）」は、教師なし機械学習の１つの手法であり、クラスタリング（=グループに分類する）を行ういます。与えられたデータをk個のクラスに分類することができますが、興味があっても理解できないケースは非常に多いです。

　私は過去に基本情報技術者試験（旧：第二種情報処理技術者試験）に合格し、また2年程前に「一般社団法人日本ディープラーニング協会」が主催の「G検定試験」に合格しました。現在、「E資格」にチャレンジ中ですが３回不合格になり、この経験から学習の要点について学ぶ機会がありました。

　そこでこの記事では、「k-means」を学習する際のポイントについて解説します。

　この記事を参考にして「k-means」が理解できれば、E資格に合格できるはずです。

1.アウトライン

編集中

編集中

各クラスタ中心の初期値を設定する　←　最初のクラスタ中心をランダムに選ぶ
各データ点に対して、各クラスタ中心との距離を計算し、最も距離が近いクラスタを割り当てる
各クラスタの平均ベクトル(中心)を計算する
※各データとクラスタの重心の距離で一番近いクラスタの重心にデータを分類
◦中心の初期値を変えるとクラスタリング結果も変わりうる
◦kの値を変えるとクラスタリング結果も変わる　
収束するまで2,3の処理を繰り返す

　　ａ．syntheticデータ分析

　　　　編集中

「k-means」の問題点

「k-means++」の概要

「k-means++」のアルゴリズム

各点xiの中からランダムに1点を選び、クラスタの中心とする。
　↑ 初期のクラスタ中心点をデータ点間の距離に基づいて確率的に決定することで、初期値依存問題の解決を試みる。
各点xiに関して、既存のクラスタ中心の中から最も近いクラスタ中心との距離D(x)を計算する。
各点xiに関して重み付き確率分布D(x)2／∑D(x)2を用いて、新しいクラスタ中心をランダムに選ぶ。
2.と3.の工程をk個のクラスタ中心が選定できるまで行う。