【E資格不合格から学ぶ】VGG Net（画像認識）のポイントを解説！

2023年5月19日2024年10月11日

「VGG Net」について学びたいけど理解できるか不安･･･
「VGG Net」についてどこから学んでいいか分からない？
「VGG Net」を体系的に教えて！

　「VGG Net」は深さを増加させることで精度が改善すると主張し、2014年にILSVRC（物体検出コンペティション）において準優勝した深層学習モデルですが、難しそうで何から学んだらよいか分からず、勉強のやる気を失うケースは非常に多いです。

　私は過去に基本情報技術者試験（旧：第二種情報処理技術者試験）に合格し、また2年程前に「一般社団法人日本ディープラーニング協会」が主催の「G検定試験」に合格しました。現在、「E資格」にチャレンジ中ですが３回不合格になり、この経験から学習の要点について学ぶ機会がありました。　

　そこでこの記事では、「VGG Net」を学習する際のポイントについて解説します。

　この記事を参考に「VGG Net」が理解できれば、E資格に合格できるはずです。

<<「VGG Net」のポイントを今すぐ見たい方はこちら

1.VGG Netとは

オックスフォード大学のVisual Geometry Group（略称：VGG）といわれるチームが開発ILSVRC2014年において、GoogLe Netに続いて好成績を残した深層学習モデル ← 分類誤差は7%
ILSVRC2012に優勝したAlexNetを改良したZFNetは、最初の畳み込みフィルタサイズを小さく、かつストライドを小さくすることで性能向上を実現
考案された当時、畳み込みニューラルネットワーク（CNN）を代表に、層を深していくのが流行
⇒ VGGは、CNNの深さが正解率へ与える影響を調査しようとした。
VGGでは3×3の畳み込み（上下左右中心といった特徴を捉えることができる最小のフィルタサイズ）を使用しネットワークを深くすると、正解率にどのような影響があるか調査。
⇒ 作成されたネットワークがVGGNetと呼ばれる。

2.VGGNetの工夫

サイズが3×3の畳み込みフィルタを何層も重ねることで、5×5や7×7といった受容野の大きい畳み込みフィルタと等価な受容野でより高性能な検出を実現
⇒未知のデータに対しても対応可能⇒ 一般化された特徴を学習可能であることを発見。
VGGNetには、11層、13層、16層、19層のものがある
16層と19層のネットワークが有名 ⇒ それぞれ「VGG16」、「VGG19」と呼ばれる。
VGGチームはLRN（Local Response Normalization ）の必要性も議論
・LRNの使用の有無、1×1畳み込み層の使用の有無でも実験
・VGG16、VGG19はLRNも1×1畳み込み層も使用せず、3×3畳み込み層、最大値プーリング層、全結合層のみから構成。

Local Response Normalization (LRN) とは･･･
　特徴マップの同一の位置にあり，隣接するチャネルの出力の値から，自身の出力の値を正規化する手法である．空間的に隣接する出力も考慮して正規化を行うLocal Contrast Normalization (LCN)と比較して，平均値を引く処理を行わず，より適切な正規化が行えるとしている．後述するVGGNetでは効果が認められなかったことや，batch normalizationの登場により，近年のモデルでは利用されなくなっている．
引用元：Qiita