- 「YOLO」について学びたいけど理解できるか不安・・・
- 「YOLO」を使うメリットが分からない?
- 「YOLO」を体系的に教えて!
「YOLO(You Only Look Once)」は物体候補領域の提案とクラス分類を1つのネットワークで処理をし高速な処理ができる物体検出モデルですが、興味があってもよく理解できないケースが非常に多いです。
私は過去に基本情報技術者試験(旧:第二種情報処理技術者試験)に合格し、また2年程前に「一般社団法人 日本ディープラーニング協会」が主催の「G検定試験」に合格しました。現在、「E資格」にチャレンジ中ですが3回不合格になり、この経験から学習の要点について学ぶ機会がありました。
そこでこの記事では、「YOLO」のメリット等についてポイントを解説します。
この記事を参考にして「YOLO」のポイントが理解できれば、E資格に合格できるはずです。
1.「YOLO(V1)」登場の背景
Faster RーCNN
物体候補領域の提案とクラス分類を異なるネットワークで処理
↓
YOLO(V1)
物体候補領域の提案とクラス分類を1つのネットワークで処理
(=1段階検出器)
||
You Only Look Once
(1回だけ見れば良い)
2.YOLO(V1)の工夫
- 入力画像をS×S(固定長)の Gridsに分割
- 候補領域の提案:
各 Grid において、その Gridの真ん中を中心とするB個のBounding Boxを生成 - クラス分類:各 Grid ごとに、含む物体のクラスを分類
バウンディングボックスで
候補領域を抽出
↗ ↘
入力画像をグリッド これらの情報を組
領域に分割 み合わせて物体認識
を行う
↘ ↗
各グリッドでクラス分類
を行う
3.YOLO(V1)のメリットとデメリット
メリット | デメリット |
---|---|
高速な処理 画像全体を1度に見るから、背景を物体と間違えることがない 汎化性が高い 精度は「Fast R‐CNN」より優れる | 精度は「Faster RーCNN」に劣る |
4.YOLO(V1)のネットワーク

YOLO(V1)のネットワークで何が出力されるのかなあ?

各 Gridにおける各Bounding Boxの中心、高さ、横(x、y、w、h)、
信頼度スコアの5つと各クラスに対応する特徴マップを同時に出力するよ‼
例えば次のとおり。
S = 7, B=2, クラス数 = 20の例
7 × 7 × (2 × 5 + 20) = 7 × 7 × 30
5.まとめ
最後まで読んで頂きありがとうございます。
皆様のキャリアアップを応援しています!!
コメント