- 「Pix2Pix」について学びたいけど理解できるか不安・・・
- 「Pix2Pix」についてどこから学んでいいか分からない?
- 「Pix2Pix」を体系的に教えて!
「Pix2Pix」はCGAN(Conditional GAN)と同様の考え方で、ある入力画像をもとに、異なる出力画像を生成することができる画像変換モデルですが、難しそうで何から学んだらよいか分からず、勉強のやる気を失うケースは非常に多いです。
私は過去に基本情報技術者試験(旧:第二種情報処理技術者試験)に合格し、また2年程前に「一般社団法人 日本ディープラーニング協会」が主催の「G検定試験」に合格しました。現在、「E資格」にチャレンジ中ですが3回不合格になり、この経験から学習の要点について学ぶ機会がありました。
そこで、この記事では「Pix2Pix」を学習する際のポイントを解説します。
この記事を参考に「Pix2Pix」が理解できれば、E資格に合格できるはずです。
<<「Pix2Pix」のポイントについて今すぐ見たい方はこちら
目次
1.概要
Pix2Pixとは・・・
- 役割
・CGAN(Conditional GAN)と同様の考え方
・条件画像が入力 ⇒ 何らかの変換を施した画像を出力
・画像の変換方法を学習 - 各プレイヤーの役割(条件画像x)
・Generator:条件画像xをもとにある画像G(x,z)を生成
・Discriminator:以下のように識別(画像と画像のペア)
(条件画像x→Generatorが生成した画像G(x,z))の変換と、(条件画像x→真の変換が施された画像y)の変換が正しい変換かどうか識別する
2.ネットワーク

3.工夫1:U-Netを使用
UーNetとは・・・
- Generatorに使用
- 物体位置を検出
- 下図の矢印はスキップ接続を表し、Encoderで取得した特徴マップをDecoderで再利用する。
〈出力において〉
・物体の位置情報が抽出される
・ピクセル単位の分類が可能
・入力画像と出力画像のサイズは一致 - セマンティックセグメンテーション(意味的領域分割)を活用
画像に対して画素(pixel)レベルでクラスを予測する分類タスク

上図はUーNetを示した画像
引用元: O. Ronneberger, P. Fischer, and T. Brox: U-net: Convolutional networks for biomedical image segmentation, in International Conference on Medical image computing and computer-assisted intervention, Springer, pp. 234–241 (2015).
4.工夫2:L1正則化項の追加
L1正則化項の追加
- 損失関数に追加
- 普通のGANと異なり、Pix2pixは画像の変換方法を学習
⇒ 条件画像と生成画像に視覚的一致性が見られる - 画像の高周波成分(色の変化が顕著な部分)を学習
⇒ Generatorが生成した画像がぼやけることを防ぐ - L1正則化項の効果
セグメンテーション画像から復元する変換
5.工夫3:PatchGANの使用
PatchGANとは・・・
- 条件画像をパッチに分けて、各パッチで変換を考える
- 正確な高周波成分の強調 ⇒ 視覚的一致性の向上
- L1正則化項の効果を向上
6.応用タスク
応用タスクの例
- 線画に対し自動で着色を行う
- グレースケール画像 ⇒ RGB画像化
- 航空写真の地図画像化
- 画像の一部を背景などから補完する
- 入力画像を高画質な画像に変える
画像キャプショニングはPix2Pixの応用タスクに該当しない。
補足)画像キャプショニング:画像(入力)⇒文字(出力)
7.まとめ
最後まで読んで頂きありがとうございます。
皆様のキャリアアップを応援しています!!
コメント