1x1畳み込み

人工知能 (AI)

第二十六回 1x1畳み込み

画像を対象としたAIでは、通常の入力データはRGBの3チャンネルです。畳み込みおよび逆畳み込みでは、3チャンネルではパラメータ数が不足することから、数十以上のチャンネル数とすることが多いです。セマンティックセグメンテーションでは、最終的なチャンネル数は分類したい要素の数となるため、通常は畳み込み等のチャンネル数よりは小さくなります。

ここで説明する1x1畳み込みは、画像サイズを保ちながらチャンネル数を変更できることから、セマンティックセグメンテーションでよく用いられます。

下図は、計算プロセスの概念を示しています。入力画像は3チャンネル、フィルター数は1であり、出力画像は1チャンネルです。

フィルターの成分は3つありますが、それぞれ個別の入力チャンネルと結びついています。入力画像のいずれかのピクセルを選び、各チャンネルの同じ位置にある値を対応するフィルターの値と掛け合わせ、全チャンネルの結果を足していきます。こうして得られた値が、各ピクセルの出力となります。フィルター1つについて1チャンネルの結果が得られます。つまり、フィルターを3つ準備すれば、3チャンネルの結果が得られることになります。

フィルターの成分数は、入力および出力のチャンネル数によって決まります。例えば、入力チャンネル数が10、出力チャンネル数が3であれば、成分が10個のフィルターを3個準備することになります。

次の記事へ

目次へ

DXでさらなる成長を

ITによる社会貢献

第二十六回 1x1畳み込み