画像認識は、AIの用途の中でも実用化が進んでいるものの一つです。画像認識AIの技術は進化を続けており、より便利かつ高精度になっています。使い方が明確なので比較的導入しやすいのも特長であり、画像認識からAIを使い始めようと考えている方も多いのではないでしょうか。
そこで本記事では、画像認識AIの仕組みを改めて解説した上で、最新動向についても紹介します。
画像認識AIは、人の目の代わりになって「画像に何が映っているのか」を認識するAIです。製造業、自動車、医療といったあらゆる業種で活用されており、次のような種類があります。
ここでは、画像認識AIの仕組みを改めてご紹介します。
AIが画像認識をする際は、画像の中から特徴量を抽出し、その特徴量を基に画面に映っているものを識別したり、状態を把握したりします。ここでいう特徴量とは、データの特徴を数値で表したものであり、画像認識の場合は画素(ピクセル)単位で計算を行うことになります。AIは人のように感覚でモノを認識することができないため、数学的な処理を行う必要があるのです。
また、AIが画像認識を行うためには、事前に対象となるモノの画像データを与えて学習させなければなりません。この時に、ひと昔前までのAIは人が対象となるモノの特徴量を教える必要があったため、専門的なノウハウを持たない人にとっては使いにくいという課題がありました。
しかし、近年主流となっているディープラーニングでは、AIが画像の中から自ら特徴量を見出せるようになりました。その結果、専門的なノウハウを持たない人であってもAIを使いやすくなりましたが、画像認識の精度を上げるためには、学習用に大量の画像データを用意しなければなりません。用途によっては画像データをそれほど集められないケースもあるので、その点が課題として残る形になっていました。
上述した通り、画像認識AIの課題は学習用画像データの収集でした。例えば、製造業の外観検査で不良品を識別したい場合は、不良品のサンプル画像を大量に集めなければなりません。ただ、不良品の発生率が低い場合は画像がそれほど集まらず、AIが十分に学習できなくなってしまうという課題がありました。
しかし、昨今ではこの課題を解消する方法がいくつか開発されています。
一つ目は、NTTコムウェアが提供する画像認識AI「Deeptector」が採用している正例判定型という学習モデルです。正例判定型では、少量の正例 (正常な状態=良品) 画像を与えて学習するだけで、負例 (異常状態=不良品) の判定が可能になります。もともとの品質水準が高く、不良品の画像データを集めにくい日本の製造業に適した学習モデルであるといえるでしょう。
二つ目は、東芝が開発しているAI技術の「Few-shot 物体検出AI」です。この技術では、追加の画像を1枚だけ与えれば画像認識の検出対象を増やせるといいます。一般的な画像認識の学習モデルでは、画像内に複数のモノがある場合に、正解として教えられたモノ以外は一律で背景として扱われてしまって検出されません。
しかし、「Few-shot 物体検出AI」の場合はあらかじめ正解以外のモノも検出候補として学習しておくことができます。そこに追加で検出したいモノの画像を1枚与えると、その画像と今までの学習内容とを比較することで、新たなモノを検出できるという仕組みです。検出するモノが頻繁に変わりやすい多品種少量生産の製造現場や、物流現場への導入に適しているといえるでしょう。
すでに画像認識AIは普及段階に至ったといえますが、まだまだ拡大する余地はあります。上述したように、より少ない学習用データで高精度な画像認識ができる技術が実用化されれば、さらに用途は広がっていくでしょう。画像認識AIの進化から目を離せません。