コンピュータ・ビジョンをますます賢くするためのデータベース

カーネギー・メロン大学のロボティックス研究所では、常時ウェブをサーチし続けて、莫大な規模のビジュアル・データベースを構築しようとしているという。『カーツワイルAI・ネット』が伝えている

サーチを続けるこのプログラムは、ネバーエンディング・イメージ・ラーナー(NEIL)と呼ばれている。訳すと「永遠画像学習プログラム」というところだろうか。このプログラム自体が、現在の先進的なコンピュータ・ビジョン技術を用いて画像の中のモノを認識し、色や光、素材などその背景や特徴を学習する。

これをずっと続けていくことで、モノだけではなく、そのモノの置かれた状況をビジュアルに判断できるような能力を持つようになる。たとえば、「車はよく道路上にいる」とか「ヘリコプターは飛行場にあることが多い」といったようなことだ。つまり、「常識」を獲得するのだ。

同研究室では、今年7月末から300万の画像を分析して50万の画像から1500種類のモノを認識し、数10万の画像から1200種類の背景を認識したという。徐々にサブカテゴリーを作り、ここから「車には車輪が付いている」といったような関係性を推定できるようにするという。

NEILで「行列」という画像の特徴を呼び出したところ(http://www.neil-kb.com/より)

NEILで「行列」という画像の特徴を呼び出したところ(http://www.neil-kb.com/より)

このプログラムの目的は、構造化されたビジュアルのナレージベースをつくることだという。用途は、もちろんロボットを含め機械認識が必要になるすべての状況を考えているという。

研究のサイトでは、モノ、背景、特徴などで画像を呼び出すことができるが、なかなかの驚きがある。またNEILを訓練するために、学習してほしいコンセプトを入力することもできる。ぜひ試されたい。