知能技術株式会社 | AIで手書き数字認識

お問い合わせ

大阪 06-6362-1008
東京 03-6869-5103
Mail:info@chinou.co.jp
[受付時間]
電話 平日 9:00~18:00
メール 24時間 受付
  • 日本語
  • English
  • Français
  • 中文 (中国)
  • MENU

    AIで手書き数字認識

    AIを勉強する人は、MNISTという手書き数字のデータセットを使って数字を分類するモデルを開発することから勉強を始めることが多いと思います。そのため、手書き数字認識は多くの人に知られていると考えられますが、ここでは少し変わった手法で手書き数字を認識するニューラルネットワークを使ったシステムの開発例を紹介致します。

    当社が開発したシステムは2つのニューラルネットワークで成り立ちます。1つは用紙上に書かれた数字の位置を予測するネットワーク(位置認識モデル)、もう1つは、見つけた数字が0から9までのどの数字であるかを予測するネットワーク(数字認識モデル)です。

     

    手書き数字認識システムのダイアグラム

    2つのモデルをデザインする際、Raspberry Piのような安価なマイコン上でも使用できるように可能な限り最良の精度を有したまま最小化したモデルを構築することを目標にしました。

     

    数字認識モデルについては、5万パラメータのニューラルネットワークでAIを構築しました。当社の研究では、モデルのサイズにとらわれず複数のモデルを試行した結果、達成した数字認識の最高精度は99.89%です。今回開発したモデルの数字認識精度は98.7%なので、当社比において最良とは言えませんが、とても小さいネットワークになっていることが特徴となっています。

     

    数字認識モデルでは標準的な畳み込みニューラルネットワーク(CNN)で構築しましたが、位置認識モデルには畳み込み層の後にアップサンプリングを入れました。このアップサンプリングによって、数字の存在をピクセル単位で予測することが可能になっています。この位置認識モデルは18万パラメータのニューラルネットワークで構築されており、その位置認識の精度は97%になりました。この位置認識モデルが予測した数字の位置に基いて、入力された画像から各々の数字を切り出し、切り出した数字を数字認識モデルに入力しています。

     

    当社は、ピクセル単位で1枚の画像上にある数字の位置を予測するこの位置認識モデルは、このシステムの最も興味深い機能の1つだと考えています。CNNを用いたピクセル単位の予測はコンピュータービジョンの課題解決を前進させる技術です。例えば、当社は単眼カメラで距離認識する技術の妥当性を研究していますが、ピクセル単位の予測はこの研究において肝となる技術となっています。

     

    その他の興味深い特性としては、モデルのサイズとその精度のバランスが挙げられます。当社が開発したモデルは小さくてもあまり精度を損なわないように構築しています。小さいモデルはあまり多くのメモリーを必要としませんので、Raspberry Piのような安価なマイコンでも精度の高い結果を得ることができます。

    【注記】
    このシステムを開発する際、数字認識モデルへのデータ入力について多くの課題に直面しました。

     

    例えば、MNISTのデータセットは1枚あたり①28x28画素サイズの画像になっていて、その中に②規格化された③グレースケールの数字が④画像の中央に配置されるようにして作られています。そのため、認識したい画像がこのような条件(①~④)を満たさない場合は、数字認識モデルの精度は低下します。例えば、入力された数字の縦横比が適切でなければ、数字認識モデルは7を1と誤認識したり、9を7と誤認識したりするようになります。当社が開発したシステムでは、このような課題を解決するために、数字認識のステップに入る前に従来の画像処理技術によって、切り出した数字画像を①~④に合致するように補正しています。

    その他の技術情報