知能技术株式会社 | 通过AI技术,识别手写数字

联系我们

大阪 06-6362-1008
东京 03-6859-5103
Mail:info@chinou.co.jp
[受付時間]
电话 平日 9:00-18:00
电子邮件 每天24小时
  • 日本語
  • English
  • Français
  • 中文 (中国)
  • MENU

    通过AI技术,识别手写数字

    大多数人学习AI,一般在开始时多采用MNIST数据库去开发手写数字的识别分类模型。因此识别手写数字或许很多人并不陌生,但本文将介绍一种与以往不同的研发案例,在识别手写数字时,采用了不同手法的神经网络系统。

    我们已经开发了这样的系统用于神经网络系统中,但有一个额外的难点,就是如何让系统自己发现数字识别的位置。本公司研发的该系统由两个神经网络组成,第一个是预测纸上数字所处位置(位置识别模型),第二个检测在每一个先前检测到的位置上的从0到9的具体数字(数字识别模型)。

     

    通过AI技术,识别手写数字_Diagram

    在设计这两个模型时,我们的目标是尽可能在最小巧的结构中实现最精确的结果,以使其可以运行在Raspberry Pi这样成本低廉的个人计算机中。关于数字识别模型,我们设定了50000个参数的神经网络来构筑AI系统。在本公司的研发过程中,如果不考虑模型的结构大小,其最好的试验结果是,数字识别精确率在99.89%以上。此次,我们开发的模型的识别精确率是98.7%。虽然并非本公司研发的最优结果,但是其最大的特点是拥有非常小的结构网络。

     

    数字识别模型是由标准的卷积层神经网络CNN系统构成,但位置识别系统是在卷积层后加入了放大图像的上采样层。因此通过该上采样层,可以对数字位置进行逐像素为单位的预测。位置识别模型由180000个参数组成,该模型的验证准确率在97%以上。此位置识别系统基于纸张上的数字检测位置,从被输入的图像中产生各个数字的图像补丁,然后将每个图像补丁输入到数字识别模型中。

     

    我们认为该系统最有趣的功能之一是在这个位置模型中,以及从图像中进行像素预测的能力。利用卷积神经网络进行像素预测是一种在处理计算机视觉问题时可以推广的技术。例如,我们目前正在研究单眼摄像头进行深度预测图像的可行性,而像素预测是本研究的关键技术。

     

    这个系统的另一个有趣的特性是它在模型大小和精度之间的平衡。因为我们的模型很小,所以不需要太多内存,可以用在廉价的计算机上,比如Raspberry Pi。

     

    注记

    在本系统的开发过程中,我们遇到很多很多课题,比如,如何将必要数据输入到数字识别模型的方法等问题。例如,MNIST数据库是由1张标准化的28x28像素大小,将数字置于中心的灰度图像构成。如果我们输入不满足这些属性的图像,模型的精度就会下降。此外,如果输入位数的比例没有得到适当的考量,该模型将难以准确识别数字,比如7会被错误识别为1,9会被错误识别为7等。本公司研发的系统,为解决此类课题,在数字识别开始之前,通过图像处理技术将数字图像补丁进行修正,以满足如上属性,可以大大提高识别精度。