Chinougijutsu Co., Ltd. | Détection de nombre à partir d’une intelligence artificielle.

Nous contacter

Osaka 06-6362-1008
Tokyo 03-6869-5103
Mail:info@chinou.co.jp
Téléphone Du lundi au vendredi 9:00-18:00
Courriel Courriel 24h/24
  • 日本語
  • English
  • Français
  • 中文 (中国)
  • MENU

    Détection de nombre à partir d’une intelligence artificielle.

    La plupart des personnes étudiant l’intelligence artificielle commencent généralement par utiliser la base de données MNIST pour s’initier à l’utilisation de modèle de classification. Nous avons développé ce type de système en utilisant un réseau de neurones convolutif, mais en ajoutant une difficulté supplémentaire, laisser le système trouver par lui-même où se trouvent les nombres à reconnaitre.

    Le système est composé de deux réseaux de neurones, un premier pour la prédiction de présence et de localisation des nombres, puis un second qui prédit quel est le nombre détecté (de 0 à 9) dans chacune de ces positions.

     

    Diagram: Détection de nombre à partir d’une intelligence artificielle.

    Lors du design des deux modèles, notre but principal était de créer la plus petite architecture possible tout en ayant une bonne précision de prédiction. Bien que la précision de notre modèle de reconnaissance ne soit pas la meilleure (la meilleure précision à notre connaissance est supérieure a 99.89%), nous avons réussi à créer un modèle ne comportant que 50,000 paramètres, ce qui le rend suffisamment compact pour être exécuté sur un ordinateur tel que le Raspberry Pi. Le modèle de localisation quant à lui se compose de 180,000 paramètres.

     

    Le modèle de reconnaissance de nombres est un réseau de neurones convolutif standard utilisée pour une tâche de classification des nombres et a une précision de validation de 98.7%.

     

    Le modèle de localisation est composé de couches de convolution suivies par des couches de convolutions/sur-échantillonnage dans le but de produire une prédiction sur chaque pixel de l’image. A partir de cette prédiction le système génère des patches à partir de l’image initiale et ceux-ci sont ensuite analysés un par un par le modèle de reconnaissance. Le modèle de localisation atteint une précision de validation supérieure à 97%.

     

    Une des propriétés les plus intéressantes de ce système est selon nous dans la capacité du modèle de localisation d’effectuer une prédiction sur chacun des pixels. Ce type de procédure grâce a un réseau de neurones convolutif est une méthode qui peut être utilisée dans beaucoup d’applications de traitement d’images lié à la robotique. Par exemple, dans nos recherches sur la prédiction de profondeur à partir d’une image, cette technique est essentielle.

     

    Une autre propriété intéressante de ce système se trouve dans l’équilibre existant entre la taille des modèles et leurs précisions de prédiction. Comme ces modèles sont relativement de tailles réduites, ils ne demandent pas beaucoup d’utilisation en mémoire et peuvent donc être exécutés sur des ordinateurs comme le Raspberry Pi.

    Note:

    Durant le développement de ce système, nous avons eu certains problèmes liés à la façon dont sont présentées les images aux modèles.

     

    Par exemple, la base d’image MNIST est composée d’images normalisées et centrées de nombre manuscrit avec une résolution de 28 par 28 pixels. Si les images présentées à posteriori de l’apprentissage ne respectent pas exactement ces mêmes propriétés, alors la précision de prédiction des modèles chute abruptement. De même, si le ratio d’échelle du nombre n’est pas proprement géré, le modèle de reconnaissance va commencer à « confondre » les nombres entre eux (un 7 va devenir un 1, un 9 peut devenir un 7, etc…). De ce fait, a priori de la prédiction, l’ajout d’étapes de traitement d’images permet d’améliorer drastiquement le succès de la prédiction lors de la reconnaissance.