Le « deep learning » fait partie d’une famille de méthodes d’apprentissage automatique fondées sur l’apprentissage de modèles de données. Une observation (comme une image) peut être représentée de différentes façons par un vecteur de données en fonction de :
- l’intensité des pixels dont elle est constituée ;
- ses différentes arêtes ;
- les différentes régions de forme particulière ;
- etc.
Certaines représentations et une bonne capacité d’analyse automatique des différenciations5 rendent la tâche d’apprentissage plus efficace.
Une des perspectives des techniques de l’apprentissage profond est le remplacement de travaux qui aujourd’hui sont encore relativement laborieux par des modèles algorithmiques d’apprentissage supervisé, non supervisé (c’est-à-dire ne nécessitant pas de connaissances spécifiques du problème étudié) ou encore par des techniques d’extraction hiérarchique des caractéristiques.
Les recherches dans ce domaine s’efforcent de construire de meilleures représentations du réel et de créer des modèles capables d’apprendre ces représentations à partir de données non labellisées à grande échelle. Certaines de ces représentations s’inspirent des dernières avancées en neuroscience qui sont grosso modo des interprétations du traitement de l’information et des modèles de communication du système nerveux, de la même façon que le système nerveux tente d’établir des connexions en fonction des messages reçus, de la réponse neuronale consécutive et du poids des connexions entre les neurones du cerveau.
Les différentes architectures de « deep learning » telles que les « deep neural networks », les « convolutional deep neural networks », et les « deep belief network » ont des champs d’application tels que la vision par ordinateur, la reconnaissance automatique de la parole, le traitement automatique du langage naturel, la reconnaissance audio et la bioinformatique6,7 où elles ont démontré qu’elles étaient capables de produire d’excellents résultats pour différentes problématiques.
Processeur DLU : Fujitsu promet 10 fois plus d’efficacité pour l’intelligence artificielle
Nouvelle architecture
L’architecture est bâtie autour de coeurs nommés DPU (Deep Learning Processing Unit). Le nombre exact de DPU est inconnu, mais on sait que chacun d’entre eux intègre 16 DPE (Deep Learning Processing Element), et chaque DPE offre huit unités d’exécution SIMD (Single Instruction Multiple Data), ainsi qu’un grand banc de registre au lieu d’une mémoire cache L1 traditionnelle. L’avantage de cette structure est que le banc est complètement programmable pour plus de flexibilité. Enfin, le package utilise une mémoire HBM2 partagée comme cache centralisé.
Les premiers DLU devraient sortir des chaînes de production l’année prochaine. Ils serviront de coprocesseur aux CPU SPARC déjà installés dans les supercalculateurs de Fujitsu. La firme devra aussi développer des applications tirant parti de sa nouvelle architecture.