Guide Complet : Installer PaddlePaddle avec Support CUDA sur NVIDIA Jetson Nano

L'adoption de plateformes de deep learning robustes sur des dispositifs d'edge computing tels que le NVIDIA Jetson Nano représente un enjeu majeur pour le déploiement d'applications intelligentes en périphérie. Cet article documente méticuleusement le processus d'installation du framework PaddlePaddle, spécifiquement avec le support CUDA, sur un NVIDIA Jetson Nano. Il couvre les étapes essentielles depuis la préparation de l'image du système d'exploitation jusqu'à la configuration de l'accès à distance, l'installation de paddlepaddle-gpu, et l'évaluation des performances de PaddleOCR à l'aide de CUDA et TensorRT. L'objectif principal est de consigner une configuration pour une référence future aisée, en abordant les spécificités techniques et les optimisations nécessaires pour tirer pleinement parti des capacités du Jetson Nano.

Prérequis Matériels et Préparation du Système sur NVIDIA Jetson Nano

La réussite du déploiement de frameworks de deep learning sur des plateformes embarquées comme le Jetson Nano dépend fortement d'une préparation adéquate de l'environnement matériel et logiciel.

Optimisation de l'Alimentation Électrique du Jetson Nano

Bien que le Jetson Nano puisse fonctionner avec une alimentation micro USB 5V/2A, il est crucial de noter que cette option peut s'avérer insuffisante. En effet, la tension de sortie réelle de certains adaptateurs ou la chute de tension à travers le câble peuvent entraîner une alimentation inadéquate. Cette insuffisance peut provoquer des dysfonctionnements, tels que l'incapacité du Jetson Nano à démarrer correctement ou la survenue d'erreurs inattendues, compromettant ainsi la stabilité de l'opération.

Par conséquent, il est fortement recommandé d'utiliser une alimentation DC 5V/4A. Cette recommandation n'est pas anodine : une telle source d'alimentation garantit non seulement un fonctionnement stable et fiable de l'appareil, mais elle permet également au Jetson Nano de fonctionner à pleine capacité. Une alimentation stable est une condition fondamentale pour les charges de travail intensives typiques du deep learning, où des calculs complexes sollicitent de manière significative les ressources du processeur et du GPU.

Préparation et Configuration de l'Image du Système d'Exploitation

La première étape logicielle consiste à préparer l'image du système d'exploitation. L'image utilisée pour cette démarche est l'image officielle du Kit de Développement Jetson Nano, jp-4.6.1 (datée du 23/02/2022). Cette version est basée sur Ubuntu 18.04 et intègre un ensemble de composants essentiels au deep learning, notamment CUDA 10.2, cuDNN 8.2 et TensorRT 8.2. Ces bibliothèques sont fondamentales pour l'accélération des calculs de réseaux neuronaux sur le GPU du Jetson Nano.

Lire aussi: Maîtriser Raft

Pour installer cette image, une carte microSD de 64 Go a été employée. Bien que la recommandation officielle préconise l'utilisation de balenaEtcher pour graver l'image sur la carte SD, il est important de signaler que des problèmes inattendus peuvent survenir durant ce processus, menant à des échecs de démarrage initiaux. De nombreux cas similaires peuvent être trouvés en ligne, suggérant que des alternatives ou une attention particulière peuvent être nécessaires lors de cette étape.

Une fois l'image gravée avec succès sur la carte microSD, il convient d'insérer cette dernière dans l'emplacement dédié du Jetson Nano. Après avoir connecté l'alimentation, l'appareil démarrera. Au premier démarrage, un ensemble de configurations de base sera requis. Le Jetson Nano peut être connecté à un moniteur externe, cependant, dans la majorité des cas, cette connexion n'est pas indispensable, car son utilisation principale est celle d'un dispositif de calcul en périphérie (edge computing). Cette capacité à fonctionner sans interface graphique locale constante est un atout majeur pour les applications embarquées.

Configuration de l'Accès à Distance via VNC (Vino-Server)

Pour faciliter la gestion à distance du Jetson Nano, une configuration VNC est souvent préférable. Après avoir expérimenté divers serveurs VNC et XRDP, le choix s'est porté sur Vino-Server. Cette décision a été motivée par sa simplicité de configuration et sa performance stable. Il est essentiel de noter que la méthode d'installation et de configuration de Vino-Server décrite ici est spécifiquement applicable au système Ubuntu 18.04 fonctionnant sur le Jetson Nano. À ce stade de la préparation, le Vino-Server est fonctionnel, permettant un accès graphique à distance au Jetson Nano.

Vérification Initiale des Composants Clés (CUDA, cuDNN, TensorRT)

Avant de procéder à l'installation de tout framework de deep learning, une étape critique consiste à vérifier et confirmer les versions des bibliothèques fondamentales déjà installées : CUDA, cuDNN et TensorRT. Ces informations sont cruciales car la compatibilité entre le framework de deep learning (dans ce cas, PaddlePaddle) et ces bibliothèques d'accélération GPU doit être assurée. L'image jp-4.6.1 inclut CUDA 10.2, cuDNN 8.2 et TensorRT 8.2, et il est impératif de s'assurer que ces versions sont correctement reconnues et opérationnelles avant de continuer. Cette vérification prévient d'éventuels problèmes de compatibilité qui pourraient survenir lors de l'installation ou de l'exécution de PaddlePaddle.

Déploiement et Installation du Framework PaddlePaddle-GPU

L'intégration d'un framework de deep learning performant tel que PaddlePaddle est l'objectif central de cette démarche, visant à équiper le Jetson Nano pour des tâches d'intelligence artificielle sophistiquées.

Le Rôle de PaddlePaddle dans le Deep Learning Industriel

PaddlePaddle se distingue comme l'unique plateforme de deep learning développée de manière indépendante en Chine et dédiée à la R&D. Ayant été officiellement mise en open-source pour les communautés professionnelles depuis 2016, elle est le fruit de pratiques industrielles concrètes, avec un engagement profond envers l'industrialisation des solutions d'IA. Cette origine pratique a conduit à son adoption généralisée dans une vaste gamme de secteurs, incluant la fabrication, l'agriculture, les services aux entreprises, et bien d'autres, tout en servant une communauté de plus de 2,3 millions de développeurs.

Si PaddlePaddle est installé avec succès, le framework de deep learning facilite grandement le développement d'applications, tout en réduisant la charge technique associée. Il y parvient en tirant parti d'un schéma programmable permettant d'architecturer les réseaux neuronaux de manière efficace. La plateforme prend en charge à la fois la programmation déclarative et la programmation impérative, garantissant ainsi une flexibilité de développement considérable tout en préservant des performances d'exécution élevées.

PaddlePaddle a réalisé des avancées significatives dans l'entraînement de réseaux de neurones profonds à très grande échelle. Il a notamment lancé la première plateforme d'entraînement open-source à grande échelle au monde capable de supporter l'entraînement de réseaux profonds avec 100 milliards de caractéristiques et des milliers de milliards de paramètres, en utilisant des sources de données distribuées sur des centaines de nœuds. Cette capacité est essentielle pour les applications d'IA de pointe.

De plus, PaddlePaddle se caractérise par sa polyvalence. Il est non seulement compatible avec d'autres frameworks open-source pour l'entraînement de modèles, mais il fonctionne également de manière optimale sur des développements omniprésents, s'adaptant à diverses plateformes et à une multitude de dispositifs. Plus précisément, PaddlePaddle est conçu pour accélérer la procédure d'inférence, offrant une rapidité inégalée. Le framework inclut et maintient plus de 100 modèles mainstream, qui ont été éprouvés et peaufinés sur de longues périodes dans l'industrie. Certains de ces modèles ont d'ailleurs remporté des prix majeurs lors de compétitions internationales clés, témoignant de leur efficacité et de leur robustesse. Il est supposé que les utilisateurs sont déjà familiarisés avec Fluid, un composant clé de l'écosystème PaddlePaddle.

Installation Spécifique de PaddlePaddle-GPU pour Jetson Nano

Pour utiliser des fonctionnalités comme PaddleOCR, il est impératif d'installer la version GPU de PaddlePaddle, désignée sous le nom de paddlepaddle-gpu. La version ciblée pour cette installation est la 2.5.0. Une particularité importante à considérer est l'architecture CPU du Jetson Nano, qui empêche une installation directe via pip, la méthode habituelle pour les architectures x86.

Face à cette contrainte, deux méthodes principales d'installation se présentent : soit compiler le framework soi-même à partir des sources, soit utiliser le package .whl pré-compilé et fourni par l'équipe officielle de Paddle spécifiquement pour les Jetson. La seconde option est généralement préférée pour sa simplicité et sa fiabilité.

Il est nécessaire de naviguer sur la page officielle des versions de PaddlePaddle pour télécharger le fichier .whl le plus récent et approprié. À titre d'exemple, un nom de fichier de package typique pourrait être paddlepaddle_gpu-2.5.0-cp37-cp37m-linux_aarch64.whl. La nomenclature de ce nom de fichier est très informative. La description de version, telle que Jetpack4.6.1: nv_Jetson-cuda10.2-trt8.2-Nano, indique que ce package est conçu pour Jetpack 4.6.1, qui inclut CUDA 10.2 et TensorRT 8.2, correspondant parfaitement à l'environnement du Jetson Nano. Par ailleurs, le nom du fichier révèle que la version de paddlepaddle-gpu est la 2.5.0 et qu'il est compilé pour Python 3.7 (cp37).

Un point de vigilance majeur est la version de Python. Actuellement, la version de Python supportée par paddlepaddle-gpu 2.5.x est la 3.7. Or, la version par défaut de Python sur le Jetson Nano avec l'image JP-4.6.1 est Python 3.6. Cette disparité nécessite une attention particulière à la gestion des environnements Python sur le Jetson Nano pour assurer la compatibilité et le bon fonctionnement de PaddlePaddle. Une gestion appropriée de l'environnement Python est donc une étape essentielle pour une installation réussie.

Application Pratique : Déploiement et Évaluation de PaddleOCR

Une fois PaddlePaddle installé, l'objectif est d'exploiter ses capacités à travers une application concrète, telle que PaddleOCR, et d'analyser les performances obtenues sur le Jetson Nano, en particulier avec l'accélération matérielle.

Présentation de PaddleOCR et ses Fonctions

PaddleOCR est une boîte à outils principalement dédiée aux fonctions de détection et de reconnaissance de texte. Elle offre un ensemble complet de modèles et d'outils pour traiter des tâches d'OCR (Optical Character Recognition) dans divers contextes. L'implémentation et l'optimisation de PaddleOCR sur le Jetson Nano permettent de démontrer l'efficacité de PaddlePaddle pour des applications d'intelligence artificielle à la périphérie.

Analyse Comparative des Performances d'Inférence

Un test simple a été effectué sur la reconnaissance de texte pour évaluer les performances de PaddleOCR sur le Jetson Nano. La configuration initiale pour ce test était ocr = PaddleOCR(warmup=True, use_gpu=False, use_tensorrt=False). Cette instruction signifie que le modèle d'inférence est exécuté en utilisant le CPU du Jetson Nano, et que l'accélération TensorRT n'est pas activée. Cette approche sert de base de comparaison pour évaluer les gains apportés par l'accélération GPU.

Les résultats de performance révèlent des observations importantes. Pour une configuration utilisant le GPU avec TensorRT, le chargement du modèle et la première exécution prennent un temps significatif. Cependant, les exécutions ultérieures deviennent extrêmement rapides, avec un temps d'inférence d'environ 0,03 seconde. Cela démontre une accélération très significative grâce à TensorRT, confirmant son rôle crucial dans l'optimisation des performances d'inférence sur les dispositifs NVIDIA.

Paradoxalement, la configuration utilisant uniquement le GPU, sans TensorRT, s'est avérée plus lente que la configuration CPU. Cette observation surprenante peut s'expliquer par plusieurs raisons potentielles. Premièrement, le modèle PaddleOCR utilisé est relativement léger et pourrait être plus optimisé pour les architectures CPU. Pour les petits modèles ou les ensembles de données de taille réduite, les surcharges liées au transfert de données entre le CPU et le GPU peuvent dépasser les gains d'accélération apportés par le calcul GPU. Le temps nécessaire pour transférer les données vers la mémoire du GPU, les traiter, puis renvoyer les résultats au CPU peut annuler les avantages du traitement parallèle du GPU si la tâche de calcul elle-même n'est pas suffisamment lourde. Il en ressort que les modèles de grande taille ou les grands volumes de données sont généralement mieux adaptés à l'accélération GPU, où le coût du transfert de données est amorti par les bénéfices des calculs massifs. Cette analyse met en lumière l'importance de l'optimisation par TensorRT pour tirer pleinement parti du GPU sur des dispositifs tels que le Jetson Nano.

Guide Complet pour l'Installation de PaddlePaddle avec Support CUDA sur NVIDIA Jetson Nano