Un guide non technique pour comprendre l’apprentissage automatique

 

Dans la publication de la semaine dernière, nous avons discuté de la pertinence de l’apprentissage automatique (Machine Learning) pour votre entreprise. Dans le cadre de mes recherches, j’ai compris plus en profondeur ce qu’est l’apprentissage automatique et j’ai réalisé que la plupart des informations sur le sujet est technique et destinée aux développeurs ou aux analystes de données.

Une explication non technique m’a donc paru nécessaire.

Qu’est-ce que l’apprentissage automatique?

La définition la plus simple que j’ai rencontrée se lit comme suit :

L’apprentissage automatique est « […] la branche de l’intelligence artificielle (IA) qui explore les moyens d’amener les ordinateurs à améliorer leurs performances en fonction de leur expérience ». Source : Berkeley

Décomposons cette définition pour asseoir certaines fondations de l’apprentissage automatique et pour en améliorer notre connaissance.

Branche de l’IA : L’intelligence artificielle étudie la manière dont un ordinateur et ses systèmes ont la capacité d’accomplir avec succès des tâches qui exigeraient typiquement un comportement intelligent humain. L’apprentissage automatique fait partie du processus : c’est la technologie par laquelle nous formons l’ordinateur pour accomplir des tâches.

Explorer les moyens : Les techniques d’apprentissage automatique émergent encore. Certains modèles pour l’entrainement d’un ordinateur sont déjà reconnus et utilisés (comme nous le verrons ci-dessous), mais on s’attend à ce que davantage de modèles soient développés avec le temps. L’idée à retenir ici est que différents modèles peuvent être employés pour l’entrainement d’un ordinateur. Des problèmes d’affaires multiples nécessitent des modèles adaptés.

Améliorer leurs performances : Pour qu’un ordinateur accomplisse avec succès une tâche recourant à l’IA, il a besoin de pratique et d’adaptation. Un modèle d’apprentissage automatique doit être crée à l’aide de données et, dans la plupart des cas, d’un peu d’aide humaine.

En fonction de l’expérience : À mesure que davantage de données sont introduites dans le système, l’ordinateur peut y répondre de plus en plus efficacement. Plus on comprend précisément les données, meilleures sont les chances pour l’IA d’accomplir avec succès ses tâches et meilleur est le degré de confiance lors de l’analyse prédictive.

Exemple :

Lors d’une transaction par carte de crédit :

– Les données et leur contexte d’utilisation sont accumulés.
– L’algorithme d’apprentissage est construit et entraîné pour accomplir une tâche spécifique (ex. : identifier les transactions frauduleuses).
– Une fois l’algorithme entraîné, les résultats souhaités (à savoir : les transactions sont-elles frauduleuses ou non?) sont comparés à de nouvelles données dans leur contexte, ce qui permet de valider que l’algorithme est capable d’identifier les transactions frauduleuses. Quand un taux de confiance suffisant est atteint à partir des résultats obtenus, l’algorithme peut être utilisé pour identifier les transactions frauduleuses.

Comment l’apprentissage automatique fonctionne-t-il?

L’apprentissage automatique est souvent qualifié de magique ou appelé boîte noire :

Insérer des données → Boîte noire magique → Mission accomplie.

Jetons un coup d’œil au processus d’entrainement lui-même pour mieux comprendre comment l’apprentissage automatique peut créer de la valeur avec les données.

Recueillir : L’apprentissage automatique dépend des données. La première étape consiste à vous assurer que vous avez les bonnes données, dictées par le problème que vous essayez de résoudre. Pensez à votre capacité à les recueillir, à leur source, à leur format, etc.

Nettoyer : Les données peuvent être générées par différentes sources contenues dans différents formats de fichier et exprimées dans différentes langues. Il peut être nécessaire d’ajouter ou de supprimer des informations de votre base de données, car certaines instances peuvent être manquantes alors que d’autres peuvent contenir des entrées indésirables ou superflues. La préparation de la base de données aura un impact sur la fiabilité du résultat.

Séparer : Selon la taille de votre base de données, il se peut qu’une seule partie soit requise. C’est ce qu’on appelle habituellement l’échantillonnage. À partir de l’échantillon choisi, vos données doivent être divisées en deux groupes : l’un pour former l’algorithme et l’autre pour l’évaluer.
Entraîner : Cette étape vise essentiellement à trouver la fonction mathématique qui permettra d’atteindre avec précision le but choisi. L’entrainement prend des formes différentes selon le type de modèle utilisé. La mise en place d’une ligne dans un modèle de régression linéaire simple peut être considérée comme un entrainement; générer les forêts d’arbres décisionnels est également considéré comme de l’entrainement.
Pour simplifier les choses, concentrons-nous sur les réseaux de neurones. Fondamentalement, en utilisant une partie de votre base de données, l’algorithme tentera de traiter les données, de mesurer sa propre performance et d’auto-ajuster ses paramètres (c’est ce qu’on appelle aussi backpropagation) jusqu’à ce qu’il puisse produire le résultat souhaité avec une fiabilité suffisante.

Évaluer : Une fois que l’algorithme fonctionne bien sur les données d’entrainement, sa performance est mesurée à nouveau avec des données qu’il n’a pas encore vues. Des ajustements supplémentaires sont effectués en cas de besoin. Ce processus permet d’éviter la suralimentation, qui se produit lorsque l’algorithme d’apprentissage fonctionne bien, mais seulement avec vos données d’entrainement.

Optimiser : Le modèle est optimisé pour l’intégration dans l’application afin de s’assurer qu’il est aussi léger et aussi rapide que possible.

Existe-t-il différents types d’apprentissages automatiques?

Il existe de nombreux modèles qui peuvent être utilisés dans l’apprentissage automatique, mais ils sont généralement regroupés en trois types : apprentissage supervisé, apprentissage non supervisé et apprentissage par renforcement. Selon la tâche à accomplir, certains modèles sont plus appropriés et plus performants que d’autres.

Apprentissage supervisé : Dans ce type d’apprentissage, le résultat désiré pour chaque point de données est explicitement étiqueté lors de la formation du modèle. Cela signifie que la réponse est donnée à l’algorithme d’apprentissage lors de la lecture des données. L’apprentissage supervisé vise à trouver la relation plutôt que la réponse afin que lorsque des points de données non étiquetés sont introduits, l’algorithme puisse correctement les classer ou les prédire.

 

Dans un contexte de classification, l’algorithme d’apprentissage pourrait, par exemple, être alimenté par des transactions de cartes de crédit étiquetées comme étant sécuritaires ou suspectes. Il apprendrait la relation entre ces deux classifications et pourrait alors étiqueter les nouvelles transactions de façon appropriée, en fonction des paramètres de classification (par exemple emplacement d’achat, délai entre les transactions, etc.).

 

Dans un contexte où les points de données sont continus l’un par rapport à l’autre, comme pour le prix d’une action en bourse, un algorithme d’apprentissage de régression peut être utilisé pour prédire le point de données suivant.
6-Regression

 

Apprentissage non supervisé : Dans ce cas, l’algorithme d’apprentissage ne reçoit pas la réponse pendant son entrainement. Il doit trouver des relations significatives entre les données. La valeur de cet algorithme réside dans la découverte de modèles et de corrélations. Le partitionnement de données (clustering) est une utilisation courante de l’apprentissage non supervisé (pensons ici aux gens qui aiment cette bouteille de vin et qui ont également apprécié celle-ci).

L’apprentissage par renforcement : Ce type d’apprentissage est un mélange entre l’apprentissage supervisé et non supervisé. Il est généralement utilisé pour résoudre des problèmes plus complexes et nécessite une interaction avec un environnement. Les données sont fournies par l’environnement et permettent au modèle de réagir et d’apprendre. Dans la pratique, cela va du contrôle des bras robotisés pour trouver la combinaison moteur la plus efficace à la navigation robot, où le comportement d’évitement de collision peut être appris par la rétroaction négative qui accompagne le fait de de heurter des obstacles. Les jeux de logique sont également bien adaptés à l’apprentissage par renforcement, car ils sont traditionnellement définis comme une séquence de décisions : le poker, le backgammon et plus récemment Go, avec le succès d’AlphaGo de Google. D’autres applications de l’apprentissage par renforcement sont courantes dans la logistique, l’ordonnancement et la planification tactique des tâches.

À quoi peut servir l’apprentissage automatique?

Trois types de développement de l’apprentissage automatique ainsi que leur application au sein d’une entreprise sont à considérer : descriptive, prédictive et prescriptive.

Le type descriptif se réfère à l’enregistrement et à l’analyse des données historiques pour accroître l’intelligence d’affaires. Les gestionnaires reçoivent des informations descriptives et ont une meilleure compréhension des résultats et des conséquences des actions et des décisions passées. Cette utilisation est maintenant routinière pour la plupart des grandes entreprises du monde. Pensons par exemple à l’examen des ventes conclues et aux efforts de promotion correspondants pour comprendre leur impact et leur retour sur investissement.

Le deuxième type d’apprentissage automatique appliquée est la prédiction. Collecter des données et les utiliser pour prédire un résultat spécifique permet une réactivité accrue et permet aussi de prendre des décisions plus rapidement et avec plus de précision. Par exemple, prédire le moment de désabonnement d’un utilisateur peut aider à prévenir son départ. Cette étape d’application est de plus en plus adoptée par les entreprises.

Le troisième type d’apprentissage automatique est le type prescriptif. Il est de plus en plus adopté par les entreprises innovantes. La prédiction d’un comportement ou d’un résultat n’est pas suffisante pour viser des pratiques commerciales efficientes. Comprendre la cause, le motif et le contexte est une condition préalable à une prise de décision optimale. Concrètement, cette étape est possible lorsque l’homme et la machine combinent leurs efforts. L’apprentissage automatique est alors utilisé pour trouver des relations significatives et pour prédire les résultats, tandis que les analystes de données servent de traducteurs pour comprendre pourquoi la relation existe. Il devient donc possible de prescrire des actions avec plus de précision.

En outre, je voudrais ajouter une application de l’apprentissage automatique autre que l’analyse prédictive : l’automatisation des processus. J’ai fourni un aperçu et une comparaison plus détaillés de ces deux concepts ici

Voici quelques exemples des problèmes que l’apprentissage par machine peut résoudre.

Logistique et production

  • Rethink Robotics utilise l’apprentissage automatique pour entraîner ses bras robotisés et améliorer la vitesse de production;
  • JaybridgeRobotics automatise les véhicules industriels pour des opérations plus efficaces;
  • Nanotronics automatise les microscopes optiques pour des inspections améliorées;
  • Netflix et Amazon optimisent la distribution des ressources selon la demande des consommateurs;
  • D’autres exemples comprennent : prévoir les besoins ERP / ERM, prévoir la défaillance et la maintenance des actifs en améliorant le contrôle de qualité et augmenter la performance des lignes de production.

Vente et marketing

  • 6sense prédit quel client est le plus susceptible d’acheter et à quel moment;
  • Salesforce Einstein aide à anticiper les opportunités de vente et à automatiser les tâches;
  • Fusemachines automatise les tâches de vente avec un assistant AI;
  • AirPR fournit des informations pour augmenter les performances des relations publiques;
  • Retention Science suggère des actions inter-canaux pour stimuler l’engagement;
  • D’autres exemples incluent : la prédiction de la valeur à vie d’un client (LTV), l’augmentation de la précision de la segmentation des clients, l’identification des habitudes d’achat des clients et l’optimisation de l’expérience de l’utilisateur dans un environnement numérique.

Ressources humaines

  • Entelo aide les recruteurs à identifier et qualifier les candidats;
  • hiQ accompagne les administrateurs dans la gestion des talents.

Finance

  • Cerebellum Capital et  Sentient augmentent les décisions en matière de gestion des placements avec les logiciels d’apprentissage automatique;
  • Dataminr peut aider aux décisions financières en temps réel en fournissant des alertes sur les tendances sociales et les dernières nouvelles;
  • D’autres exemples comprennent : la détection des comportements frauduleux et la prédiction du cours d’une action.

Santé

  • Atomwise utilise des modèles prédictifs pour réduire le temps de production des médicaments;
  • Deep6 Analytics identifie les patients admissibles aux essais cliniques;
  • D’autres exemples comprennent : le diagnostic plus précis des maladies, l’amélioration des soins personnalisés et l’évaluation des risques pour la santé.

Mot de la fin

Rappelez-vous que la collaboration est la clé du succès. L’IA et l’apprentissage automatique sont fascinants, mais peuvent parfois être complexes. Ce serait mon plaisir de poursuivre la discussion avec vous et de vous donner un coup de main. N’hésitez pas à commenter ou à poser des questions ci-dessous. Vous pouvez également suivre notre blogue et me suivre sur Twitter ou me contacter directement via LinkedIn ou par courriel.