L’IA et les données, des inséparables!

Dans cet article, j’aborderai l’importance des données et de leur analyse pour concevoir une intelligence artificielle (IA) efficace et performante. Mais, tout d’abord, mettons-nous en contexte.

Un problème typique à résoudre pour une entreprise consiste à anticiper les besoins de ses clients. Prenons par exemple un assureur qui veut savoir quelles couvertures d’assurance seraient les plus avantageuses pour son client, en fonction de ses besoins. Plusieurs facteurs peuvent influencer le client dans le choix d’une assurance (mais aussi dans le choix d’un assureur!) : son âge, ses études, sa santé, sa situation financière actuelle et future, ses dettes, ses objectifs à court et à long terme, et j’en passe! Considérant qu’un assureur peut avoir un large éventail de clients, il peut devenir difficile pour lui de garder en tête tous ces paramètres spécifiques à chaque client. Dans ce genre de situation, une IA pourrait être conçue. Assistant l’assureur, elle pourrait rapidement cibler le type des clients et suggérer l’assurance qui leur convient le mieux.

 

L’intelligence artificielle

L’intelligence artificielle, c’est l’art de développer un système capable d’accomplir des tâches faites normalement par l’humain. Et comment s’y prend-on? Tout comme pour un enfant qui apprend par l’expérience de ses erreurs et de ses réussites, la machine « apprend » à partir des expériences qui lui permettront d’accomplir ce que l’on attend d’elle. Et toujours comme l’enfant qui a besoin d’une personne pour lui enseigner des tâches, l’IA a besoin d’aide pour apprendre. Au cours des dernières années, les méthodes d’apprentissage automatique (machine learning) ont prouvé leur efficacité pour « enseigner » à un système (ici l’IA) comment effectuer des tâches jusque là réservées aux humains. (Pour en savoir davantage sur l’apprentissage automatique, consultez l’article de notre blogue : Un guide non technique pour comprendre l’apprentissage automatique)

Et comment fournit-on de l’expérience à une machine? Grâce aux données (ou Data), qui constituent l’information qui permet de caractériser une situation, un phénomène, un élément, etc. Les données, sous toutes leurs formes, donnent de l’expérience à la machine qui lui permet de faire les corrélations voulues pour accomplir une tâche.

Si une IA utilise les caractéristiques des clients (l’âge, les objectifs, etc.), elle peut classifier celles-ci dans différents groupes. Par la suite, l’IA suggère un ou des types de couvertures qui dépendent de ce que les autres membres du groupe ont choisi. Une personne peut accomplir ce genre de tâche si les variables relatives au client et les produits qui y sont rattachés sont simples. Cependant, à plus grande échelle (pensez à ce qu’Amazon fait en ligne), l’homme a besoin de la machine. Le nombre de variables, de clients et de produits nécessitent alors une IA pour accomplir ces tâches efficacement.

La quantité et la fiabilité des données déterminent le niveau de précision qu’aura l’IA pour répondre au problème de l’entreprise. Généralement, plus grande est la quantité de données, meilleure sera l’IA pour faire des prédictions. La collecte, la distribution et la validation des données sont donc des enjeux importants dans la création de solutions impliquant l’IA.

Mais comment fait-on pour bien traiter les données afin qu’elles puissent être utiles dans notre IA?

Deux mots : Data Science

Décortiquons ce concept avant d’aller plus loin.

Qu’est-ce que la Data Science?

J’ai trouvé une définition qui me semble la plus rapprochée de ce que l’on veut démontrer ici.

La science des données (ou Data Science) est un domaine interdisciplinaire au sein duquel les méthodes scientifiques, les mathématiques, les statistiques et l’information se chevauchent dans le but d’extraire des connaissances et des idées à partir d’ensembles de données. Source : Wikipedia et simplystats

Pour l’expliquer simplement, la Data Science, c’est l’art de trouver et de choisir l’information cachée, c’est-à-dire les différentes associations et causes entre les caractéristiques du client et le fait qu’il possède tel ou tel type de couverture d’assurance. Pour ce faire, on se sert bien sûr d’outils mathématiques, statistiques et informatiques, mais également du savoir déjà acquis sur le contexte que l’on cherche à étudier. Par exemple, une association peut potentiellement exister entre la marque, l’année et le modèle du véhicule d’un client et sa décision de prendre l’assurance valeur à neuf. Cependant, où faut-il tracer la ligne? Une civic 1998? Une BMW 2010? Des modèles mathématiques peuvent nous aider à prédire ceci. L’enjeu que plusieurs compagnies vivent aujourd’hui, c’est celui de décider si cette tâche devrait être effectuée par une personne ou par une IA.

Le choix des données dans une IA

Mais certains vont me dire, à quoi cela sert-il de chercher à comprendre le contexte de fond en comble? Si on a déjà beaucoup de données, ne serait-il pas plus simple d’utiliser toutes ces données et de laisser, par exemple, un réseau de neurones s’entraîner par lui-même à trouver les différents liens pour accomplir la ou les tâches voulues?

Erreur.

En termes plus techniques, trop d’informations dans un modèle signifie l’augmentation de la variabilité, ce qui entraîne l’instabilité du modèle. Concrètement, quand il s’agit de prédire si un client va choisir une police d’assurance vie, s’il s’avère que l’âge est fortement corrélé avec le fait que ce client soit aux études, on se retrouve avec deux informations, ce qui n’est pas utile dans cette mesure. On n’aurait ici besoin que de l’âge (ou du fait d’être étudiant) pour prédire. Pourquoi faire avec beaucoup si on peut avoir les mêmes résultats avec moins? La collecte d’information s’en trouve minimalisée, et donc, l’entraînement de l’IA par apprentissage automatique est plus simple. Au final, on sauve temps et argent!

Guide pour faire de la Data Science

Je vous ai maintenant concocté un petit guide qui permet de résumer (brièvement) les principaux points de la recherche sur un ensemble de données.

Comprendre les besoins de l’entreprise : Comprendre les besoins permet une meilleure approche en termes d’analyse pour le Data scientist. Ainsi, celui-ci sait où chercher la meilleure information, qui permettra de répondre (ou d’avoir une réponse qui correspond le mieux) aux problèmes de l’entreprise.

Comprendre la structure des données : Avoir des données, c’est bien, mais il faut savoir ce qu’elles contiennent pour savoir si elles peuvent répondre aux besoins de l’entreprise. Comprendre l’implication de chacune des caractéristiques dans le système et comprendre les liens entre les différentes variables permet de mieux cibler ce que l’on cherche.

Préparer l’ensemble des données : Le nom le dit, c’est la préparation du data. Cela implique : nettoyage, transformation, filtrage et traitement. Cette étape est primordiale avant toute recherche d’information dans les données, puisque c’est celle qui permet de savoir si les conclusions obtenues lors des analyses seront exactes.

Modélisation et évaluation : Analyses statistiques au menu. On veut savoir si, premièrement, les hypothèses préétablies sont exactes et, deuxièmement, si l’information est suffisamment pertinente pour expliquer (ou prédire) la variable d’intérêt. C’est à cette étape qu’on détermine principalement la fameuse boîte noire, qui sert à la prédiction qui répondra au problème de l’entreprise.

Déploiement : Lorsque les hypothèses ont été validées et que le modèle final avec les bonnes entrées a été trouvé, l’apprentissage automatique ou le modèle statistique peut être utilisé sur des données en temps réel et être implanté dans la machine. Les tâches que celle-ci doit accomplir sont réparties de sorte à ce que tout se coordonne comme il se doit.

Avant de finir…

Ne jamais oublier l’importance de la Data science lorsqu’on veut concevoir une intelligence artificielle. L’expression “You are what you eat” prend tout son sens lorsqu’on parle de data et d’IA. L’intelligence artificielle devient ce qu’on lui donne en entrée (les données). Si les données ne sont pas traitées de la bonne façon, la machine ne fera pas ce que l’on veut.

J’espère que cela vous a permis de mieux comprendre l’importance des données et de leur traitement dans le domaine de l’IA et de l’apprentissage automatique. Dans mon prochain article, nous allons nous arrêter sur le processus d’identification d’un problème, sur la sélection et sur le nettoyage des données, en préparation pour l’apprentissage automatique et l’IA. Tout ça, en utilisant un ensemble réel de données! Abonnez-vous à notre blogue pour savoir quand il sera en ligne. 

En tant que jeune Data scientist, je m’intéresse beaucoup à la recherche scientifique, et surtout aux méthodes statistiques et mathématiques qui entourent ce domaine. Je serai heureux de lire vos commentaires et questions et d’en discuter davantage. Vous pouvez me suivre ou communiquer avec moi sur LinkedIn, Twitter ou directement par email.