Qu’est ce qui freine le plus l’efficacité de l’IA?
L’intelligence artificielle (IA) fait la une des rubriques technologiques presque tous les jours, et une grande partie de cette effervescence médiatique semble liée à la question de savoir qui possède le modèle le plus puissant, le plus « cool », le plus intelligent et le plus susceptible de changer l’ordre établi.
En focalisant sur la complexité et les prouesses technologiques des modèles, on occulte toutefois un facteur bien plus important : la qualité des données.
Les données utilisées par ces modèles sont-elles exactes? Sont-elles fiables? D’où viennent-elles? Sous quelle forme?
Vous pouvez posséder la Ferrari la plus belle, mais vous n’irez pas très loin sans le bon carburant.
Pire, une erreur à la pompe pourrait vous exposer à des réparations très onéreuses.
Facteurs liés aux données dans la réglementation de l’IA au sein du secteur des services financiers
L’utilisation des données dans l’IA a été l’un des sujets abordés par un prestigieux groupe d’experts provenant des services financiers, du secteur public et du milieu universitaire lors d’ateliers tenus dans le cadre du Forum sur l’intelligence artificielle dans le secteur des services financiers (FIASSF).
Les différents échanges et le rapport qui en a découlé se sont articulés autour de quatre principes clés qui orientent l’utilisation et la réglementation de l’IA dans le secteur financier.
- E – Explicabilité
- D – Données
- G – Gouvernance
- E – Éthique
Dans cette série d’articles – qui a commencé avec l’explicabilité et qui se poursuit ici avec les données – nous examinons de près chacun de ces thèmes ainsi que les enseignements à en tirer et leur application à la recherche et aux activités dans le domaine de la réglementation.
À noter que le contenu de cet article et du rapport sur l’IA reflète les points de vue et les idées des conférenciers et des participants du FIASSF. Il ne doit pas être considéré comme étant représentatif de l’opinion des organisations auxquelles ils appartiennent, que ce soit les organisateurs du FIASSF, le Bureau du surintendant des institutions financières (BSIF) ou l’Institut du risque mondial (IRM).
De plus, le contenu de cet article et du rapport ne doit pas être interprété comme une directive du BSIF ou de tout autre organisme de réglementation, maintenant et dans l’avenir.
À données inexactes, résultats erronés
Le vieil adage de la programmation « à données inexactes, résultats erronés » peut s’appliquer ici.
Autrement dit, la qualité des données de sortie est tributaire des données d’entrée.
« Tout le monde ne parle que de modèles
, explique Ima Okonny, dirigeante principale des données à Emploi et Développement social Canada, dans le rapport du FIASSF. Nous devons d’abord nous concentrer sur l’analyse adéquate des données... et faire évoluer les mentalités vers l’intendance des données.
»
Les participants au forum se sont concentrés sur quatre questions clés au sujet des facteurs liés aux données dans l’IA :
- Quelle incidence peut avoir un ensemble de données variées sur la qualité des données?
- Quels sont les défis posés par l’IA en matière de gouvernance des données?
- Comment peut-on gérer les risques liés à l’IA qui découlent de l’exposition à des tiers?
- Quelles sont les difficultés que présente l’alignement des données et des stratégies commerciales?
Les données utilisées pour l’entraînement et le développement de l’IA présentent plusieurs caractéristiques qui, lorsqu’elles sont exploitées par l’IA, offrent un large éventail de possibilités. Cependant, ces caractéristiques (comme le volume, la variété et l’agilité des données) peuvent complexifier l’intégration et la normalisation des données ainsi que la gestion des risques connexes pour les institutions financières.
Obstacles à l’obtention de données utiles
La qualité des données revêt une importance particulière.
De nombreux obstacles rendent toutefois de plus en plus difficile le maintien de données de qualité élevée.
Le rapport du FIASSF dresse une liste non exhaustive de cinq obstacles à cet égard :
- Incohérence : Les données peuvent être très incohérentes; elles peuvent avoir des formats, une structure et des niveaux de détail variables. Ces incohérences peuvent complexifier le repérage de tendances dans les données.
- Bruit : Les fautes de frappe, les erreurs grammaticales et les informations non pertinentes souvent trouvées dans les données peuvent rendre l’extraction d’informations utiles plus difficile.
- Manque de contexte : Sans contexte approprié, il peut devenir difficile de comprendre la signification de certaines données. Par exemple, lorsqu’un client inscrit dans un formulaire de commentaire « Je ne suis pas satisfait du service », il ne précise pas clairement le service duquel il se plaint.
- Qualité des sources : Les données peuvent provenir de diverses sources telles que les médias sociaux, les commentaires des clients et les articles de presse, dont la qualité et la fiabilité sont variables.
- Double sens : Certains types de données peuvent avoir une interprétation vague ou être compris différemment selon l’utilisation qui en est faite.
Par conséquent, comment gérer tous ces risques liés aux données?
Si la recherche dans ce domaine continue d’évoluer, les ingénieurs et les experts en science des données disposent déjà de nombreuses approches, comme l’exploration continue, le nettoyage, la validation et l’intégration des actifs de données, qu’ils peuvent appliquer.
Cependant, malgré ces approches, garantir la qualité des données se révèle complexe.
Recherche de solutions
Une autre façon efficace d’améliorer la qualité des données utilisées dans l’IA consiste à assurer une gouvernance solide.
Comme l’explique le rapport du FIASSF : « Une bonne gouvernance des données peut contribuer à garantir l’exactitude, la cohérence, la sûreté et l’exhaustivité des données, toutes des caractéristiques essentielles au bon fonctionnement des systèmes d’IA. La gouvernance des données est également essentielle pour les institutions financières compte tenu de la nature délicate et confidentielle des données financières et des données clients.
»
Qu’est-ce que cela signifie concrètement?
Les participants au forum ont discuté des stratégies permettant aux entreprises d’améliorer la gouvernance de leurs données et, par surcroît, leurs modèles d’IA.
La première stratégie repose sur l’adoption d’une approche centrée sur les données pour élaborer un modèle.
« Pour améliorer les performances des applications d’IA et des modèles traditionnels, on peut bonifier continuellement les données utilisées pour entraîner ces modèles. Cette approche est connue sous le nom d’approche centrée sur les données
», peut-on lire dans le rapport.
« Au lieu de mettre l’accent sur l’itération et le recyclage des algorithmes pour rehausser les performances, l’intégration d’une approche centrée sur les données optimise le potentiel du modèle. Une saine gouvernance des données est nécessaire à l’adoption d’une approche de développement de modèles d’IA centrée sur les données.
»
Une autre stratégie consiste à instaurer une solide culture de littératie des données.
Le rapport précise : « En effet, pour soutenir l’adoption généralisée de l’IA, il est nécessaire de sensibiliser l’ensemble de l’organisation aux divers risques qui découlent d’une utilisation inadéquate des données. Par conséquent, les organisations devraient envisager des activités de formation continue pour leur effectif sur un éventail d’aspects liés aux données
».
Pour en savoir plus sur les facteurs liés aux données dans l’IA ainsi que sur les autres thèmes abordés par les participants au forum, consultez le rapport complet du FIASSF (PDF).