Contact
France
Contact us
Replay

Construire un patrimoine data exploitable, permettre un accès rapide et flexible à la donnée

News and insights
#Artificial intelligence

Une donnée disponible : fournir un accès centralisé à vos données décentralisées

La tendance depuis quelques années est à la rationalisation des plateformes et à la centralisation des données au sein de datalakes permettant le croisement et la modélisation de grands volumes de données déstructurées. 

Ce principe de centralisation de l’intégralité des données de l’entreprise au sein d’une même plateforme est souvent utopique au regard de la complexité des infrastructures et contraintes des directions IT (par exemple certaines contraintes réglementaires nécessitent d’isoler certains gisements de données). 

L’enjeu majeur n’est pas celui de la centralisation des données, mais celui de la mise en place d’accès centralisés à des données pouvant rester décentralisées. 

Par le biais d’une interface, des systèmes de requêtes distribuées permettent d’exposer et traiter des données provenant de gisements divers, évitant ainsi les sujets complexes de gouvernance de données associés à la centralisation du patrimoine data.

Une donnée compréhensible : fournir un accès centralisé à des connaissances décentralisées 

La connaissance de la donnée est souvent centralisée chez un groupe restreint de personnes, sans être correctement documentée. Les conséquences sur le projet et sur l’entreprise au global sont alors multiples: 

  • Coût d’opportunité : par manque de connaissance, on restreint l’apprentissage de l’algorithme a des données connues (certaines données pertinentes mais non connues de l’exploitant sont de fait exclues).

 

  • Perte de productivité : La personne en charge de réaliser le cas d’usage se trouve dépendant d’une tierce personne dans l’exploitation de la donnée, ce qui retarde souvent l’avancement des projets.

 

Une fois le patrimoine data de l’entreprise construit, il est stratégique d’en démocratiser la compréhension et l’usage via la mise en place de dictionnaires de la donnée répertoriant et explicitant l’ensemble des données disponibles (typologies, gisement source, significations technique & métier etc..).

L’objectif final est de réduire les dépendances et rendre autonome les ressources (souvent des ressources externes ou de récentes recrues n’ayant pas encore acquis de connaissances tangibles sur la structure et signification de la donnée dans l’entreprise).

Une donnée exploitable  : définir et lancer des stratégies de Quality-by-Design   

Utiliser la qualité de la donnée pour se différencier

Dans son livre de 1864 Passages from the Life of a Philosopher, Charles Babbage, mathématicien et inventeur, premier à énoncer le principe d’un ordinateur, écrit : “On m’a demandé à deux reprises, ‘Dites M. Babbage, si vous donnez les mauvais chiffres à la machine, est-ce qu’elle fournira les bonnes réponses ?’… Je suis incapable de comprendre le type de pensée confuse qui pourrait engendrer une telle question.”

L’importance de la qualité de données – sujet déjà clé à l’ère du Big data – se retrouve aujourd’hui renforcée avec l’Intelligence Artificielle. 

Toutes les entreprises ayant accès aux mêmes algorithmes disponibles sur l’étagère, le principal facteur de différenciation se situe au niveau de la matière première qui leur est fournie : la donnée. 

Le Machine Learning est basé sur la notion d’apprentissage ; il ne peut y avoir d’apprentissage juste sur des données inexistantes ou erronées. 

Pour Clément Cardi, Cloud Solution Engineer chez Google, “La mise en place d’une stratégie de qualité de données est  un prérequis au lancement d’une stratégie d’Intelligence Artificielle”. 

Lancer des programmes de “Quality-by-Design”

Alors que doit faire une entreprise pour tirer le meilleur parti de l’Intelligence Artificielle ? Face à la complexité de la tâche et à l’urgence du sujet, il est souvent complexe de savoir par où commencer. 

Le point clé est de privilégier des actions concrètes sur des périmètres de données critiques mais restreints, plutôt que des programmes long terme et chronophages, qui risquent de ne délivrer aucune valeur. 

 

téléchargez notre rapport sur l’ai factory !