Le traitement des données manquantes est un sujet fondamental en data-analytics. Peut-être avez-vous déjà entendu parler de prédiction de données ou d’imputation de données manquantes ? Comment est traitée l’absence ou l’ambiguïté de données dans les data-sciences ? Nous faisons le point sur ces questions fondamentales pour l’obtention d’analyses prédictives fiables.


Pourquoi avoir recours à la prédiction de données ?

Prenons un exemple simple : un directeur RSE chargé d’établir un reporting de la consommation énergétique sur un ensemble de 50 sites ne peut pas se permettre de renoncer à l’analyse de certains sites sur lesquels il manque quelques données. Idem lorsque les gestionnaires d’un parc immobilier disposent des consommations des parties communes mais pas des parties privatives. La prédiction de données est donc en quelque sorte un compromis pour éviter la perte d’information massive.

Imputer des données manquantes permet d’obtenir une vision macro plus fiable et obtenir des prédictions plus justes. Beaucoup d’algorithmes ne fonctionnent pas s’il y a des données manquantes : il s’agit donc de faire un arbitrage entre les valeurs et les variables.

À lire également : Algorithme et identification d’économie d’énergie : comment ça marche ?

Vous avez dit prédiction ? Pour quels cas ?

Dit simplement, la prédiction de données consiste à combler un manque d’informations dans une base de données. Plusieurs cas de figure peuvent nécessiter une imputation de données manquantes :

  • La donnée existe mais on ne la connaît pas : si je veux faire une analyse annuelle de ma consommation d’électricité avant d’avoir reçu ma facture du mois de décembre, je vais, par exemple, devoir imputer temporairement une valeur en attendant de connaître la donnée manquante.
  • L’absence de données dans la base est ambigüe : à la question “Un équipement, est-il présent sur site”, une case vide pourra être interprétée de plusieurs manières. On peut penser que le site ne dispose pas de l’équipement mais aussi que l’on n’a pas l’information. La donnée manquante est alors problématique puisque source d’interprétations multiples.
  • Le manque de donnée est tout à fait logique, dans certains cas de questions imbriquées notamment. Par exemple si un immeuble ne comporte pas de climatisation, il est attendu qu’on ne réponde pas à la question « Quel est votre type de système de climatisation ? ».
Livret Crédit Coopératif

Optimiser ses consommations énergétiques grâce à l’analyse de ses données existantes

Découvrez comment le Crédit Coopératif est parvenu à détecter des anomalies de consommation et obtenir un plan d'actions concret rapidement réalisable

Recevez le témoignage

 

2 grandes méthodes de prédiction de données

Pour imputer les données manquantes, on utilise principalement 2 méthodes reposant sur la mise en œuvre d’un système de règles ou l’application d’algorithmes de machine learning :

  1. Un système de règles logiques permet de combler les manques ou ambiguïtés en allant chercher les informations ailleurs (par exemple dans les relevés de consommation antérieurs) ou en identifiant un motif de non-réponse à la question. Par exemple, on peut supposer que si je n’ai pas d’information sur le mode de chauffage c’est que je suis au chauffage électrique.
  2. Des techniques plus complexes de machine learning peuvent agir par déduction vis-à-vis d’autres situations connues et similaires. Si les sites de même taille et situation géographique que celui étudié sont équipés d’une chaudière, on va imputer de manière déductive la donnée manquante « chaudière » au champ « mode de chauffage ».

En cas d’imputation de données manquantes, le choix d’une méthode de prédiction des données va dépendre du contexte, de la logique, du type de données, etc.

Si elles ne sont pas traitées, les données manquantes sont problématiques en data-analytics : elles peuvent fausser la vision globale qui peut être tirée de l’analyse, voire empêcher les algorithmes de prédiction de fonctionner correctement. La prédiction de données permet ainsi de mieux comprendre l’existant et tirer des conclusions grâce à l’analyse de données. À la clé : l’identification des bonnes décisions en matière de gestion énergétique.

Giulia Caputo

Publié par Giulia Caputo

Data-Scientist chez Deepki.