En data-analytics, la prédiction de données consiste à traiter les données manquantes pour fiabiliser les résultats et obtenir les prédictions les plus justes possibles. Mais comment choisir entre un système de règles et le machine learning ? Quels sont les avantages et les inconvénients de chaque méthode ?


Prédiction de données énergétiques pour une foncière : 2 méthodes

Prenons l’exemple d’une société foncière chargée de la gestion d’un ensemble immobilier de bureaux intégrant des espaces privatifs et des parties communes. Si la foncière possède les factures des parties communes (électricité des couloirs, cages d’escalier…), elle ne dispose pas toujours de toutes les informations relatives à la consommation d’énergie dans les parties privatives (les bureaux loués, par exemple).

Dans le cas d’une gestion multi-sites comprenant à chaque fois plusieurs locataires, comment imputer les données manquantes pour avoir une vision globale de la gestion énergétique sur la totalité du parc immobilier ? Il existe 2 manières d’aborder le problème :

  • soit on cherche à estimer la consommation par des règles de calcul simples en se basant sur des données existantes ;
  • soit on utilise une approche plus complexe de machine learning prenant en compte toutes les variables censées avoir un impact sur la consommation pour prédire les données manquantes.

À lire également : Foncières – Qu’est-ce que la prédiction de données et pourquoi votre directeur.rice RSE ne pourra plus s’en passer

1. Les règles pour imputer les données manquantes

Exemples de règles pouvant être mises en œuvre

La mise en œuvre de règles simples peut s’avérer pertinente dans différents cas :

  • La foncière a la consommation d’électricité du même mois sur l’année précédente : elle peut appliquer cette valeur.
  • Elle dispose des consommations pour ce locataire à d’autres dates : elle peut utiliser la consommation surfacique moyenne du locataire
  • Elle connaît les consommations pour le site entier à la même date : elle peut prendre la consommation surfacique moyenne des autres locataires à cette date et la multiplier par la surface occupée par le locataire au même moment.
  • Elle possède les consommations pour ce site entier à d’autres dates : elle peut se baser sur la consommation surfacique moyenne des autres locataires aux différentes dates et la multiplier par la surface occupée par le locataire à cette date.

Les règles seront combinées en fonction des différents cas de figure pour prédire les consommations en fonction de la surface, de celle du bureau voisin, de l’historique de consommation, etc.

Avantages et inconvénients des systèmes de règles

Méthode compréhensible par tous, l’approche d’imputation des données manquantes par règles logiques donne de bons résultats lorsqu’on l’utilise pour des sites aux consommations régulières. Elle peut être appliquée d’un client à l’autre.

Cette méthode est en revanche difficilement applicable si l’on ne dispose pas de données privatives pour établir des comparaisons. De plus, elle ne tient pas compte de la météo, du nombre d’employés présents dans les bureaux et du recours à d’autres énergies.

Les critères propres à chaque type d’occupant ne sont par ailleurs pas considérés, ce qui peut poser des problèmes d’anticipation : un commerce ne consomme pas la même quantité d’énergie qu’un cabinet d’avocats par exemple. On risque par ailleurs de fausser l’évaluation de la consommation en exploitant un niveau de consommation exceptionnel qui ne tient pas compte des spécificités de chaque occupant.

2. Le machine learning appliqué à la prédiction de données

Des algorithmes capables d’intégrer de nombreuses variables

Par rapport à un système de règles logiques, la méthode du machine learning permet de prendre en compte un plus grand nombre de variables. Basé sur l’analyse d’un ensemble de données fiables (ou fiabilisées), le machine learning repose sur des algorithmes capables d’exploiter les liens entre variables pour en tirer des enseignements.

Intérêts et contraintes du machine learning

Faisant appel à un plus grand nombre de variables (code NAF, nombre de compteurs, date de construction, DJU…), le modèle du machine learning s’adapte plus facilement aux évolutions de consommation liées à un changement de surface, de météo, d’activité etc. Il permet donc d’obtenir des informations plus contextualisées que les règles logiques.

Donnant des résultats plus précis qu’un système de règles, cette méthode nécessite cependant une phase de fiabilisation des données d’entrée relativement longue. Sans cette étape indispensable, l’analyse pourrait être faussée et la prédiction non pertinente. Autres inconvénients, le modèle fonctionnel appliqué à un client donné n’est pas transposable à d’autres clients et il comporte des risques de sur-apprentissage, bloquant ses capacités de prédiction.

En résumé, les règles de calcul appliquées à l’imputation de données manquantes conviennent très bien pour des consommations régulières mais sont difficiles à appliquer en cas d’évolution des données. En effet, les règles logiques ne sont pas capables d’anticiper les décrochages de consommation et de s’adapter au contexte. Pour sa part, le machine learning permet d’imputer des données manquantes de plus grande qualité et précision, mais la construction du modèle fonctionnel nécessite plus de temps au départ pour fiabiliser les données entrantes. À chaque méthode ses avantages et inconvénients qu’il conviendra de mesurer avant de se lancer dans la prédiction des données !

Téléchargez le
retour d'expérience








Agathe Monteil

Publié par Agathe Monteil

Content Manager chez Deepki.