Tout d’abord, qu’est-ce que le machine learning ? Nous le définirons ici comme un ensemble de méthodes qui, après l’analyse et l’interprétation automatiques de données, permet à un système de répondre à un problème précis face à un nouveau jeu de données. En machine learning, on distingue deux façons de poser un problème : l’apprentissage supervisé VS non-supervisé et les méthodes de classification VS régression. Comment utilise-t-on ces méthodes et quelles réponses peuvent-elles apporter en matière de performance énergétique ? Présentation de différentes approches du machine learning illustrées par des applications concrètes.


L’apprentissage supervisé VS. non-supervisé

La grande différence entre les deux méthodes d’apprentissage réside dans le type de données analysées au départ.

Dans le cadre de l’apprentissage supervisé, nous avons à disposition des données étiquetées. C’est-à-dire qu’on a associé à un individu comprenant un certain nombre de caractéristiques une catégorie ou une valeur chiffrée. Cette catégorie ou valeur chiffrée est désignée par le terme d’ « étiquette » ou « label ».
Par exemple, un problème pourrait être de prédire la consommation énergétique (ici, l’étiquette) d’un bâtiment (ici, l’individu étudié) grâce à ses données de surface, nombre d’employés, géolocalisation etc. (ici, ses caractéristiques).

Dans l’apprentissage non-supervisé, ces fameuses étiquettes ne sont pas connues, ou pas disponibles. Tous les individus que nous étudions se ressemblent a priori. L’objectif de l’apprentissage non-supervisé est donc d’organiser les données pour comprendre ce qui les distingue et les rassemble.
Par exemple, un problème pourrait être de segmenter un ensemble de bâtiments au sein d’un parc immobilier grâce aux données de surface, nombre d’employés, géolocalisation, consommation énergétique etc. afin de trouver les groupes de bâtiments comparables entre eux.

Dans cette catégorie de problème, nous pouvons citer les méthodes de clustering (segmentation) ou de détection d’anomalies.

Cas d’usage Paul
En croisant et en segmentant toutes les données énergétiques, le clustering appliqué au réseau des boulangeries Paul a permis de discerner une typologie particulière de sites ayant une forte consommation en heures creuses. L’analyse a mis en lumière un problème de régulation nécessitant le réglage de nouveaux fours tout juste installés et mal programmés.

Classification VS. Régression

Parmi les méthodes d’apprentissage supervisé, on distingue les cas de classification et de régression. Encore une fois, la différence tient dans le type de données analysées.

Dans le cadre de la classification, les étiquettes sont des classes ou des catégories prenant un nombre de valeurs finies.
Par exemple, dans un parc de bâtiments, on peut imaginer qu’il y ait trois types de sites : banque, siège social et guichet automatique de billets. Un modèle de classification cherchera à prédire la typologie de chaque site à partir de ses caractéristiques (surface, nombre d’employés, géolocalisation, consommation énergétique etc.).

Dans le cadre de la régression, les étiquettes sont de nature quantitative et prennent un nombre de valeurs potentiellement infinies.
Par exemple, à partir des caractéristiques d’un site, on peut prédire sa consommation. Cette valeur peut être comprise entre 0 et l’infini (et pas seulement 10 kWh, 1000 kWh ou 10 000 kWh par exemple).

Le machine learning expliqué par Giulia Caputo

Avec les algorithmes de machine learning, il est désormais possible de détecter des pistes d’amélioration énergétique simplement à partir d’une analyse de données existantes. La méthode employée dépend surtout des données dont on dispose et de leur structuration. Mais, quelle que soit la méthode appliquée, le machine learning peut vous apporter beaucoup pour améliorer la performance énergétique des bâtiments que vous gérez.

Giulia Caputo

Publié par Giulia Caputo

Data-Scientist chez Deepki.