Forte de sa longue expérience en matière de cotation des véhicules, La Centrale, propose depuis ce début d’année, en plus de la cote, la valeur prévisionnelle des véhicules dans les prochaines années. Nous vous proposons dans cet article, de partager avec vous la démarche entreprise pour vous proposer ce nouveau service.
La méthodologie mise en jeu
Accumulant de nombreuses données de cotation, au fil des années, et ce depuis la création de la cote La Centrale, ainsi que l’évolution qualitative et des techniques de machine learning, nous pouvons aujourd’hui vous proposer de déterminer la valeur approchée d’un véhicule pour les prochaines années.
Après différents tests des algorithmes disponibles, le choix s’est porté sur le regressor proposé par l’algorithme de type boosting, le Catboost développé par Yandex, accompagné d’une correction exponentielle, qui vient donner un ajustement supplémentaire pour améliorer la précision.
Nous récupérons l’équivalent de 10 années glissantes de cotation qui sont préalablement agrégées à travers différents jobs ETL de type spark/glue. Le modèle les ingère après notamment quelques transformations nécessaires, telles que la transformation des variables catégorielles (marque, modèle, énergie, etc.)
Notre modèle de prédiction de la valeur future a un grain mensuel, et ce pour les dix prochaines années. C’est pour cela que nous le mettons à jour une fois par mois avec de nouvelles données plus fraiches.
Mesurer la performance
Les métriques mesurant la performance d’un modèle de régression sont connus: RMSE, MAE en tête. Comment s’assurer dès lors, que cette performance est valide pour le futur ?
Le premier élément réside dans la manipulation des variables. Au lieu de considérer l’année de la mise en circulation (absolue), nous considérons son âge (relatif) afin de reporter la dynamique « passée » vers le « futur ».
Certaines hypothèses ont été émises et validées, notamment sur l’évolution de cotation d’un véhicule similaire, mais dont les dates de mise en circulation sont différentes. En d’autres termes un véhicule A sortie en 2000, aura la même évolution de cotation au cours du temps, qu’un autre véhicule B sortie en 2002, toutes choses étant égales par ailleurs.
Comme tout algorithme, sa performance peut posséder des biais. Il est important d’analyser la performance de l’algorithme par sous-catégorie (exemple : calcul de MAPE en fonction des énergies: hybride essence etc. ), dans le but de savoir d’une part là où notre algorithme est très performant, et d’autre part où des ajustements sont nécessaires.
Enfin dans une démarche d’amélioration continue, une fois que nous aurons acquis suffisamment de données, nous pourrons également comparer les cotes prédites aux cotes courantes, et faire une analyse rétrospective de la qualité de notre modèle.
Les difficultés : problème du cold-start
Comment gérer les véhicules totalement nouveaux ? Car en effet, l’estimation de la cote future se base sur les évolutions des cotations antérieures. On peut donc légitimement s’interroger sur la façon de valider les cotations proposées pour le futur.
Afin d’évaluer la cote future, notre modèle ne se base pas uniquement sur la marque ou la version d’un véhicule mais sur des données comme la puissance, l’énergie, la catégorie, ou encore le prix neuf, qui sont elles disponibles même lorsque le véhicule n’a pas été encore recensé. De fait, à défaut de prendre en compte la marque non fournie, l’algorithme prend les autres informations disponibles pour proposer une cotation future.
L’une des techniques basiques, pour évaluer la qualité du modèle sur ce genre de cas, est de retirer complètement une marque d’un véhicule dans les données d’entrainement et de comparer les résultats lorsque cette marque est présente. Les tests effectués montrent que les différences sont négligeables et nous permettent d’avoir une approximation suffisamment proche.
Exemple de prédiction avec et sans la marque Renault dans le training

Notre modèle est donc capable de proposer une cote future grâce aux informations des autres véhicules présents dans notre dataset. Cette constatation nous apporte une indication forte sur la capacité du modèle à donner des prédictions de cote même pour des véhicules partiellement ‘‘inconnus’’ (marque, modèle, version).
Dernier passage obligatoire : une validation métier. Les experts métier de La Centrale ont pu vérifier la cohérence des évolutions au cas par cas, et confirmer la cohérence des résultats obtenus.
Les limites de la prédiction
Crise économique ou sanitaire sont par définition imprévisibles, elles ne peuvent être anticipées et donc être intégrées à nos modèles de prévisions. L’évolution de la cote future correspond donc à une évolution nominale, une évolution « moyenne » de ce qu’on pourrait attendre d’un véhicule.
De même il parait difficile d’anticiper un engouement soudain pour un véhicule, bien que nos modèles viendront capter cette évolution après un certain temps.
Les aspects techniques
La Centrale a fait le choix d’être full AWS, et d’utiliser pleinement les outils mis à disposition sur la plateforme. Ainsi le choix de sagemaker, framework dédié au machine learning était le plus adéquat pour mettre en place la solution de la cote future.
Architecture simplifiée

Utilisant un algorithme custom, qui n’est pas présent par défaut dans sagemaker, il était ici nécessaire de passer par la case ECR (image custom docker), pour d’une part faire le training du modèle et d’autre part utiliser une machine GPU, pour accélérer le training du modèle.
Sagemaker possède un composant endpoint auquel il est nécessaire d’y accoler une lambda passe-plat afin de l’exposer. L’architecture proposée permet de gérer efficacement la charge d’un million d’appels/jour.
Garde-fou
Tributaire de la qualité des traitements des données effectués en amont, et conscient également de l’ensemble des bugs potentiels pouvant intervenir sur l’ensemble de la chaine, il est important de maitriser ce que le modèle peut servir, c’est pour cela qu’avant chaque publication d’une mise à jour du modèle en production, nous en vérifions sa qualité.
Nous ne republions chaque mois le nouveau modèle que s’il satisfait aux critères de performance souhaités. Ainsi un RMSE trop élevé comparé à ce que l’on a habituellement, sera le signe d’une régression, qu’il est préférable de contrôler avant publication.
Conclusion
Avec cette nouvelle feature, La Centrale propose aux futurs acheteurs et vendeurs un nouvel indicateur pour l’accompagner dans sa prise de décision. Elle leur permet d’anticiper la dévalorisation du véhicule acheté en cas de revente. Les challenges techniques et algorithmiques nous ont poussé à proposer une architecture innovante et une performance au rendez-vous.