langue langue

Techniques quantitatives alternatives à la régression logistique

Le centre de Scoring de BNP Paribas Personal Finance utilise en partie le scoring pour piloter l’octroi de crédit, le recouvrement de créance et son encours commercial. La méthode utilisée est essentiellement la régression logistique.
Le but de cette alternance était de trouver et d’appliquer une nouvelle méthode de scoring alternative à la régression logistique. J’ai étudié durant cette année la méthode « Forrest Augmented Naive Bayes classifier » (FAN) afin de confronter les performances de cette méthode avec celles de la régression logistique.

BNP Paribas Personal Finance-Centre de Scoring

bnpLa division Personal Finance (PF) fait partie du pole Retail Banking de la BNP Paribas. BNP PARIBAS Personal Finance est le leader européen du crédit à la consommation et immobilier.
Né en 2008 de la fusion entre Cetelem, marché du crédit à la consommation, et UCB, spécialiste européen du crédit immobilier, à cette époque, BNPP-PF représente alors 108€ milliards de crédit pour 20 millions de clients, est présent sur 4 continents, dans 30 pays et compte plus de 26 500 collaborateurs.


Au sein de la Direction des Risques, le Centre de Scoring est chargé de fournir des outils statistiques permettant de faciliter le contrôle du risque. Les scores réalisés sont issus de l’étude statistique du comportement de populations observées, et permettent d’affecter une note à chaque dossier représentant son niveau de risque. Les règles permettant de calculer ces notes sont ensuite inclues dans les systèmes experts (outil informatique permettant de générer le raisonnement d’un expert dans une compétence précise) et permettent de mesurer le risque et de sélectionner les différents dossiers en conséquence.
Le Centre de Scoring supervise d’autre part l'utilisation des outils d'aide à la décision au sein de PF. Les outils d'aide à la décision permettent aux filiales de piloter les stratégies d'octroi ou de recouvrement, en lien avec les outils informatiques. Le Centre de Scoring s'assure du bon fonctionnement de ces outils, et accompagne les filiales dans leur utilisation (formations, accompagnement, support...).
Les missions principales du Centre de Scoring sont :

  • De construire les scores de Personal Finance
  • D’assurer un support et des formations pour l'utilisation des outils décisionnels
  • De maintenir les systèmes experts pour le compte de Grands Partenaires
  • De réaliser de la veille technologique sur les méthodes statistiques
  • De réaliser des audits sur les dispositifs décisionnels
Le Centre de Scoring construit 40 à 50 scores par an. Aujourd’hui, il existe 200 scores différents chez Personal Finance.
Le pôle R&D du Centre de Scoring mutualise les connaissances et encourage l’activité de veille technologique.

Contexte du stage

Les techniques actuelles de modélisation utilisées pour discriminer les mauvais des bons payeurs (critère binaire) dans le risque de crédit sont essentiellement basées sur la méthode du scoring et l’utilisation de la régression logistique. Cette technique est utilisée chez BNPP PF depuis plusieurs dizaines d’années.
L’objectif de la mission est de rechercher, modéliser, et tester une nouvelle méthode alternative au scoring et de comparer les résultats obtenus avec ceux de la régression logistique.
Après avoir effectué une recherche bibliographique des modèles existants, j’ai choisi d’étudier la méthode « Forest Augmented Naive Bayes classifier » (FAN, amélioration du modèle « Naive Bayes classifier »).
Cette méthode a attiré mon attention par sa simplicité, les bons résultats obtenus par la méthode « Naive Bayes classifier » dans de nombreux problèmes de data mining et la capacité de modéliser sur un critère polytomique.
Afin de challenger les deux méthodes, une comparaison des performances a été effectuée. Les résultats de classification (matrice de confusion) ainsi que de classement (note de score et courbe de lift) ont été étudiés afin de confronter les résultats obtenus avec la régression logistique. La méthode FAN a d’autre part été développée sur un critère polytomique, c'est-à-dire un critère ayant un nombre de modalités supérieurs à deux.
Différentes macros SAS ont été créées pour l'étude de cette méthode. J'ai par ailleurs réalisés des macros SAS et C durant l'année d'alternance pour le compte du centre de scoring.

Forest Augmented Naive Bayes classifier

Naive Bayes classifier

Le modèle Naive Bayes est une méthode largement utilisée dans le data mining comme algorithme de classification. Dans ce modèle la probabilité d’appartenance à une classe (mauvai/bon payeur) est estimée en utilisant les probabilités conditionnelles.
Pour cela, la probabilité d’appartenance à chacune des classes est calculée pour chaque variable (âge, retard maximum du paiement, ancienneté professionnelle) à partir d'une table de test, et est définie en fonction des différentes modalités de chaque variable (entre 18 et 26 ans, entre 27 et 35 ans, entre 36 et 44 ans…). En pratique, il s’agit de compter pour une classe donnée l’ensemble des dossiers d’une modalité (nombre de clients ayant entre 18 et 25 ans et étant de bons payeurs) et de diviser par l’ensemble des dossiers de la classe. On obtient alors la probabilité d'être un bon/mauvais payeur sachant que l'on appartient à une modalité donnée d'une variable.

Table de Test
Id Age Ancienneté bancaire Ancienneté professionnelle ... Nombre de report en recouvrement Classe
1 Entre 18 et 26 ans Entre 0 et 2 ans Entre 0 et 2 ans ... 0 1
2 Plus de 45 ans Plus de 10 ans Entre 10 et 15 ans ... Entre 1 et 2 0
3 Entre 27 et 35 ans Entre 3 et 6 ans Entre 3 et 5 ans ... Entre 1 et 2 0
4 Entre 27 et 35 ans Entre 0 et 2 ans Entre 0 et 2 ans ... Plus de 2 0
5 Entre 18 et 26 ans Entre 0 et 2 ans Entre 0 et 2 ans ... 0 0
6 Plus de 45 ans Plus de 10 ans Entre 10 et 15 ans ... 0 0
... ... ... ... ... ... ...
16000 Entre 18 et 26 ans Entre 0 et 2 ans Entre 0 et 2 ans ... 0 0
L'équation des probabilités bayésiennes à laquelle nous voulons arriver est :bayes
où A serait la classe (mauvai/bon payeur) et B serait l'ensemble des caractéristiques du dossier (age, ancienneté bancaire etc...). Grace à la table de test, nous pouvons calculer la probabilité de B sachant A. Il suffit par exemple de compter le nombre de dossier dont la variable age est comprise "Entre 18 et 26 ans" et de diviser par le nombre de dossiers dont la variable classe est 0 (si on a choisi A=0) ou 1 (si on a choisi A=1). De même on calculera la probabilité de A comme étant le nombre de dossiers dont la variable "classe" est de 0 ou 1 divisé par le nombre de dossier total.
Ici la probabilité simple de A (diviseur de la probabilité bayésienne) n'importe pas car le dossier d'un client reste le même (les probabilités resteront les mêmes selon qu'on calcule la probabilité que le client soit mauvais/bon selon son dossier). Par soucis d'économie de temps de calcul on se passera donc de la calculer.
On peut alors calculer la probabilité d'appartenance à chacune des classes en fonction du dossier de chaque client. On classera alors le dossier selon le critère du maximum à posteriori, il s'agit de la classe pour laquelle il a la probabilité la plus élevée.maximum

Forest Augmented Naive Bayes classifier

Le modèle Forest Augmented Naive Bayes classifier consiste à calculer les probabilités d'appartenance à une classe sachant la valeur d'une première variable associée à une seconde variable. En effet, le fait d'avoir réalisé 2 retards de paiement en 20 ans d'ancienneté bancaire est différent de réaliser le même nombre de retards en seulement 1 an. Les variables sont alors associées entre elles suivant le critère d'infromation mutuelle conditionnelle. Ensuite, on ne garde que les variables associées entre elles qui présente une information mutuelle assez élevée pour ne pas "surcharger" le modèle et créer des problèmes de sur-apprentissage (le modèle colle trop à l'échantillon test et performe mal sur de nouvelles tables). La classification se fait toujours selon le critère du maximum a posteriori. On obtient alors ce qu'on appelle une forêt de modèle bayésien :

foret
Exemple de Forêt Bayésienne

Le but de l’étude étant de comparer les performances du modèle étudiée avec celles de la régression logistique, il nous a tout d’abord fallu retrouver l’équivalent d’une note de score pour classer nos dossiers les uns par rapport aux autres.
La difficulté vient du fait que les deux probabilités (d'appartenir aux deux différentes classes) ne peuvent pas être comparer entre elles. Un dossier ayant une probabilité élevée d’être bon ne va pas forcément être classé en bon. En effet, tout dépend de sa probabilité d’être mauvais. Si celle-ci est encore plus élevée, dans ce cas il sera classé en mauvais, même si sa probabilité d’être bon est supérieure à d’autres dossiers qui eux ont été classés en bon. De ce fait nous ne pouvions pas prendre uniquement une des deux probabilités comme référence pour obtenir un classement de nos individus.

Table de Test
Critère Dossier Probabilité classe 0 Probabilité classe 1 Note de Score
1 15121 7.760E-3 5.631E-2 1
1 15122 2.597E-1 1.090E-1 0
La probabilité de la classe 1 du dossier 15122 est supérieure à celle du dossier 15121. Pourtant ce dossier n’est pas classé dans la classe 1, alors que le dossier 15121 l’est. Sa probabilité de la classe 0 est en effet encore supérieure.

J’ai donc décidé de considérer la différence entre les deux probabilités pour classer les dossiers. De la même façon, des écarts plus ou moins grands pouvaient apparaitre entre les différents dossiers sans que cela ne reflète une réelle différence de classement entre les dossiers. J’ai alors divisé le résultat précédent par la probabilité d’être bon (des tests ont montré que les résultats donnaient le même classement en divisant par la probabilité d’être bon ou mauvais ou la somme des deux probabilités) afin d’uniformiser tous les résultats entre eux.
Nous utiliserons désormais cette formule dans le calcul du coefficient de Gini, utilisé à la BNP pour mesurer l'efficacité du modèle, pour comparer nos résultats sur critère binaire avec ceux de la régression logistique.
note
Note de score FAN

Résultats

L’objectif de ce stage était de tester une nouvelle méthode alternative à la régression logistique dans le cadre du scoring.
Le stage s’est déroulé en plusieurs étapes :

  • Recherche de méthodes
  • Rédaction de fiche sur les différentes méthodes
  • Choix d’une méthode de modélisation
  • Etude approfondie du modèle FAN
  • Développement sous SAS
  • Tests des performances comparées à la régression logistique sur différents jeux de données
  • Etude de la méthode sur critère polytomique et développement de macros SAS pour la modélisation d’un score polytomique
La recherche méthodologique m’a amené à étudier le modèle FAN qui en plus de son pouvoir de classement permettait la modélisation sur un critère polytomique.
  • Du point de vu du classement, les performances du modèle FAN sont équivalentes à celles de la régression logistique sur critère binaire. Le gain de temps est cependant marginal pour que le modèle remplace larégression logistique. Le modèle reste cependant utile pour challenger les résultats de la régression logistique.
  • Du point de vue de la classification, le modèle FAN est globalement meilleur que la régression logistique. Ce résultat est d’autant plus vrai sur critère polytomique où le modèle FAN a la capacité de classer les dossiers sur un nombre de classes supérieur à 2. Cette technique présente cependant les mêmes inconvénients que la régression logistique lorsque une modalité du critère est surreprésentée par rapport aux autres.
Les résultats observés sur critère polytomique sont très satisfaisant. En effet, il n’existait jusqu’à maintenant aucune méthode de réalisation de score polytomique chez PF (actuellement un groupe de travaille explore ce sujet). Toute une méthodologie a été mise en place, plusieurs macros SAS nécessaires à l’élaboration d’un score polytomique ont été développées, et a par la suite été utilisée et continue d’être utilisée par l'équipe de R&D.
A l’aide des enseignements tirés de la méthode FAN et de la méthode de HUM nous avons ainsi pu résoudre les points suivants de la modélisation polytomique :
  • sélection des variables
  • sélection des croisements entre les variables
  • calcul des performances
  • sélection du niveau de risque
J'ai par ailleurs été chargé de réaliser des macros SAS et C durant l'année d'alternance pour le compte du centre de scoring.