Stress test Episode 2 - Prévision du produit net bancaire : revue des méthodes statistiques

Perspectives

Stress test Episode 2 - Prévision du produit net bancaire : revue des méthodes statistiques

Quatrième auteur :
Gael Chalvon Demersay

Dans la première édition d'Accuracy Perspectives d'octobre 2018, nous avions évoqué l'évolution des outils de planification financière, à la demande du régulateur, vers des plateformes intégrées permettant de produire des prévisions budgétaires et des stress tests à partir de modèles quantitatifs¹. L'objectif de cet article est de compléter les visions "projet, outil et gouvernance" en passant en revue les approches statistiques au cœur des systèmes de planification.

L'introduction de méthodes quantitatives dans les exercices de planification financière se met progressivement en place. Motivées par l'augmentation des stress tests et la volonté de compléter l'expertise de leurs opérationnels, les banques développent des modèles de prévision de revenus pour chacune de leurs différentes lignes d'activité.

Ces prévisions peuvent être basées sur différents types de modèles (mécanique analytique, modèles comportementaux ALM, etc.). Pour prévoir les volumes d'activité, les modèles économétriques² sont essentiels. Cet article détaille les problèmes (notamment statistiques) auxquels sont confrontées les équipes de modélisation et fournit quelques idées sur la manière de les surmonter.

1. L'APPROCHE STATISTIQUE EST AU CŒUR DE LA CRÉATION DES MODÈLES DE PRÉVISION

Les modèles statistiques permettent d'utiliser les mesures historiques de performance d'une activité pour définir la relation mathématique entre ces mesures et des variables externes (variables macro-économiques, données du marché bancaire, etc.) ou internes (saisonnalité). Les prévisions consistent donc en des modèles de régression multivariés, qu'ils soient linéaires ou non linéaires³.

Dans ce contexte, un compromis doit souvent être trouvé entre la facilité de mise en œuvre et d'appropriation par les métiers, d'une part, et la puissance prédictive et la robustesse statistique, d'autre part. Pour parvenir à ce compromis, il est nécessaire de mettre en œuvre un processus itératif en trois étapes (comme détaillé dans la figure 1) :

1. Collecte et transformation des données
2. Construction du modèle
3. Évaluation de la performance du modèle.

Processus itératif conduisant à la création d'un modèle (figure 1)

01	- Mise en œuvre organisationnelle facilitant la collecte de données de qualité. – Transformation des données pour les rendre utilisables via la suppression des événements exceptionnels, la complétion des données manquantes, la correction des variations saisonnières et d'autres transformations mathématiques potentielles. - Le choix du modèle à l'étape 2 dépend de la qualité et de la profondeur historique des données.

02	- Choix du modèle appliqué - linéaire dans un premier temps, puis des méthodes plus avancées sont utilisées en fonction des données et du type d'entreprise étudiée. - Les méthodes d'apprentissage automatique permettent d'orienter le choix des variables ; cependant, nous préférerons des méthodes plus standard : a) Plus facile à mettre en place b) Permet d'obtenir des résultats plus simples à auditer (question de la "boîte noire" des prévisions dans l'apprentissage automatique).

03	– - Utilisation de stests statistiques pour vérifier la robustesse mathématique du modèle. - Contrôle a posteriori du modèle sur des périodes historiques. - Test de sensibilité d'un modèle basé sur un choc de variables explicatives.

2. LA GESTION DES DONNÉES: UNE CONDITION PRÉALABLE À LA CONSTRUCTION DE MODÈLES STABLES

La qualité d'une approche statistique dépend largement des données sur lesquelles sont basés les travaux de modélisation. En effet, si les données historiques à partir desquelles sont définies les relations avec les indicateurs macroéconomiques (ou d'autres indicateurs) comportent des effets " polluants ", les modèles sont moins précis et peuvent même conduire à des conclusions erronées. Dans ce contexte, la validation de la qualité des données par les métiers est un préalable à toute analyse statistique. Il est important d'impliquer les membres des équipes métiers dans ces réflexions afin de capturer tous les éléments "non standards".

Une fois ces vérifications terminées, les séries de données peuvent être transformées afin d'améliorer la qualité des modèles à tester à l'étape (2). Ces transformations doivent prendre en compte différents types d'effets, notamment :

- la représentativité des éléments exceptionnels de l'activité (ponctuels), tels que les grandes fusions et acquisitions ou les chocs fiscaux, qui peuvent se reproduire dans la réalité ;

- l'achèvement de données manquantes et/ou asynchrones. Par exemple, on peut vouloir prévoir un indicateur sur une base mensuelle à partir de variables explicatives qui ne sont disponibles que sur une base trimestrielle. Dans ce cas, il est possible (i) de s'appuyer sur les séries trimestrielles (ce qui implique la perte de points d'analyse), (ii) d'interpoler sur une base mensuelle (linéairement ou non), ou (iii) même de réaliser un filtrage.⁴ en complétant les données par des estimations statistiquement cohérentes à partir d'indicateurs plus fréquents ;

- les saisonnalité⁵ à ajusterpar exemple dans le cas de variables explicatives non saisonnières. Les transformations de la saisonnalité peuvent être basées sur la méthode ARIMA-12⁶ ou le processus STL basé sur des régressions locales⁷;

- les lissage de la série à expliquer, par exemple en calculant une moyenne mobile⁸;

- les introduction d'un effet de retardou de décalage, par rapport à la série à expliquer.

D'autres transformations mathématiques peuvent également être appliquées aux séries afin d'améliorer de manière itérative les résultats des modèles évalués au cours de l'évaluation du modèle à l'étape (3) :

- différenciation des données - de l'ordre de 1 ou 2 - avec une fréquence courte (un trimestre, par exemple) ou longue (un an, par exemple). Cela permet généralement de corriger la non-stationnarité⁹ mais peuvent parfois être instables dans les projections ;

- l'application de fonctions (taux de croissance, carré, logarithme) visant à capturer les effets non linéaires;

- les l'utilisation de modèles de co-intégration (voir ci-dessous) en cas de non-stationnarité des variables à expliquer.

L'appréciation de la qualité des données collectées ainsi que les caractéristiques des transformations qui leur sont appliquées lors de la collecte des données à l'étape (1) doivent être prises en compte dans le choix du modèle à développer lors de la modélisation à l'étape (2). En effet, la profondeur historique des données doit être suffisante pour saisir des scénarios distincts (crises, scénarios de taux d'intérêt différenciés, etc.). De plus, les données doivent présenter des réalités commerciales comparables (par exemple, un effet d'échelle lié au nombre de traders sur un desk ou à une réorganisation de l'activité doit être pris en compte pour harmoniser les séries d'un point de vue statistique).

3. ADAPTER LE CHOIX DES VARIABLES EXPLICATIVES ET L'EXPRESSION DU MODÈLE À L'ENVIRONNEMENT

Choix du modèle

L'expression du modèle doit s'adapter aux besoins des utilisateurs de l'outil.

- Les approches linéaires, par exemple, sont plus simples à mettre en œuvre mais ne permettent pas au modèle de saisir des relations plus complexes que les relations affines entre la variable expliquée (ou sa croissance) et les variables explicatives (ou leur croissance). Cependant, couplées à l'utilisation de transformations non linéaires sur les variables explicatives du modèle, les approches linéaires simples permettent au modèle de capturer les non-linéarités. Par exemple, le logarithme des prêts hypothécaires peut être corrélé au logarithme de la croissance du revenu des ménages. L'utilisation de la transformation logarithmique permet au modèle de relier les variables dont les ordres de grandeur sont différents.

- Méthodes d'apprentissage automatique¹⁰comme la forêt aléatoire¹¹sont de très bons outils pour orienter le choix des variables. Ils sont cependant rarement retenus car ils sont souvent complexes à mettre en œuvre et difficiles à auditer pour un régulateur. De plus, elles ne mettent pas en évidence les moteurs exogènes de l'activité et peuvent rester trop centrées sur les formes autorégressives¹².

Modèles de co-intégration

En cas de non-stationnarité¹³Les modèles statistiques classiques sont instables et des techniques spécifiques doivent être utilisées. Une notion centrale aujourd'hui est celle du modèle de co-intégration pour les variables macroéconomiques. Un ensemble de variables est co-intégré avec la série observée s'il existe une combinaison de variables qui permet d'annuler "la tendance stochastique" de la série observée pour aboutir à une série stationnaire. Par exemple, il a été démontré qu'aux Etats-Unis, la consommation effective par habitant et le revenu effectif disponible par habitant sont co-intégrés, mettant en évidence une relation stable entre ces deux séries non stationnaires. Ces variables coïntégrées sont donc reliées aux séries observées par une équation linéaire de "long terme", qui peut être interprétée comme un équilibre macroéconomique par rapport auquel les différences constituent des fluctuations temporaires. En reprenant l'exemple précédent, une fluctuation temporaire de la consommation par rapport au revenu disponible peut se produire au cours d'un trimestre donné, mais elle aura un effet comparativement opposé sur la consommation future du trimestre suivant, ce qui tend à rapprocher les deux séries de leur point d'équilibre représenté par la relation de long terme.

Les approches historiques pour comprendre ce type de relation sont celles d'Engle et de Granger¹⁴ ou Johannsen¹⁵ainsi que les modèles appelés Autoregressive Distributed Lag (ARDL). Tous ces modèles saisissent à la fois les relations à long terme et les écarts par rapport à ces équilibres par le biais de modèles de retour à la moyenne et de correction d'erreur.

Choix des variables

Dans un premier temps, les variables explicatives seront choisies parmi toutes les variables transformées, grâce à des études de corrélation simples. Le choix des variables explicatives peut également être guidé par l'expertise du secteur d'activité, des approches de classification systématique (telles que l'analyse en composantes principales¹⁶) ou encore leur importance dans les méthodes d'apprentissage automatique (on conserve alors les variables mises en évidence par la méthode mais en leur appliquant des modèles statistiques classiques).

Au contraire, certaines variables seront exclues a posteriori par les tests statistiques de l'étape (3). En particulier, un trop grand nombre de variables peut entraîner un surajustement et des variables colinéaires qui rendent les coefficients de régression instables¹⁷.

Étalonnage des paramètres

La méthode d'estimation des paramètres de la régression dépend des tests effectués à l'étape (3). Ils seront estimés soit par l'estimateur des moindres carrés, soit, par exemple, par Yule-Walker.¹⁸ pour éviter le biais inhérent à l'existence d'une autocorrélation des résidus dans les séries utilisées.

Les problèmes soulevés par la non-stationnarité concernent également l'inférence des paramètres du modèle estimé, pour lesquels les lois asymptotiques habituelles dérivées dans le contexte de séries stationnaires peuvent conduire à des incohérences si elles sont utilisées en tant que telles.

Notamment, les valeurs p (voir ci-dessous) et les intervalles de confiance ne sont plus fiables dans le contexte de séries non stationnaires ou de co-intégration.

4. L'ÉVALUATION DES MODÈLES DONNE DE LA CRÉDIBILITÉ AUX TRAVAUX DE PROJECTION STATISTIQUE

Le pouvoir prédictif du modèle doit être vérifié par un ensemble de tests. Des tests statistiques ou des backtestings peuvent être effectués pour étayer le choix du modèle, même si aucun d'entre eux n'est éliminatoire en ce qui concerne le choix du modèle. Nous notons que l'exigence de vérification de ces tests doit être pondérée par la qualité des données disponibles. La sensibilité du modèle à un choc sur les variables explicatives doit être appréciée dans tous les cas.

Tests statistiques

Le calcul de la signification des variables (valeur p) est important, mais l'estimation des paramètres et le calcul des valeurs p doivent être corrigés en cas de non-conformité des hypothèses de base de la régression linéaire.¹⁹:

- Stationnarité de la série temporelle²⁰ (homogénéité de leur distribution dans le temps) : les résultats des régressions linéaires peuvent être instables dans le temps si les séries ne sont pas stationnaires, même dans le cas d'un bon R². Dans ce cas, il est préférable de transformer les variables (étape (1)) ou de choisir un modèle de co-intégration (étape (2)).

- Résidus homoscédastiques²¹ (variance constante dans le temps) et/ou plus généralement non autocorrélées²²: En cas de non-conformité, cela peut indiquer qu'une variable explicative n'a pas été trouvée. Cela peut biaiser de manière significative les variances et les intervalles de confiance des coefficients. Il est donc nécessaire de corriger les coefficients²³ ou de modifier les estimateurs utilisés²⁴.

- Normalité des résidus²⁵Cette hypothèse de régression linéaire est cependant rarement vérifiable sur de petits échantillons (propriété asymptotique) et n'est pas nécessaire à la convergence des estimateurs de paramètres.

Backtest (ou validation croisée ou performance hors échantillon)

Si la profondeur historique le permet, il est possible de mesurer la différence entre la série historique réelle et le modèle calibré sur une période différente. En répétant l'exercice sur plusieurs sous-périodes, il est possible de vérifier la stabilité des coefficients de la régression. Une erreur moyenne équivalente entre la période testée et la période d'étalonnage est un bon indicateur que le modèle n'est pas sur-étalonné (over-fitted).

5. DIFFICULTÉS

M a modélisation de l'ensemble des agrégats financiers d'une banque nécessite la modélisation d'activités de natures diverses s'appuyant sur des modèles statistiques hétérogènes. Dans ce contexte, l'équipe chargée du développement des modèles doit s'adapter à la réalité de chacun des segments d'activité. Il en résulte une pléthore de modèles statistiques à articuler sur une plateforme flexible permettant de les relier entre eux et aux sources de données (bases de données des métiers notamment) pour proposer des résultats directement utilisables par les équipes de la plateforme.

Quatre types de difficultés doivent être surmontées pour constituer une base suffisamment solide de modèles à intégrer à la plateforme :

- Difficulté à trouver des modèles statistiques prédictifs sur certains périmètres : toutes les activités ne sont pas modélisables par une approche statistique, et certaines sont plus complexes à appréhender (commissions spécifiques, frais généraux, ). De plus, la majorité des modèles statistiques classiques peinent à capturer les non-linéarités des comportements passés.

- Ajout d'effets distincts qui se chevauchent à la modélisation de base des activités : Effets de change, concentration des portefeuilles, etc. Les effets de contagion, les effets de réputation et tous les effets de rétroaction sont particulièrement complexes à saisir.

- Difficulté de collecter des données de qualité faciles à mettre à jour après le premier exercice de modélisation : manque de profondeur des données, problèmes d'homogénéité, etc.

- Difficultés organisationnelles et problèmes liés à l'outil.

6. CONCLUSION

Si les banques disposent aujourd'hui d'équipes de modélisation quantitative reconnues, ces compétences sont principalement concentrées dans les équipes Risques sur les questions de risque de crédit et de risque de marché. Pour la plupart des banques, la modélisation prospective basée sur des méthodes statistiques implique la constitution d'équipes spécialisées.

Les méthodes évoquées ci-dessus donnent une vision globale des mesures statistiques dont disposent les équipes de planification pour construire leurs modèles de projection. La dimension humaine et la capacité à recruter des talents capables de construire des modèles complexes est au cœur de la problématique.

Le développement d'une approche tactique, via des outils agiles, permet aux banques de créer un support initial pour la plateforme et de distinguer la construction des modèles de leur industrialisation dans les systèmes de la banque.

¹ L'émergence des plateformes intégrées de planification financière et de stress tests" Revue Banque 824, pp. xx-xx

² Les modèles économétriques permettent de modéliser les variables économiques à partir de l'observation statistique des quantités pertinentes.

³ Les modèles de régression sont utilisés pour expliquer l'évolution d'une variable en fonction d'une (modèle univarié) ou de plusieurs variables (modèle multivarié). Ces modèles de régression peuvent être linéaires s'il existe une relation de proportionnalité directe entre la variable expliquée et les variables explicatives.

⁴ Cela peut être mis en œuvre à l'aide d'un filtre de Kalman, par exemple.

⁵ Ou plus généralement l'autocorrélation de la série, ce qui revient à introduire une variable endogène dans le modèle.

⁶ L'algorithme ARIMA-X12 est une méthode populaire d'ajustement de la saisonnalité développée par le US Census Bureau. Cette méthode s'applique aux séries présentant une saisonnalité mensuelle ou trimestrielle. Elle est implémentée dans la plupart des logiciels statistiques et est l'une des méthodes préconisées par le Système statistique européen (SSE).

⁷ La procédure STL ("Seasonal and Trend Decomposition Using Loess") est une méthode de décomposition d'une série temporelle en une composante saisonnière, une tendance et des résidus. En tant que telle, c'est aussi une méthode d'ajustement de la saisonnalité qui peut être préférée dans certains cas aux méthodes de type ARIMA-X12 (notamment en cas de composantes saisonnières fluctuantes ou en présence de valeurs aberrantes).

⁸ Plus généralement, il peut être intégré, avec la saisonnalité, dans un processus de modélisation de type ARMA (Auto Regressive Moving Average), ARIMA (AutoRegressive Integrated Moving Average) ou SARIMA (Seasonal ARIMA).

⁹ Le caractère stationnaire (ou non) d'une série temporelle fait référence à l'homogénéité de sa distribution statistique dans le temps. Une propriété plus faible utilisée en pratique (stationnarité faible) est le fait d'avoir ses deux premiers moments (moyenne et variance) constants, ainsi qu'une fonction d'autocorrélation invariante par translation dans le temps.

¹⁰ Ces méthodes font partie de ce que l'on appelle aujourd'hui le "Machine Learning", qui vise à exploiter les données pour déterminer la forme du modèle à adopter, plutôt que de le spécifier en amont. Ces méthodes reposent sur l'analyse statistique d'un grand nombre de données de natures diverses.

¹¹ Les forêts aléatoires sont une famille d'algorithmes d'apprentissage automatique qui s'appuient sur des ensembles d'arbres de décision. L'intérêt de cette méthode est d'entraîner un ensemble d'arbres de décision sur des sous-ensembles du jeu de données initial et ainsi de limiter le problème de sur-apprentissage. Ce type d'algorithme permet d'effectuer de la classification (estimation de variables discrètes) et de la régression (estimation de variables continues).

¹² Un modèle autorégressif est un modèle dans lequel une variable est expliquée par ses valeurs passées plutôt que par d'autres variables.

¹³ Un processus aléatoire est considéré comme stationnaire s'il est stable dans le temps. Mathématiquement, cela se traduit notamment par une espérance constante (il n'y a pas de tendance) et une variance constante.

¹⁴ Co-intégration et correction d'erreur : Representation, Estimation, and Testing, Robert F. Engle et C. W. J. Granger, 1987).

¹⁵ Estimation et test d'hypothèse des vecteurs de cointégration dans les modèles vectoriels autorégressifs gaussiens, Johansen, Søren, 1991.

¹⁶ L'analyse en composantes principales (ACP) est une méthode d'analyse de données qui consiste à transformer des variables corrélées entre elles en de nouvelles variables dé-corrélées les unes des autres sur la base de leurs caractéristiques mathématiques (décomposition orthogonale en valeurs propres).

¹⁷ Les régressions Lasso ou Ridge permettent de régulariser le problème et de sélectionner les variables les plus intéressantes en introduisant des termes de pénalité.

¹⁸ Les équations de Yule-Walker établissent une correspondance directe entre les paramètres du modèle et ses autocovariances. Elles sont utiles pour déterminer la fonction d'autocorrélation ou estimer les paramètres d'un modèle.

¹⁹ Lorsque les hypothèses qui fournissent les distributions asymptotiques ou les intervalles de confiance des estimateurs ne sont plus satisfaites, les intervalles de confiance peuvent encore être calculés par simulation (bootstrapping ou rééchantillonnage).

Perspectives