Quatrième auteur :
Gael Chalvon Demersay
Dans la première édition d'Accuracy Perspectives d'octobre 2018, nous avions évoqué l'évolution des outils de planification financière, à la demande du régulateur, vers des plateformes intégrées permettant de produire des prévisions budgétaires et des stress tests à partir de modèles quantitatifs1. L'objectif de cet article est de compléter les visions "projet, outil et gouvernance" en passant en revue les approches statistiques au cœur des systèmes de planification.
L'introduction de méthodes quantitatives dans les exercices de planification financière se met progressivement en place. Motivées par l'augmentation des stress tests et la volonté de compléter l'expertise de leurs opérationnels, les banques développent des modèles de prévision de revenus pour chacune de leurs différentes lignes d'activité.
Ces prévisions peuvent être basées sur différents types de modèles (mécanique analytique, modèles comportementaux ALM, etc.). Pour prévoir les volumes d'activité, les modèles économétriques2 sont essentiels. Cet article détaille les problèmes (notamment statistiques) auxquels sont confrontées les équipes de modélisation et fournit quelques idées sur la manière de les surmonter.
1. L'APPROCHE STATISTIQUE EST AU CŒUR DE LA CRÉATION DES MODÈLES DE PRÉVISION
Les modèles statistiques permettent d'utiliser les mesures historiques de performance d'une activité pour définir la relation mathématique entre ces mesures et des variables externes (variables macro-économiques, données du marché bancaire, etc.) ou internes (saisonnalité). Les prévisions consistent donc en des modèles de régression multivariés, qu'ils soient linéaires ou non linéaires3.
Dans ce contexte, un compromis doit souvent être trouvé entre la facilité de mise en œuvre et d'appropriation par les métiers, d'une part, et la puissance prédictive et la robustesse statistique, d'autre part. Pour parvenir à ce compromis, il est nécessaire de mettre en œuvre un processus itératif en trois étapes (comme détaillé dans la figure 1) :
1. Collecte et transformation des données
2. Construction du modèle
3. Évaluation de la performance du modèle.
Processus itératif conduisant à la création d'un modèle (figure 1)

01 |
|
|
|
|
02 |
|
|
|
|
03 |
|
2. LA GESTION DES DONNÉES: UNE CONDITION PRÉALABLE À LA CONSTRUCTION DE MODÈLES STABLES
La qualité d'une approche statistique dépend largement des données sur lesquelles sont basés les travaux de modélisation. En effet, si les données historiques à partir desquelles sont définies les relations avec les indicateurs macroéconomiques (ou d'autres indicateurs) comportent des effets " polluants ", les modèles sont moins précis et peuvent même conduire à des conclusions erronées. Dans ce contexte, la validation de la qualité des données par les métiers est un préalable à toute analyse statistique. Il est important d'impliquer les membres des équipes métiers dans ces réflexions afin de capturer tous les éléments "non standards".
Une fois ces vérifications terminées, les séries de données peuvent être transformées afin d'améliorer la qualité des modèles à tester à l'étape (2). Ces transformations doivent prendre en compte différents types d'effets, notamment :
- la représentativité des éléments exceptionnels de l'activité (ponctuels), tels que les grandes fusions et acquisitions ou les chocs fiscaux, qui peuvent se reproduire dans la réalité ;
- l'achèvement de données manquantes et/ou asynchrones. Par exemple, on peut vouloir prévoir un indicateur sur une base mensuelle à partir de variables explicatives qui ne sont disponibles que sur une base trimestrielle. Dans ce cas, il est possible (i) de s'appuyer sur les séries trimestrielles (ce qui implique la perte de points d'analyse), (ii) d'interpoler sur une base mensuelle (linéairement ou non), ou (iii) même de réaliser un filtrage.4 en complétant les données par des estimations statistiquement cohérentes à partir d'indicateurs plus fréquents ;
- les saisonnalité5 à ajusterpar exemple dans le cas de variables explicatives non saisonnières. Les transformations de la saisonnalité peuvent être basées sur la méthode ARIMA-126 ou le processus STL basé sur des régressions locales7;
- les lissage de la série à expliquer, par exemple en calculant une moyenne mobile8;
- les introduction d'un effet de retardou de décalage, par rapport à la série à expliquer.
D'autres transformations mathématiques peuvent également être appliquées aux séries afin d'améliorer de manière itérative les résultats des modèles évalués au cours de l'évaluation du modèle à l'étape (3) :
- différenciation des données - de l'ordre de 1 ou 2 - avec une fréquence courte (un trimestre, par exemple) ou longue (un an, par exemple). Cela permet généralement de corriger la non-stationnarité9 mais peuvent parfois être instables dans les projections ;
- l'application de fonctions (taux de croissance, carré, logarithme) visant à capturer les effets non linéaires;
- les l'utilisation de modèles de co-intégration (voir ci-dessous) en cas de non-stationnarité des variables à expliquer.
L'appréciation de la qualité des données collectées ainsi que les caractéristiques des transformations qui leur sont appliquées lors de la collecte des données à l'étape (1) doivent être prises en compte dans le choix du modèle à développer lors de la modélisation à l'étape (2). En effet, la profondeur historique des données doit être suffisante pour saisir des scénarios distincts (crises, scénarios de taux d'intérêt différenciés, etc.). De plus, les données doivent présenter des réalités commerciales comparables (par exemple, un effet d'échelle lié au nombre de traders sur un desk ou à une réorganisation de l'activité doit être pris en compte pour harmoniser les séries d'un point de vue statistique).
3. ADAPTER LE CHOIX DES VARIABLES EXPLICATIVES ET L'EXPRESSION DU MODÈLE À L'ENVIRONNEMENT
Choix du modèle
L'expression du modèle doit s'adapter aux besoins des utilisateurs de l'outil.
- Les approches linéaires, par exemple, sont plus simples à mettre en œuvre mais ne permettent pas au modèle de saisir des relations plus complexes que les relations affines entre la variable expliquée (ou sa croissance) et les variables explicatives (ou leur croissance). Cependant, couplées à l'utilisation de transformations non linéaires sur les variables explicatives du modèle, les approches linéaires simples permettent au modèle de capturer les non-linéarités. Par exemple, le logarithme des prêts hypothécaires peut être corrélé au logarithme de la croissance du revenu des ménages. L'utilisation de la transformation logarithmique permet au modèle de relier les variables dont les ordres de grandeur sont différents.
- Méthodes d'apprentissage automatique10comme la forêt aléatoire11sont de très bons outils pour orienter le choix des variables. Ils sont cependant rarement retenus car ils sont souvent complexes à mettre en œuvre et difficiles à auditer pour un régulateur. De plus, elles ne mettent pas en évidence les moteurs exogènes de l'activité et peuvent rester trop centrées sur les formes autorégressives12.
Modèles de co-intégration
En cas de non-stationnarité13Les modèles statistiques classiques sont instables et des techniques spécifiques doivent être utilisées. Une notion centrale aujourd'hui est celle du modèle de co-intégration pour les variables macroéconomiques. Un ensemble de variables est co-intégré avec la série observée s'il existe une combinaison de variables qui permet d'annuler "la tendance stochastique" de la série observée pour aboutir à une série stationnaire. Par exemple, il a été démontré qu'aux Etats-Unis, la consommation effective par habitant et le revenu effectif disponible par habitant sont co-intégrés, mettant en évidence une relation stable entre ces deux séries non stationnaires. Ces variables coïntégrées sont donc reliées aux séries observées par une équation linéaire de "long terme", qui peut être interprétée comme un équilibre macroéconomique par rapport auquel les différences constituent des fluctuations temporaires. En reprenant l'exemple précédent, une fluctuation temporaire de la consommation par rapport au revenu disponible peut se produire au cours d'un trimestre donné, mais elle aura un effet comparativement opposé sur la consommation future du trimestre suivant, ce qui tend à rapprocher les deux séries de leur point d'équilibre représenté par la relation de long terme.
Les approches historiques pour comprendre ce type de relation sont celles d'Engle et de Granger14 ou Johannsen15ainsi que les modèles appelés Autoregressive Distributed Lag (ARDL). Tous ces modèles saisissent à la fois les relations à long terme et les écarts par rapport à ces équilibres par le biais de modèles de retour à la moyenne et de correction d'erreur.
Choix des variables
Dans un premier temps, les variables explicatives seront choisies parmi toutes les variables transformées, grâce à des études de corrélation simples. Le choix des variables explicatives peut également être guidé par l'expertise du secteur d'activité, des approches de classification systématique (telles que l'analyse en composantes principales16) ou encore leur importance dans les méthodes d'apprentissage automatique (on conserve alors les variables mises en évidence par la méthode mais en leur appliquant des modèles statistiques classiques).
Au contraire, certaines variables seront exclues a posteriori par les tests statistiques de l'étape (3). En particulier, un trop grand nombre de variables peut entraîner un surajustement et des variables colinéaires qui rendent les coefficients de régression instables17.
Étalonnage des paramètres
La méthode d'estimation des paramètres de la régression dépend des tests effectués à l'étape (3). Ils seront estimés soit par l'estimateur des moindres carrés, soit, par exemple, par Yule-Walker.18 pour éviter le biais inhérent à l'existence d'une autocorrélation des résidus dans les séries utilisées.
Les problèmes soulevés par la non-stationnarité concernent également l'inférence des paramètres du modèle estimé, pour lesquels les lois asymptotiques habituelles dérivées dans le contexte de séries stationnaires peuvent conduire à des incohérences si elles sont utilisées en tant que telles.
Notamment, les valeurs p (voir ci-dessous) et les intervalles de confiance ne sont plus fiables dans le contexte de séries non stationnaires ou de co-intégration.
4. L'ÉVALUATION DES MODÈLES DONNE DE LA CRÉDIBILITÉ AUX TRAVAUX DE PROJECTION STATISTIQUE
Le pouvoir prédictif du modèle doit être vérifié par un ensemble de tests. Des tests statistiques ou des backtestings peuvent être effectués pour étayer le choix du modèle, même si aucun d'entre eux n'est éliminatoire en ce qui concerne le choix du modèle. Nous notons que l'exigence de vérification de ces tests doit être pondérée par la qualité des données disponibles. La sensibilité du modèle à un choc sur les variables explicatives doit être appréciée dans tous les cas.
Tests statistiques
Le calcul de la signification des variables (valeur p) est important, mais l'estimation des paramètres et le calcul des valeurs p doivent être corrigés en cas de non-conformité des hypothèses de base de la régression linéaire.19:
- Stationnarité de la série temporelle20 (homogénéité de leur distribution dans le temps) : les résultats des régressions linéaires peuvent être instables dans le temps si les séries ne sont pas stationnaires, même dans le cas d'un bon R2. Dans ce cas, il est préférable de transformer les variables (étape (1)) ou de choisir un modèle de co-intégration (étape (2)).
- Résidus homoscédastiques21 (variance constante dans le temps) et/ou plus généralement non autocorrélées22: En cas de non-conformité, cela peut indiquer qu'une variable explicative n'a pas été trouvée. Cela peut biaiser de manière significative les variances et les intervalles de confiance des coefficients. Il est donc nécessaire de corriger les coefficients23 ou de modifier les estimateurs utilisés24.
- Normalité des résidus25Cette hypothèse de régression linéaire est cependant rarement vérifiable sur de petits échantillons (propriété asymptotique) et n'est pas nécessaire à la convergence des estimateurs de paramètres.
Backtest (ou validation croisée ou performance hors échantillon)
Si la profondeur historique le permet, il est possible de mesurer la différence entre la série historique réelle et le modèle calibré sur une période différente. En répétant l'exercice sur plusieurs sous-périodes, il est possible de vérifier la stabilité des coefficients de la régression. Une erreur moyenne équivalente entre la période testée et la période d'étalonnage est un bon indicateur que le modèle n'est pas sur-étalonné (over-fitted).
5. DIFFICULTÉS
Ma modélisation de l'ensemble des agrégats financiers d'une banque nécessite la modélisation d'activités de natures diverses s'appuyant sur des modèles statistiques hétérogènes. Dans ce contexte, l'équipe chargée du développement des modèles doit s'adapter à la réalité de chacun des segments d'activité. Il en résulte une pléthore de modèles statistiques à articuler sur une plateforme flexible permettant de les relier entre eux et aux sources de données (bases de données des métiers notamment) pour proposer des résultats directement utilisables par les équipes de la plateforme.
Quatre types de difficultés doivent être surmontées pour constituer une base suffisamment solide de modèles à intégrer à la plateforme :
- Difficulté à trouver des modèles statistiques prédictifs sur certains périmètres : toutes les activités ne sont pas modélisables par une approche statistique, et certaines sont plus complexes à appréhender (commissions spécifiques, frais généraux, ). De plus, la majorité des modèles statistiques classiques peinent à capturer les non-linéarités des comportements passés.
- Ajout d'effets distincts qui se chevauchent à la modélisation de base des activités : Effets de change, concentration des portefeuilles, etc. Les effets de contagion, les effets de réputation et tous les effets de rétroaction sont particulièrement complexes à saisir.
- Difficulté de collecter des données de qualité faciles à mettre à jour après le premier exercice de modélisation : manque de profondeur des données, problèmes d'homogénéité, etc.
- Difficultés organisationnelles et problèmes liés à l'outil.
6. CONCLUSION
Si les banques disposent aujourd'hui d'équipes de modélisation quantitative reconnues, ces compétences sont principalement concentrées dans les équipes Risques sur les questions de risque de crédit et de risque de marché. Pour la plupart des banques, la modélisation prospective basée sur des méthodes statistiques implique la constitution d'équipes spécialisées.
Les méthodes évoquées ci-dessus donnent une vision globale des mesures statistiques dont disposent les équipes de planification pour construire leurs modèles de projection. La dimension humaine et la capacité à recruter des talents capables de construire des modèles complexes est au cœur de la problématique.
Le développement d'une approche tactique, via des outils agiles, permet aux banques de créer un support initial pour la plateforme et de distinguer la construction des modèles de leur industrialisation dans les systèmes de la banque.