PARTIE 01 MÉTHODES DE DONNÉES M ET APPLICATIONS PARTIE 01 PARTIE 02 CADRE DE PROJET DE DONNÉES A N MÉTHODES DE DONNÉES ET APPLICATIONS PARTIE 02 U E CADRE DE PROJET DE DONNÉES ANALYSE DE DONNÉES ET SERVICES FINANCIERS L NUMÉRIQUES REMERCIEMENTS Le Partenariat pour l’Inclusion Financière d’IFC et de la Fondation MasterCard souhaite remercier les institutions qui ont participé aux études de cas de ce manuel pour leur généreux soutien : Airtel Ouganda, Commercial Bank of Africa, FINCA République Démocratique du Congo, First Access, Juntos, Lenddo, MicroCred, M-Kopa, Safaricom, Tiaxa, Tigo Ghana et Zoona. Ce manuel n’aurait pas été possible sans la participation de ces institutions. IFC et la Fondation MasterCard souhaitent également remercier tout spécialement les auteurs Dean Caire, Leonardo Camiciotti, Soren Heitmann, Susie Lonie, Christian Racca, Minakshi Ramji et Qiuyan Xu, ainsi que les relecteurs et les contributeurs : Joshua Blumenstock, Sinja Buri, Tiphaine Crenn, Ruth Dueck-Mbeba, Nicolais Guevara, Raza Khan, Joseck Mudiri, Riadh Naouar, Rita Oulai, Laura Pippinato, Max Roussinov, Anca Bogdana Rusu, Matthew Saal et Aksinya Sorokina. Enfin, les auteurs souhaitent remercier tout spécialement Anna Koblanck et Lesley Denyes pour leur important travail d’édition. Numéro ISBN : 978-0-620-76146-8 Première édition 2017 M A N U E ANALYSE DE DONNÉES ET SERVICES FINANCIERS L NUMÉRIQUES Partie 1 : Méthodes de données et Avant Propos applications Chapitre 1.1 : Discute de la science des données dans le contexte des SFN et donne Il s’agit du troisième manuel sur les services offre un aperçu des concepts de base, un aperçu des types, sources, méthodologies financiers numériques (SFN) produit et identifie les tendances des utilisateurs sur et outils de données utilisés pour obtenir publié par le Partenariat pour l’Inclusion le marché et illustre également une série des indications découlant de données. Financière, une initiative conjointe d’IFC et d’applications pratiques et d’études de de la Fondation MasterCard pour développer cas sur des prestataires de SFN qui tirent Chapitre 1.2 : Décrit comment appliquer la microfinance et faire progresser les de leurs données internes ou externes l’analyse de données aux SFN. Ce chapitre des opportunités commerciales. Il offre résume les techniques utilisées pour dériver SFN en Afrique subsaharienne. Le premier également un cadre pour guider les projets des indications sur les marchés à partir de manuel de la série, le Manuel sur les canaux de données et décrit le rôle que les données distribution alternatifs et technologies, fournit un de données des prestataires de SFN qui peuvent jouer dans l’amélioration de la guide complet des différentes technologies souhaitent tirer parti d’indications tirées de gestion opérationnelle des SFN. Le chapitre financières numériques, avec un accent données afin de mieux répondre aux besoins inclut de grands exemples classiques de la particulier sur les composantes matérielles des clients et d’améliorer les opérations, les vie réelle et des études de cas sur les leçons services et les produits. Le manuel est conçu tirées par les praticiens sur le terrain. Il se et logicielles d’un déploiement réussi. comme un premier contact avec les données termine par un aperçu de la manière dont Le deuxième manuel, le Manuel sur la gestion et l’analyse de données, et suppose que le les praticiens peuvent utiliser des données des risques en matière de canaux de distribution lecteur n’a aucune connaissance préalable pour développer des modèles de notation de alternatifs, est un guide sur les risques liés à de l’un ou l’autre. On considère cependant risque de crédit fondés sur des algorithmes l’argent mobile et aux services bancaires que le lecteur comprend les SFN et connait visant à favoriser l’inclusion financière. par agent et offre un cadre de gestion de les produits, la fonction des agents, les ces risques. Ce manuel a pour but de fournir Partie 2 : Cadre de projet de données aspects de la gestion opérationnelle et des orientations et un soutien utiles sur la le rôle des technologies. Le manuel est Chapitre 2.1 : Propose un cadre pour la façon d’appliquer l’analyse de données au structuré de la façon suivante : mise en œuvre des projets de données et développement et à l’amélioration de la un guide étape par étape pour résoudre qualité des services financiers. Introduction : Présente le manuel et des problèmes commerciaux pratiques en précise la plateforme et les définitions appliquant ce cadre et ainsi tirer parti de la Ce manuel est conçu pour tout type de générales en matière de SFN et d’analyse valeur des sources de données existantes prestataire de services financiers offrant de données. et potentielles. ou ayant l’intention d’offrir des services nées Chapitre 2.2 : Fournit un répertoire de financiers numériques. Les fournisseurs de Ap SFN sont tous les types d’institutions telles don s de plic sources de données et de ressources e od e do technologiques, ainsi qu’une liste que les institutions de microfinance, les h et m es d at ées d’indicateurs de performance pour évaluer ét nn banques, les opérateurs de réseaux mobiles, ion s des projets de données. Il inclut également Analy les entreprises de technologie financière et un glossaire qui fournit une description les prestataires de services de paiement. des termes utilisés dans le manuel et la Les canaux, produits et processus à pratique du secteur. proj composante technologique génèrent des G e s de Conclusion : Inclut des leçons tirées s données extrêmement précieuses sur les ce à ce jour de projets de données, en et ti o interactions des clients ; dans le même n ur s’appuyant sur l’expérience d’IFC en temps, des liens avec des ensembles do d ’u n s so Afrique subsaharienne dans le cadre du de données externes de plus en plus nn Re ées programme de Partenariat pour l’Inclusion disponibles peuvent être activés. Le manuel Financière de la Fondation MasterCard. 4 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Analyses de données et méthodes TABLE DES MATIÈRES AVANT PROPOS 4 ACRONYMES 7 NOTE DE SYNTHÈSE 10 Application de données INTRODUCTION 14 PARTIE 1 : MÉTHODES RELATIVES AUX DONNÉES ET APPLICATIONS 16 Chapitre 1.1 : Données, analyses et méthodes..................................................................................................................... 16 Définition des données 16 Sources de données 19 Confidentialité des données et protection des consommateurs 23 Gestion d’un projet de données La science des données : Introduction 26 Méthodes 29 Outils 32 Chapitre 1.2 : Applications de données pour les prestataires de services financiers numériques........................................................................................................................................................ 34 1.2.1 Analyses et applications : Indications tirées du marché ​36 1.2.2 Analyses et applications : Gestion des opérations et des performances​ 54 1.2.3 Analyses et applications : Notation du risque de crédit 79 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 5 Ressources PARTIE 2 : CADRES DE PROJETS DE DONNÉES 100 Chapitre 2.1 : Gestion d’un projet de données.....................................................................................................................100 L’Anneau des données 100 Structures et conception 102 OBJECTIF(S) 104 Quadrant 1 : OUTILS 107 Quadrant 2 : COMPÉTENCES 112 Quadrant 3 : PROCESSUS 117 Quadrant 4 : VALEUR ​124 APPLICATION : Utiliser l’Anneau des données ​126 Chapitre 2.2: Ressources...................................................................................................................................................................... 136 2.2.1 Synthèse des classifications des cas d’utilisation analytiques ​136 2.2.2 Répertoire des sources de données 137 2.2.3 Indicateurs pour l’évaluation des modèles de données 141 2.2.4 Anneau des données et matrice de l’Anneau des données 141 CONCLUSIONS ET LEÇONS TIRÉES 145 GLOSSAIRE ​149 BIOGRAPHIE DES AUTEURS ​156 6 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES ACRONYMES AO Appel d'offres API Interfaces de programmation (Application Programming Interfaces) AQ Assurance qualité ARPU Revenu moyen par utilisateur (Average Revenue Per User) ARS Analyse des réseaux sociaux BD Base de données CBA Commercial Bank of Africa CBS Système bancaire central (Core Banking System) CDA Canal de distribution alternatif CDO Directeur des données (Chief Data Officer) CDR Enregistrements détaillés des appels (Call Detail Records) CGAP Groupe consultatif d'assistance aux pauvres COT Commission sur une transaction (Commission on Transaction) Processus de norme interprofessionnelle pour l'exploration de données CRISP-DM (Cross Industry Standard Process for Data Mining) CSV Valeurs séparées par des virgules (Comma-separated Values) DN Date de naissance ERC Essai randomisé contrôlé Extraction - Transformation - Chargement ETL (Extraction - Transformation - Loading) FSD Approfondissement du secteur financier (Financial Sector Deepening) FTC Commission fédérale du commerce (Federal Trade Commission) GAB Guichet automatique bancaire GPS Géopositionnement par satellite (Global Positioning System) GRC Gestion de la relation client Système mondial de communications mobiles GSM (Global System for Mobile Communications) ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 7 Association du Système mondial de communications mobiles GSMA (Global System for Mobile Communications Association) IA Intelligence artificielle ICP Indicateur clé de performance ICR Indicateur clé de risque IF Institution financière IFC Société financière internationale (International Finance Corporation) IMF Institution de microfinance JSON Notation des objets en JavaScript (JavaScript Object Notation) KCB Kenya Commercial Bank KYC Obligation de s'informer sur le client (Know Your Customer) LBC Lutte contre le blanchiment de capitaux LFT Lutte contre le financement du terrorisme LOS Système de constitution de dossier de prêt (Loan Origination System) MLG Modèle linéaire généralisé MPME Micro, petites, et moyennes entreprises MVP Produit minimum viable (Minimum Viable Product) MVS Machine à vecteurs de support NDA Accord de non-divulgation (Non-Disclosure Agreement) OLA Accord au niveau opérationnel (Operating Level Agreement) ONU Nations Unies ORM Opérateur de réseau mobile P2P De personne à personne PAR Portefeuille à risque 8 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES PBAX Autocommutateur privé (Private Branch Automatic Exchange) PDV Point de vente PI Propriété intellectuelle PIN Numéro d'identification personnel (Personal Identification Number) PME Petites et moyennes entreprises PNP Prêt non productif PSF Prestataire de services financiers PSP Prestataire de services de paiement RDC République Démocratique du Congo RVS Réseau à vecteurs de support SEA Suivi, Évaluation et Apprentissage SFN Services financiers numériques SIG Système d’information de gestion SIM Module d'identification de l'abonné (Subscriber Identity Module) SLA Accord de niveau de service (Service Level Agreements) SMS Service de messages courts (Short Message Service) SQL Langage de requête structurée (Structured Query Language) TCP Protocole de contrôle de transmission (Transmission Control Protocol) TIC Technologies de l’information et de la communication TLN Traitement du langage naturel TPS Transactions par seconde UE Union Européenne Données de services supplémentaires non structurées USSD (Unstructured Supplementary Service Data) ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 9 Note de Synthèse La Société financière internationale (IFC) soutient les institutions qui cherchent à développer des services financiers numériques (SFN) pour développer l’inclusion financière et se consacre à de multiples projets sur un ensemble de marchés grâce à son portefeuille d’investissements et de projets de conseil. À partir de 2017, grâce à son travail avec la Fondation MasterCard et d’autres partenaires, IFC collabore avec les prestataires de SFN à travers l’Afrique subsaharienne pour développer l’inclusion financière par le biais « Laissez les données changer de produits et de services numériques. Les interactions avec les clients ainsi qu’avec le votre façon de voir les choses » secteur en général, dans la région et au-delà, ont fait apparaitre la nécessité d’un manuel – Hans Rosling sur la manière d’utiliser le domaine émergent de la science des données pour tirer de la valeur des données issues de ces réalisations. Bien que l’analyse des données offre aux prestataires de SFN une occasion de connaitre des détails précis sur leurs clients et d’utiliser ces connaissances pour offrir des services de meilleure qualité, de nombreux praticiens n’ont pas encore mis en œuvre d’approche systématique axée sur les données pour leurs opérations et organisations. Quelques exemples ont fait l’objet d’une grande attention en raison de leur réussite sur certains marchés, tels que l’intégration de données alternatives pour évaluer le risque de crédit de nouveaux types de clients. Cependant, le potentiel d’utilisation des données va au-delà d’un ou deux cas d’applications spécifiques. Le manque de connaissances, la pénurie de compétences et le malaise causé par une nouvelle approche sont des obstacles courants à l’application des indications provenant de données aux SFN. Ce manuel vise à donner un aperçu des opportunités qu’offrent les données en termes de stimulation de l’inclusion financière, ainsi que des mesures que les praticiens peuvent prendre pour commencer à adopter une approche axée sur les données dans leurs entreprises et à concevoir des projets fondés sur les données pour résoudre des problèmes commerciaux concrets. Au cours de la dernière décennie, les SFN ont transformé l’offre faite à la clientèle et le modèle économique du secteur financier, en particulier dans les pays en développement. Un grand nombre de personnes à faible revenu, de microentrepreneurs, de petites entreprises et de populations rurales qui n’avaient jusque-là pas accès à des services financiers 10 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES formels sont maintenant numériquement On estime qu’environ 2,5 quintillions exemple, il existe des appareils solaires qui bancarisés par le biais d’un ensemble d’octets de données sont produits chaque produisent des informations sur l’utilisation d’anciens et de nouveaux prestataires de jour dans le monde.2 Pour se faire une de l’unité et les remboursements de SFN services financiers (PSF), notamment des idée de cette quantité de données, cela effectués par le propriétaire. Les données fournisseurs non traditionnels tels que des représente plus de 10 milliards de DVD sont ensuite utilisées pour réaliser des opérateurs de réseaux mobiles (ORM) et haute définition. La plupart de ces données évaluations de crédit instantanées qui des entreprises émergentes de technologie sont récentes - 90 % des données existantes peuvent au bout du compte générer de financière. Cela s’est avéré avoir un impact ont été créées au cours des deux dernières nouvelles activités. Pour les prestataires de sur la qualité de vie, comme le montre années.3 La révolution des données SFN, les données peuvent être tirées d’un l’exemple kenyan, où une étude menée numériques récente s’étend avec la même éventail croissant de sources : données par des chercheurs du Massachusetts intensité dans les pays en développement transactionnelles, relevés des appels Institute of Technology (MIT) a montré et dans les pays développés. En 2016, mobiles, enregistrements des centres que l’introduction de services financiers il existait 7,8 milliards d’abonnements de d’appels, inscriptions des clients et des à composante technologique pouvait téléphonie mobile dans le monde, dont agents, modèles d’achat de temps de contribuer à réduire la pauvreté.1 L’étude 74 pour cent se situaient dans des pays en communication, informations de bureau de estime que, depuis 2008, l’accès aux développement.4 L’abondance de données crédit, publications sur les réseaux sociaux, services d’argent mobile qui permettent devrait s’intensifier à l’avenir. À mesure que données géo spatiales et plus encore. aux utilisateurs de conserver et d’échanger baissent les couts des smartphones, l’accès de l’argent a augmenté les niveaux de à l’Internet mobile devrait passer de 44 Ces sources émergentes de données consommation quotidienne par habitant pour cent en 2015 à 60 pour cent en 2020. ont la capacité d’avoir des répercussions de 194 000 personnes, soit environ deux En Afrique subsaharienne, l’utilisation des positives sur l’inclusion financière. L’analyse pour cent des ménages kenyans, ceci ayant smartphones devrait passer de 25 pour peut améliorer les processus d’entreprise pour effet concret de les sortir de l’extrême cent de toutes les connexions en 2015 à 50 des institutions qui offrent des services pauvreté. L’impact le plus important a pour cent d’ici 2020. Les objets quotidiens 5 aux ménages à faible revenu en leur été ressenti par les ménages dirigés par sont de plus en plus conçus pour envoyer permettant d’identifier de nouveaux clients des femmes, souvent considérés comme et recevoir des données, en se connectant et de s’adresser à eux de manière plus particulièrement marginalisés sur le plan et communiquant directement entre efficace. Ainsi, les données peuvent aider économique. Il s’agit d’un bon argument eux et via des interfaces utilisateur les institutions financières (IF) à toucher en faveur d’une inclusion financière plus d’applications de smartphones, connues des personnes nouvelles et jusque-là étendue et plus approfondie en Afrique sous le nom d’Internet des objets.6 Bien exclues. Elles renforcent également subsaharienne et dans d’autres économies qu’il s’agisse d’un phénomène observé l’inclusion financière puisque les clients émergentes. Les données et analyses de essentiellement dans les pays développés, existants utilisent de plus en plus de données peuvent contribuer à atteindre il existe aussi des exemples issus du monde produits financiers. Dans le même temps, cet objectif. en développement. En Afrique de l’Est par les décideurs politiques et les autres 1 Suri and Jack, « The Long Run Poverty and Gender Impacts of Mobile Money, » Science Vol. 354, Numéro 6317 (2015): 1288-1292. 2 « The 4 Vs of Big Data », IBM Big Data Hub, consulté le 3 avril 2017, https://www-01.ibm.com/software/data/bigdata/what-is-big-data.html 3 « The 4 Vs of Big Data », IBM Big Data Hub, consulté le 3 avril 2017, https://www-01.ibm.com/software/data/bigdata/what-is-big-data.html 4 « The Mobile Economy 2017’, GSMA Intelligence 5 « Global Mobile Trends, » GSMA Intelligence 6 Internet des objets. Dans Wikipedia, l’encyclopédie libre, consulté le 3 avril 2017, https://fr.wikipedia.org/wiki/Internet_des_objets ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 11 parties prenantes publiques peuvent attaques par les pirates et les exigences d’améliorer les services offerts aux clients maintenant avoir une vision détaillée des gouvernements, tout en stimulant et de répondre à leurs besoins les plus de l’inclusion financière en examinant l’innovation dans le domaine de l’utilisation importants, générant ainsi une valeur l’accès, l’utilisation et d’autres tendances. des données visant à améliorer les produits économique. Une entreprise orientée Ces données concrètes peuvent jouer un et services. Au niveau institutionnel, il doit client comprend les besoins et les désirs des rôle dans l’élaboration de futures politiques exister des politiques claires régissant le clients, en veillant à ce que les processus et stratégies visant à améliorer l’inclusion consentement préalable et l’option de refus internes et les processus qui touchent financière. de l’utilisation des données, de l’exploration directement la clientèle, les initiatives de données, de la réutilisation des données en matière de marketing et la stratégie La plus grande disponibilité des données par des tiers, de leur transfert et de de produit reposent sur une science des représente des défis et des opportunités. leur diffusion. données qui favorise la fidélisation des Le défi majeur consiste à tirer parti de clients. Du point de vue des opérations, l’utilité des données tout en respectant L’utilisation des données est pertinente les données jouent un rôle important dans la vie privée des personnes. Une grande pour l’ensemble du cycle de vie d’un client l’automatisation des processus et la prise part des données récemment disponibles afin de mieux comprendre ses besoins de décision, ce qui permet aux institutions sont produites passivement suite à nos et ses préférences. Il existe trois grandes de devenir évolutives de façon rapide et interactions avec des services numériques applications quant aux données dans le efficace. Ici, les données jouent également domaine des SFN : l’obtention d’indications tels que les téléphones mobiles, les un rôle important dans le suivi des sur le marché, l’amélioration de la gestion recherches sur Internet, les achats performances et la génération d’indications opérationnelle et la notation de risque de en ligne et les transactions stockées crédit. Le manuel fait appel à de nombreuses sur la façon dont elles peuvent être électroniquement. Les caractéristiques des études de cas afin de montrer comment les améliorées. Enfin, l’utilisation répandue individus peuvent être déduites à partir praticiens utilisent l’analyse de données. de l’Internet et du téléphone mobile est d’algorithmes complexes qui utilisent ces Il est intéressant de noter que l’univers des une source de nouvelles données qui données, tout cela grâce aux progrès en données est en expansion permanente et permettent aux prestataires de SFN de matière de capacité analytique. Ainsi, la que les capacités analytiques s’améliorent réaliser une évaluation des risques plus vie privée est d’autant plus mise en péril également à mesure que progresse la précise des personnes jusque-là exclues qui que les générateurs de données primaires capacité technologique. Ainsi, le potentiel n’ont pas d’antécédents financiers formels n’ont pas conscience des données qu’ils d’utilisation des données dépasse pour appuyer leurs demandes de prêt. génèrent et de la manière dont elles largement les applications décrites dans peuvent être utilisées. En tant que tel, Le manuel décrit les étapes par lesquelles ce manuel. les entreprises et les parties prenantes du les praticiens peuvent passer afin de secteur public doivent mettre en place les Le développement d’indications sur le comprendre les éléments essentiels requis garanties appropriées pour protéger la marché fondés sur les données est essentiel pour concevoir un projet de données et le vie privée. Il doit exister des politiques et au développement d’une entreprise mettre en œuvre au sein de leurs propres des cadres juridiques clairs, tant au niveau orientée client. La compréhension des institutions. Deux outils sont présentés national qu’international, qui protègent marchés et des clients à un niveau de pour guider les chefs de projet à travers les producteurs de données contre les grande précision permettra aux praticiens ces étapes : L’Anneau des données et son 12 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES complément, la Matrice de l’Anneau des d’outil de communication, en fournissant utilisant différents modèles économiques. données. L’Anneau des données est une un schéma de conception de projet de haut Le fil conducteur de tous ces cas est que liste de contrôle visuelle, dont la forme niveau sur une seule feuille de papier qui les institutions peuvent systématiquement circulaire a pour centre le « cœur » de peut être mise à jour et discutée tout au développer leurs capacités en matière de tout projet de données en tant qu’objectif long de la mise en œuvre du projet. données en commençant par des étapes stratégique de l’entreprise. Le processus modestes. Devenir une organisation de définition des objectifs est discuté, Enfin, des tableaux de ressources sont axée sur les données avec des activités suivi d’une description des catégories fournis. Le répertoire de données dresse compétitives basées sur les données est de ressources fondamentales et des la liste des principales sources de données un parcours qui nécessite une vision et structures de conception nécessaires à la disponibles pour les praticiens des SFN un engagement à long terme. Il peut être mise en œuvre du projet. Ces éléments et un bref aperçu de leur application nécessaire de changer certains aspects de incluent des ressources directes, telles que potentielle à un projet de données. La base la culture organisationnelle et d’améliorer les données elles-mêmes, les outils logiciels de données technologique répertorie les les capacités internes existantes. Il est et le matériel de traitement et de stockage ; outils essentiels dans le secteur de la science important de noter que les institutions ainsi que des ressources indirectes, des données et des produits commerciaux doivent veiller à ce que les processus notamment les compétences, l’expertise de premier plan pour la gestion, l’analyse, par lesquels les données sont recueillies, dans le domaine et les ressources humaines la visualisation et les rapports de tableaux stockées et analysées respectent la vie nécessaires à l’exécution. Cette section de bord de données. Figure également privée des individus. décrit également comment ces ressources une liste de paramètres pour évaluer les sont utilisées lors de l’exécution du projet modèles de données qui seraient souvent Ce manuel vise à fournir des conseils pour affiner les résultats et fournir de abordés par des consultants externes ou et un soutien utiles aux prestataires la valeur selon une stratégie de mise en des fournisseurs d’analyses. Des copies des de SFN pour développer l’inclusion œuvre définie. outils de l’Anneau des données peuvent financière et améliorer les performances être téléchargées comme référence ou institutionnelles. La science des données L’outil complémentaire intègre ces pour être utilisées. offre une opportunité unique aux éléments de conception structurelle prestataires de SFN de connaitre leurs dans une Matrice, un espace où les Le manuel fait appel à de nombreuses clients, agents et commerçants ainsi chefs de projet peuvent formuler et études de cas afin d’illustrer les expériences que d’améliorer leurs processus internes concevoir les ressources et définitions d’un ensemble diversifié de prestataires opérationnels et de crédit en utilisant ces clés de façon organisée et interconnectée. de SFN lors de la mise en œuvre de connaissances pour offrir des services de Les outils permettent de définir les relations projets de données au sein de leurs meilleure qualité. La science des données interconnectées entre les structures de organisations. Alors que ces praticiens exige que les entreprises adoptent de conception de projet, afin de visualiser sont principalement basés en Afrique et nouvelles compétences et modes de la manière dont les éléments sont liés offrent des SFN à leurs clients sous forme pensée, ce qui peut leur être inconnu. et d’identifier les éventuelles lacunes ou d’argent mobile ou de services bancaires Cependant, ces compétences peuvent être le domaine dans lequel les exigences en par agent, cela ne veut pas dire que les acquises et permettront aux praticiens des ressources nécessitent un ajustement. indications issues des données ne peuvent SFN d’optimiser à la fois les performances L’approche de la Matrice sert également pas être utilisées par tous types de PSF en institutionnelles et l’inclusion financière. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 13 Introduction Les personnes jusque-là non bancarisées sur les marchés émergents accèdent de plus en plus aux services financiers formels via des canaux numériques. La puissance informatique présente partout, la connectivité omniprésente, le stockage de données de masse et les technologies analytiques évoluées sont exploitées pour fournir des produits et services financiers personnalisés de manière plus efficace et directe à un ensemble croissant de clients ; collectivement, on appelle ces produits et services les Services Financiers Numériques (SFN). Les prestataires de SFN, c’est-à-dire les institutions qui tirent parti des SFN pour fournir des services financiers, comprennent un ensemble d’institutions diversifié notamment les PSF traditionnels, comme les banques et les Institutions de Microfinance (IMF), ainsi que les PSF émergents tels que les ORM, les entreprises de technologie financière et les Prestataires de Services de Paiement (PSP). Les données sont un terme utilisé pour décrire des informations, des faits ou des statistiques qui ont été recueillis aux fins de tous types d’analyse ou pour servir de référence. Les données existent sous plusieurs formes, telles que les nombres, les images, les textes, l’audio et la vidéo. L’accès aux données est un atout concurrentiel. Cependant, il ne signifie rien sans la capacité de les interpréter et de les utiliser pour améliorer l’orientation vers le client ; en tirer des indications sur le marché et en extraire une valeur économique. Les analyses sont les outils qui permettent de combler l’écart entre les données et les idées. La science des données est le terme donné à l’analyse des données, qui est un processus créatif et exploratoire empruntant des compétences à de nombreuses disciplines, notamment les activités commerciales, les statistiques et l’informatique. Elle a été définie comme « un domaine englobant et multidimensionnel qui utilise les mathématiques, les statistiques et autres techniques évoluées pour trouver des modèles et des connaissances significatifs dans les données collectées ».7 Les outils de veille économique traditionnels étaient de nature descriptive, alors que les analyses évoluées peuvent utiliser les données existantes pour prédire le comportement futur de la clientèle. Le caractère interdisciplinaire de la science des données exige que tout projet de données soit réalisé par une équipe qui puisse compter sur différentes gammes de compétences. Elle requiert une contribution du côté technique. Toutefois, elle requiert également une participation de l’équipe commerciale. Comme le montre le graphe ci-dessus, la conversion 7 « Analytics: What is it and why it matters?, » SAS, consulté le 3 avril 2017, https://www.sas.com/en_za/insights/analytics/what-is-analytics.html 14 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Analyses PRISE DE DÉCISION Données Applications Figure 1 : La chaine de valeur des données des données en valeur pour les entreprises l’utilisation de la technologie numérique Une mauvaise confidentialité des données et en inclusion financière est un véritable et des smartphones se développe sur les peut entrainer une usurpation d’identité parcours. La bonne compréhension des marchés émergents, les prestataires de et des pratiques de prêt irresponsables. sources de données et des outils analytiques SFN sont particulièrement bien placés Dans le contexte du crédit numérique, ne représente qu’une partie du processus. pour tirer parti des données et des des politiques sont nécessaires pour Ce processus ne saurait être complet sans analyses afin de développer leur clientèle s’assurer que les personnes comprennent une conceptualisation des données dans le et fournir un service de meilleure qualité. les implications du partage de leurs cadre des strictes réalités commerciales du L’analyse des données peut être utilisée à données avec les prestataires de SFN et fournisseur de SFN. En outre, le fournisseur des fins spécifiques telles que la notation pour s’assurer qu’ils ont accès aux mêmes doit intégrer les indications tirées de de risque de crédit, mais peut également données que celles auxquelles le fournisseur l’analyse dans ses processus décisionnels. être utilisée de façon plus générale pour peut accéder. Afin d’élaborer des politiques, améliorer l’efficacité opérationnelle. Quel les parties prenantes tels que les prestataires, Pour les prestataires de SFN, l’analyse de que soit l’objectif, un fournisseur de SFN qui les décideurs politiques, les organismes données est une opportunité unique. Les utilise les données a la capacité d’agir en prestataires de SFN sont particulièrement de réglementation et d’autres devront se fonction de données concrètes, plutôt que actifs sur les marchés émergents et servent réunir pour discuter des préoccupations d’observation anecdotique ou en réaction à de plus en plus les clients qui peuvent ne en matière de protection de la vie privée, ce que font les concurrents sur le marché. pas avoir d’antécédents financiers formels des solutions possibles et de la marche tels que les antécédents de crédit. Il peut Dans le même temps, il est important de à suivre. Pour ceux qui se consacrent être particulièrement difficile de desservir soulever la question de la protection du à l’inclusion financière, les prestataires ces nouveaux marchés. L’apprentissage des consommateur et de sa vie privée, car peuvent apprendre aux clients de façon niveaux de préférences et de connaissances il arrive souvent que les producteurs de proactive la manière dont les informations des nouveaux types de clients peut données primaires n’aient pas conscience sont recueillies, utilisées et s’engager à ne nécessiter d’y consacrer davantage que des données sont recueillies, recueillir que les données nécessaires, sans de temps et de travail. À mesure que analysées et utilisées à des fins spécifiques. communiquer ces informations à des tiers. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 15 nées Ap PARTIE 1 on s de plic d e od e h do Méthodes relatives aux données et m es d at ées et applications ét nn ion s Analy Chapitre 1.1 : Données, analyses proj G e s de s et méthodes ce et ti o n ur do d ’u n ss o nn Re ées La complexité et la diversité croissantes des données produites ont conduit au développement de nouveaux outils et méthodes analytiques pour exploiter ces données et en tirer des indications. Le croisement des données et de leur ensemble d’outils analytiques correspond dans les grandes lignes au domaine émergent de la science des données. Pour les PSF numériques qui cherchent à appliquer des approches axées sur les données à leurs opérations, cette section fournit les connaissances de base pour identifier les ressources et interpréter les opportunités opérationnelles à travers le prisme des données, de la méthode scientifique et de la boite à outils d’analyse. Définition des données Les données sont des échantillons de la réalité, enregistrés sous forme de mesures et stockées sous forme de valeurs. La façon dont les données sont classées, leur format, leur structure et leur source déterminent quels types d’outils peuvent être utilisés pour les analyser. Les données peuvent être quantitatives ou qualitatives. Les données quantitatives sont généralement des éléments d’information qui peuvent être mesurés objectivement, par exemple, des enregistrements de transactions. Les données qualitatives sont des éléments d’information sur des qualités et sont généralement plus subjectives. Les sources classiques de données qualitatives sont les entretiens, les observations ou les opinions, et ces types de données sont souvent utilisés pour estimer le sentiment ou le comportement des clients. On classe également les données par format. Au sens le plus immédiat, cela décrit la nature des données : nombre, image, texte, voix ou élément biométrique, par exemple. La numérisation des données est le processus consistant à prendre ces éléments de « réalité » mesurée ou observée et à les représenter sous forme de nombres que les ordinateurs comprennent. Le format des données numérisées décrit la façon dont une mesure donnée est codée numériquement. Il existe de nombreuses façons d’encoder l’information, mais toute information numérisée convertit des choses en nombres qui peuvent faire l’objet d’une analyse, ce qui sert de source d’indication potentielle de la valeur opérationnelle. La classification par format est essentielle car ce format décrit comment transformer l’information numérique en une représentation de la réalité et comment utiliser les bons outils de science des données pour obtenir des indications analytiques. 16 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Pour qu’elles soient à disposition de infinie de mots et de lettres illustre bien l’analyse, les données doivent être ce que sont les données non structurées. stockées. Elles peuvent être stockées Dans l’ensemble, les tweets représentent de façon structurée ou non structurée. donc des données semi-structurées. Les données structurées ont un ensemble d’attributs et de relations définis lors Les données sont également classées par du processus de conception de la base source. Les PSF ont tendance à catégoriser de données ; ces données suivent une les sources de données en sources organisation prédéterminée, également traditionnelles ou non traditionnelles ; appelée un schéma. Dans une base de les sources de données traditionnelles se données structurée, tous les éléments réfèrent à des sources de données internes de la base de données ont le même telles que les transactions tirées du système nombre d’attributs selon une séquence principal de gestion des comptes, les spécifique. Les données transactionnelles enquêtes auprès des clients, les formulaires sont généralement structurées ; elles d’inscription ou les informations ont les mêmes caractéristiques et sont démographiques. Les sources de données enregistrées de la même façon. Les données traditionnelles comprennent également structurées sont plus faciles à interroger et des sources externes telles que les bureaux à analyser. Les données non structurées de crédit. Ce sont habituellement des ne sont pas organisées selon des schémas données structurées. Les données non prédéterminés. Elles peuvent s’accroitre traditionnelles ou données alternatives, selon plusieurs formes, dans lesquelles des peuvent être structurées, semi-structurées attributs fiables peuvent ou non exister. ou non structurées, et ne sont pas toujours Cela les rend plus difficiles à analyser, mais liées à l’utilisation des services financiers. c’est un avantage car plus de données sont Ces types de données sont par exemple générées rapidement à partir de nouvelles les données d’utilisation de services sources telles que les réseaux sociaux, les de messages vocaux et courts (SMS) e-mails, les applications mobiles et les provenant des ORM, d’images satellites, appareils personnels. Les données non de données géo spatiales, de données de structurées ont l’avantage de pouvoir réseaux sociaux, d’e-mails ou d’autres être enregistrées telles quelles, sans avoir données indirectes. Ces types de sources à vérifier si elles respectent les règles de de données sont de plus en plus utilisés l’organisation. Cela permet de les stocker par les PSF pour améliorer ou approfondir de manière rapide et souple. Certaines la compréhension de la clientèle, ou sont données sont également considérées utilisés en association avec des données comme des données semi-structurées. traditionnelles pour obtenir des indications Considérons un tweet de Twitter, par opérationnelles. Par exemple, une IMF exemple, qui est limité à 140 caractères. qui souhaite travailler en partenariat avec Il s’agit d’une structure organisationnelle une coopérative laitière pour accorder des prédéterminée, et le service est programmé prêts à des producteurs laitiers pourrait pour vérifier que le moindre tweet satisfait utiliser la production de lait comme à cette exigence. Cependant, le contenu information indirecte sur les salaires afin de ce qui est écrit dans un tweet n’est d’évaluer la capacité d’octroi de crédits pas prédéfini et ne correspond à aucune à des agriculteurs qui ne disposent pas règle ; cette combinaison pratiquement d’antécédents de crédits formels.8 8 Transcription de la session « Deploying Data to Understand Clients Better », Symposium de la Fondation MasterCard sur l’inclusion financière 2016, consulté le 3 avril 2017 http://mastercardfdnsymposium.org/resources/ ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 17 1.1_ANALYSES DE DONNÉES ET MÉTHODES Mégadonnées est le terme générique habituellement utilisé pour décrire la grande échelle et la nature sans précédent des données qui sont actuellement produites. Les Mégadonnées ont cinq caractéristiques. Les premiers Que sont les spécialistes des données ont identifié les trois premières caractéristiques énumérées ci-dessous et se réfèrent toujours aujourd’hui aux « trois V ». mégadonnées ? En développement depuis lors, les caractéristiques des Mégadonnées sont aujourd’hui au nombre de cinq : 1. Volume: La quantité de données actuellement produite est en elle-même étourdissante. L’ancienneté de ces données est également de plus en plus réduite, ce qui signifie que la quantité de données de moins d’une minute est en augmentation permanente. On s’attend à ce que la quantité de données dans le monde soit multipliée par 44 entre 2009 et 2020. 2. Vitesse: Une grande part des données disponibles est produite et mise à disposition en temps réel. Chaque minute, 204 millions d’e-mails sont envoyés. En conséquence, ces données sont traitées et stockées à très grande vitesse. 3. Variété: L’ère du numérique a diversifié les types de données disponibles. Aujourd’hui, 80 % des données générées, sous forme d’images, de documents et de vidéos, ne sont pas structurées. 4. Véracité: La véracité signifie la crédibilité des données. Les gestionnaires d’entreprise doivent savoir que les données qu’ils utilisent dans le processus de prise de décision sont représentatives des besoins et des désirs de leurs clients. Il est donc important de s’assurer qu’un processus rigoureux et permanent de nettoyage des données est suivi. 5. Complexité: La combinaison des quatre attributs ci-dessus exige des processus analytiques complexes et évolués. Des processus analytiques évolués sont apparus pour traiter ces grands volumes de données. 18 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Sources de données Données sur les clients et les agents Étude de marché primaire Cette section se concentre sur les sources Les praticiens recueillent une grande On a généralement recours à une étude d’information clés que les prestataires de quantité d’informations sur leurs clients de marché pour mieux comprendre les SFN pourraient consulter afin d’obtenir lors des processus d’inscription et de clients et les segments de marché, suivre des indications opérationnelles ou sur les demande de prêt, à la fois pour des les tendances du marché, développer des raisons commerciales et pour respecter la produits et rechercher les commentaires marchés. Surtout, une source de données réglementation. De même, ils recueillent des clients. Cette étude peut être ne doit pas être prise de façon isolée ; des informations sur leurs agents dans la conjonction de multiples sources de qualitative ou quantitative, et il peut être le cadre du processus de demande et données permet souvent d’acquérir une utile de comprendre pourquoi et comment lors des visites de suivi. Pour ces deux compréhension de plus en plus nuancée les clients utilisent les produits. Les achats catégories, il peut s’agir de variables telles des réalités codées par les données. anonymes effectués par des enquêteurs que le sexe, la localisation et le revenu. Le chapitre 2.2 sur la collecte et le stockage représentent une méthode courante Certaines de ces données sont vérifiées des données des SFN passe en revue les d’étude de marché pour vérifier si les par des documents officiels, alors que sources de données traditionnelles et agents offrent un bon service à la clientèle ; d’autres sont évoquées et saisies lors des alternatives les plus courantes qui sont à certains prestataires de SFN recherchent entretiens. Dans le cas des emprunteurs, disposition des prestataires de SFN. quant à eux des commentaires directs une grande partie de ces informations sur les clients est saisie numériquement dans des clients par le biais d’enquêtes qui Sources traditionnelles de données un Système de constitution de dossier de génèrent un Taux de Recommandation Comme mentionné ci-dessus, de façon prêt (LOS) ou un module de constitution Net permettant d’estimer à quel point traditionnelle, les PSF ont obtenu des de dossier dans le système bancaire les clients sont prêts à recommander un données tirées des dossiers des clients, des central (CBS). Il est surprenant de produit ou un service. données transactionnelles et des études constater que, souvent, ces informations de marché primaires. Une grande partie Données provenant de centres ne sont toujours disponibles que sur des données pertinentes pour le crédit ont d’appels papier ou dans des fichiers numérisés. été stockées sous forme de documents Les données provenant de centre d’appels (copies papier), et seules les données de Tiers sont une bonne source pour comprendre base sur l’inscription des clients et les Les bureaux de crédits et les registres les problèmes auxquels les clients sont activités bancaires étaient conservées dans sont d’excellentes sources de données confrontés et quels sont leurs sentiments des bases de données centralisées. Le défi objectives et vérifiables. Ils fournissent une sur les produits et le service clients d’un d’aujourd’hui pour les PSF est de s’assurer vérification de la crédibilité de l’information que ces types de données traditionnelles prestataire. Les données provenant de communiquée par les demandeurs de sont également stockés sous un format centres d’appels peuvent être analysées prêts et peuvent souvent révéler des numérique qui facilite l’analyse des données. en classant par catégories les types informations que le demandeur n’est pas Cela peut nécessiter une modification de la d’appels et les temps de résolution et enclin à divulguer. La plupart des rapports façon dont les données sont recueillies ou en utilisant l’analyse des conversations des bureaux de crédits et des registres l’utilisation d’une technologie qui convertit publics peuvent maintenant être interrogés pour examiner les journaux audio. Les les données en format numérique. Bien en ligne avec accès numérique aux données provenant de centre d’appels sont que de nouvelles technologies soient données pertinentes. Il existe cependant particulièrement utiles pour comprendre disponibles pour numériser les données une difficulté : tous les marchés émergents les problèmes auxquels les clients, traditionnelles, la numérisation peut ne disposent pas d’une infrastructure agents ou commerçants sont confrontés représenter une tâche trop importante d’évaluation du crédit qui fonctionne concernant des produits ou une nouvelle pour les anciennes données. pleinement. technologie qui vient d’être lancée. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 19 1.1_ANALYSES DE DONNÉES ET MÉTHODES Nombre Image Texte Voix Biométrique Figure 2 : Formats de données Bases de données transactionnelles les bureaux de crédits, mais ces documents de données et les données de SMS sur ont tendance à exister sur papier et sont l’expéditeur, le destinataire, l’heure et la Les données transactionnelles offrent des difficiles à numériser. durée, et 2) le temps de communication, informations sur les niveaux d’activité et des informations sur le rechargement des les tendances d’utilisation des produits. Sources de données alternatives forfaits de données, notamment le temps, De simples comparaisons de transactions la localisation et la valeur. De plus, ces Comme nos communications et affaires en valeur ou en volume peuvent offrir s’effectuent de plus en plus via les informations peuvent correspondre à des des indications très différentes sur le téléphones mobiles, les tablettes et les signaux de l’antenne-relais de téléphonie comportement des consommateurs. ordinateurs, il existe davantage de sources mobile pour générer les lieux d’activité Pour les institutions financières telles de données numérisées pouvant donner des clients. Les ORM qui offrent des que les banques ou les IMF, les données services d’argent mobile ont accès à la une indication de la capacité financière et fois aux données du CDR et à celles de la sur utilisation des comptes bancaires par de la réputation des clients. Ces sources base de données transactionnelle de SFN, les clients (dépôts, débits et crédits) et peuvent nous indiquer la manière dont les et lorsqu’elles sont combinées pour analyse, d’autres services (cartes, prêts, paiements personnes passent leur temps et comment ces informations prédisent mieux l’activité et assurance) sont normalement ils dépensent leur argent, où et avec qui et les usages des clients que les simples enregistrées dans le CBS. L’utilisation des ils le font. données démographiques. Sur certains comptes et des services bancaires permet marchés, les ORM et les PSF opèrent en Historique détaillé des appels une traçabilité objective des données qui partenariat pour tirer parti de la combinaison (CDR) des ORM peuvent être analysées pour trouver des des données. Les rechargements de Grâce à leurs activités de base, les ORM modèles signalisant différents niveaux de temps de communication, par exemple, ont accès aux CDR et aux coordonnées peuvent être un bon indicateur du revenu capacité et de sophistication financières. des antennes-relais de téléphonie mobile. discrétionnaire. Les clients qui utilisent leur Différents modèles d’utilisation peuvent Les ORM analysent les CDR pour mener temps de communication jusqu’à zéro et également être le signe de l’existence de des campagnes de marketing et des font régulièrement et souvent de petits différents niveaux de risque. Pour traiter promotions ciblées et pour ajuster les rechargements sont susceptibles d’avoir un les demandes de prêt, les institutions prix, par exemple. Au minimum, un CDR revenu discrétionnaire moindre que ceux financières peuvent exiger des documents comprend 1) les appels vocaux, le temps qui rechargent moins souvent, mais pour de la part d’autres institutions telles que de conversation, l’utilisation de services des montants plus importants. 20 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Données transactionnelles spatiales très précises ont permis aux sur les liens sociaux, le trafic créé, et le assistées par agent prestataires de SFN d’examiner et de comportement en ligne, notamment Les données du centre d’appels sont croiser des facteurs liés à la demande l’heure, le lieu, la fréquence et la séquence particulièrement utiles pour comprendre tels que le niveau d’inclusion financière, d’un site Web ou d’une série de sites quels sont les localisations et les agents la localisation des clients, les niveaux de Web. Les réseaux sociaux peuvent aussi qui sont les plus actifs pour fournir des pauvreté, l’utilisation des données de être le signe du statut socioéconomique indications contribuant à améliorer les téléphonie et de données mobiles, avec d’un individu. Par exemple, les personnes performances du réseau d’agents. Pour de des facteurs liés à l’offre tels que l’activité dont le profil LinkedIn a de nombreuses nombreux prestataires de SFN, les agents des agents, les caractéristiques rurales ou connexions peuvent, en moyenne, représentent le contact direct avec le urbaines, la présence d’infrastructures, représenter un risque plus faible que celles client, et le suivi du modèle d’utilisation et autres éléments similaires. Cela peut qui n’en ont pas. Ce n’est pas parce que et de l’activité des agents peuvent donner donner des indications qui peuvent être la création d’un compte LinkedIn indique des indications sur les préférences des utiles à des stratégies d’acquisition de en soi une capacité à payer ses dettes, clients et les performances de l’agent. Ces clients et de marketing, le développement mais plutôt parce que LinkedIn cible les informations peuvent être directement des agents ou des succursales, et une diplômés et, en moyenne, les diplômés ont enregistrées à partir des téléphones analyse de la concurrence ou du marché des salaires plus élevés que les personnes mobiles, des appareils de points de vente général. Les données géo spatiales peuvent non diplômées. Les profils publics de (PDV) ou des ordinateurs du point de donner des indications plus précises que les réseaux sociaux peuvent également être transaction. Elles peuvent également être indicateurs socio-économiques habituels, utiles pour vérifier les coordonnées et les indirectement associées, par le biais par qui ne sont généralement disponibles que informations personnelles de base sur les exemple des formulaires d’inscription de sous forme agrégée. clients. Les réseaux sociaux en tant que l’agent, en tenant compte de la nécessité source de données ont cependant leurs Profils de réseaux sociaux limites. Les PSF ne peuvent généralement d’être fusionnées dans le pipeline de données transactionnelles pour qu’une De plus en plus, les marchés des clients avoir accès qu’aux comptes de réseaux analyse puisse être menée. potentiels et existants se développent sociaux des clients qui donnent leur accord en ligne et maintiennent une présence préalable, et il peut être difficile d’obtenir Données géo spatiales sur les sites de réseaux sociaux tels que que suffisamment de clients donnent cet Les données géo spatiales correspondent Facebook, Twitter et LinkedIn. Les données accord préalable afin de construire une aux données qui contiennent des de comportement en ligne peuvent fournir base de données de taille suffisante pour informations de localisation telles que des informations sur les commentaires, les que l’analyse soit significative. Certains les coordonnées du système de géo- attitudes, les modes de vie, les objectifs clients peuvent également ne pas être actifs positionnement par satellite (GPS), les des clients et la façon dont les services sur les réseaux sociaux, par choix ou selon adresses, les villes et autres identifiants financiers peuvent jouer un rôle dans leur certaines circonstances. Les données de géographiques ou de proximité. Ces vie. Les données des réseaux de réseaux profil, même lorsqu’elles sont disponibles, dernières années, des données géo sociaux comprennent des données peuvent également être biaisées. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 21 1.1_ANALYSES DE DONNÉES ET MÉTHODES Sources de données opérationnelles Rapports de systèmes de veille Données internes périphériques De nombreux processus au sein de économique Données d’autocommutateur l’entreprise sont requis pour exécuter Lorsque des produits de SFN sont nouveaux privé (PBAX) une opération de SFN, chaque service et qu’il existe un volume relativement Le PBAX contrôle les appels entrants dans travaillant à la réalisation des tâches et à faible de données, il est courant pour un centre d’appels, et peut fournir des l’atteinte d’objectifs de performance tout les entreprises de créer des rapports données sur le volume des appels entrants, en se basant sur des données provenant de personnalisés à partir de données brutes en le nombre d’appels interrompus avant multiples sources. Les sources possibles de utilisant des outils simples comme Excel. À l’obtention d’une réponse et le temps données externes et internes sont illustrées mesure que l’entreprise et les données se consacré aux appels. Ces données sont dans la figure ci-dessous et énumérées plus développent, et que l’analyse nécessaire essentielles à une planification efficace en détail au chapitre 2.2. Chaque service à la devient plus complexe, cela devient vite des modèles et de la taille des variations, fois génère et consomme des données dans ingérable. La plupart des grands systèmes ainsi qu’à la mesure et à l’amélioration de la tout cet écosystème. Voici certaines des de SFN mettent en place une banque de performance générale de l’équipe. sources de données les plus importantes : données qui utilise des systèmes de veille économique pour exploiter de nombreuses Systèmes de gestion des incidents Données du système central sources de données, qui fournissent des Le système de gestion des incidents suit le Le système central fournit la majeure partie rapports de base et offrent la possibilité de processus de résolution des problèmes de des données. Le moteur transactionnel personnaliser. l’activité, et offre une mine d’informations, est responsable de la gestion du flux de allant des types de problèmes qui se travail des transactions et des interactions, Historiques techniques en envoyant autant de données et de produisent aux durées de résolution des Les historiques techniques constituent une problèmes. métadonnées précises que possible abondante source de données. De plus aux bases de données pertinentes. en plus de fournisseurs de SFN évolués Cela comprend le mouvement des fonds utilisent de manière proactive des tableaux ainsi que les frais et commissions, ainsi que toute règle métier sur les partages de bord pour veiller en permanence à la de commissions et la réglementation santé du système et assurer une détection fiscale. Il doit également fournir des pistes précoce des défaillances. Il est également entièrement vérifiables de flux de travail courant de voir des moniteurs et alertes des activités non financières telles que les sur les performances intégrées au système changements de Numéro d’identification de surveillance et qui peuvent fournir de personnel (PIN), les demandes de solde, précieuses informations. Les prestataires les mini-relevés et les téléchargements qui n’accèdent à ces données que de données, ainsi que des fonctions lorsqu’une analyse de problème spécifique internes telles que les transferts de fonds est nécessaire, se privent de données entre comptes. disponibles et utiles. 22 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Confidentialité des droits individuels du respect de la vie privée pourraient avoir des répercussions données et protection négatives en matière de réputation. Optimiser vos cartes des consommateurs Au Kenya, de nombreux prestataires de crédit Google Maps numériques ont vu le jour pour répondre à Les nouvelles méthodologies d’analyse la demande de crédit, mais ils opèrent en et de collecte des données soulèvent dehors de la compétence réglementaire de plusieurs questions relatives aux droits de la Banque centrale.9 Un de ces prestataires a confidentialité des clients et à la protection inclus dans ses conditions générales le fait que des consommateurs. Tout d’abord, comme le prestataire était libre d’afficher les noms indiqué plus haut, la plupart des données des personnes défaillantes sur son site Web sont produites et recueillies de façon et de publier directement sur les pages de passive, c’est-à-dire sans que le producteur réseaux sociaux des personnes défaillantes. des données en ait conscience. Parfois, Dans des cas comme celui-ci, les clients Découvertes ces données sont partagées avec des peuvent ne pas être conscients du fait qu’ils Voir des suggestions pour des nouveaux endroits à tiers à l’insu du producteur de données. acceptent de céder leurs droits au respect explorer sur la base de là où vous avez été Cela peut avoir des conséquences de la vie privée jusqu’à ce qu’il soit trop tard. négatives sur la capacité de l’individu à Cela peut être particulièrement vrai dans Commencez par activer l’historique de votre géolocalisation ? obtenir des prêts ou des assurances. Le les contextes de pays en développement où Créer une carte privée de vos déplacements avec vos appareils activés. EN SAVOIR PLUS. problème est aggravé lorsque la personne l’alphabétisation et la sensibilisation à ces n’a pas connaissance de ces informations questions sont faibles. ANNULER ACTIVER négatives ou n’a pas recours à une contestation des informations négatives. En particulier, même dans les pays où Il n’existe aucune politique standard de le consentement de l’utilisateur est consentement préalable concernant le courant, les consommateurs peuvent ne partage des données. Certains prestataires pas comprendre les autorisations qu’ils de SFN ayant des applications installées accordent. À titre d’exemple, les utilisateurs sur les téléphones mobiles de leurs clients sur les marchés sophistiqués peuvent ne pas Figure 3 : Exemple de demande peuvent être en mesure d’obtenir des avoir conscience de toutes les applications d’enregistrement et d’accès aux informations sur l’utilisation d’Internet du de leur smartphone qui utilisent des données d’historique de localisation des client et d’autres données, notamment les données de localisation. Des études utilisateurs via l’application Google Maps messages SMS, les contacts et les données montrent que 80 pour cent des utilisateurs de localisation, entre autres. de téléphones mobiles s’inquiètent du préoccupations en matière de sécurité et partage de leurs informations personnelles de la volonté affichée des clients d’arrêter Étant donnée la diversité des prestataires lorsqu’ils utilisent l’Internet ou des d’utiliser des applications qu’ils jugent trop de SFN, tous les prestataires ne relèvent applications mobiles.10 Malgré tout, 82 pour intrusive ou qui offrent une faible sécurité, pas du même régime de surveillance, cent des utilisateurs acceptent les avis la plupart des applications offrent de nos ce qui conduit à différentes politiques de de confidentialité sans les lire, car ils ont jours des moyens simples de donner son confidentialité des données s’appliquant tendance à être trop long ou à utiliser des consentement préalable ou d’utiliser leur à chacun. Certaines des violations aux termes qui leur sont inconnus. En raison de option de retrait. 9 Ombija and Chege, « Time to Take Data Privacy Concerns Seriously in Digital Lending, » Blog du Groupe consultatif d’assistance aux plus pauvres, 24 octobre 24 2016, consulté le 3 avril 2017, https://www.cgap.org/blog/time-take-data-privacy-concerns-seriously-digital-lending 10 « Mobile Privacy: Consumer research insights and considerations for policymakers, » GSMA ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 23 1.1_ANALYSES DE DONNÉES ET MÉTHODES Autorisations des applis Autorisations des applis Autorisations des applis Appareil photo ON Capteurs corporels ON Calendrier ON Contacts OFF Appareil photo OFF Appareil photo OFF Localisation OFF Contacts OFF Localisation ON Microphone OFF Localisation ON Contacts OFF Téléphone ON Microphone ON Microphone OFF SMS ON Téléphone OFF Téléphone ON Stockage OFF SMS ON SMS OFF Figure 4 : Exemples de paramètres d’autorisations d’application de smartphone Les lois sur la protection de la vie données. L’UE a adopté une réglementation au consommateur tout en améliorant la privée, lorsqu’elles existent, varient sur la protection des données en 2016 concurrence, les consommateurs pouvant considérablement selon la juridiction qui exige que tous les producteurs de maintenant changer de prestataires en et encore davantage selon leur degré données soient en mesure de recevoir gardant leur historique de transactions d’application. Dans le contexte des marchés en retour les informations qu’elles intact. Aux États-Unis, la Federal Trade développés, dans l’Union Européenne (UE), fournissent aux sociétés, puissent envoyer Commission (FTC) est l’organisme de le droit au respect de la vie privée et à la les informations à d’autres sociétés, et réglementation chargé du domaine de protection des données est fortement permettent aux sociétés d’échanger les la confidentialité des données. Toutefois, réglementé et activement appliqué,11 alors informations entre elles lorsque cela est le Code des principes d’informations qu’aux États-Unis il n’existe aucune loi techniquement possible.12 Ce genre de équitables de la FTC ne représente qu’un fédérale d’ensemble sur la protection des règlementation donne un certain pouvoir ensemble de recommandations pour 11 La réglementation régissant la protection des données dans l’UE inclut la Directive 95/46 CE sur la protection des données et la Directive sur la protection de la vie privée dans le secteur des communications électroniques 02/58 CE (amendée par la Directive 2009/136) 12 Réglementation (UE) 2016/679 du Parlement européen et du Conseil (2016), consultée le 3 avril 2017, http://eur-lex.europa.eu/legal-content/EN/TXT/PDF/?uri=CELEX:32016R0679&from=EN 24 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES le maintien de pratiques de collecte de La réglementation dans des pays comme l’accent sur la nécessité d’accélérer le données respectant la vie privée et axées l’Angola, l’Afrique du Sud et la Tanzanie développement et l’adoption de normes sur les consommateurs - il n’est pas stipule spécifiquement que les données juridiques, techniques, géo spatiales et exécutoire en vertu de la loi. En l’absence ne peuvent être transférées que vers statistiques quant aux sujets suivants : de toute règle de confidentialité fédérale des pays où la loi prévoit des normes générale, les États-Unis ont mis en place de protection des données personnelles • Ouverture et échange de métadonnées des lois et des réglementations fédérales en question identiques ou plus sévères. • Protection des droits de protection des et par État pour protéger la confidentialité La Zambie va encore plus loin en interdisant données des personnes physiques15 des informations personnelles et la sécurité tout transfert off-shore de données qui des données, à la fois de manière générale ne sont pas rendues anonymes.13 À l’autre Ainsi, à l’heure actuelle, aucune politique et de façon sectorielle, que toutes les extrémité du spectre, le projet de Loi sur la uniforme pour régir les questions de entreprises concernées doivent respecter. protection des données du Kenya de 2016 confidentialité des données n’existe. La a été sévèrement critiqué par les experts première étape pour comprendre les En ce qui concerne l’Afrique subsaharienne, implications en matière de confidentialité car elle n’incluait aucune disposition en le Ghana, l’Afrique du Sud et l’Ouganda est d’assurer une discussion au niveau matière de compétence extraterritoriale.14 semblent se démarquer comme les sectoriel impliquant les prestataires de pays proposant les meilleures pratiques Malgré tout, la confidentialité des données SFN, les organismes de réglementations, régionales. Ce qui distingue ces trois pays des clients est un nouveau domaine les décideurs politiques, les autres est le fait que la réglementation est guidée de la politique, et des pays tels que le parties prenantes du secteur public, les par un principe d’orientation client et, en Mozambique et le Zimbabwe se réfèrent investisseurs et les institutions financières tant que telle, la réglementation s’axe sur encore à la Constitution pour interpréter de développement, afin de concevoir des les principes suivants : les droits au respect la vie privée car solutions et des normes. En même temps, ils ne disposent pas de projets de loi • Donner au consommateur le pouvoir de dans le secteur de l’inclusion financière, les spécifiques. Dans ce contexte, les marchés prendre des décisions pertinentes quant à prestataires de SFN doivent reconnaitre émergents se tournent souvent vers les l’utilisation de ses données personnelles, que même si les données offrent une marchés plus établis et les organismes de en particulier en ce qui concerne la prise occasion d’améliorer le résultat net, réglementations pour trouver des indices de décision automatisée elles mettent également en évidence sur la façon de traiter les problèmes à • Stipuler des mécanismes clairs par une obligation d’ajouter de la valeur aux résoudre. lesquels le consommateur peut clients. Cela peut être réalisé en utilisant demander une indemnisation Étant donné ce contexte, tout en les données pour améliorer l’accès aux étant conscients des différences entre services financiers. Les prestataires de SFN • Accorder au client le « droit à l’oubli » l’utilisation des technologies dans les pays peuvent tenter d’éduquer les personnes Les flux transfrontaliers de données émergents et sur les marchés développés, sur la façon dont leurs informations constituent une question délicate, car les Nations Unies (ONU) ont proposé personnelles sont utilisées tout en ne ils peuvent en particulier affecter des certaines orientations générales en matière recueillant d’informations que sur ce qui sujets relevant de la sécurité nationale. d’élaboration des politiques. L’ONU met est nécessaire. 13 « Global Data Privacy Directory, » Norton Rose Fulbright 14 Francis Monyango, « Consumer Privacy and data protection in E-commerce in Kenya, » Nairobi Business Monthly, 1er avril 2016, consulté le 3 avril 2017, http://www.nairobibusinessmonthly.com/politics/consumer-privacy-and-data-protection-in-e-commerce-in-kenya/ 15 « Un monde qui compte : mobiliser la révolution en matière de données pour le développement durable », Groupe consultatif d’experts indépendants du Secrétaire général des Nations unies sur la révolution des données pour le développement durable ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 25 1.1_ANALYSES DE DONNÉES ET MÉTHODES La science des données : l’expertise des entreprises et du secteur. Il s’agit d’une discipline exploratoire et Introduction créative, axée sur l’obtention de solutions La science des données est l’utilisation novatrices à des problèmes complexes par interdisciplinaire de méthodes, processus une approche analytique. La science des et systèmes scientifiques pour extraire données se réfère à la méthode scientifique des indications et des connaissances de d’analyse : les scientifiques des données se différentes formes de données afin de consacrent à la résolution de problèmes résoudre des problèmes spécifiques. Elle en définissant une hypothèse testable et combine les sciences numériques telles en testant et affinant assidument cette que les statistiques et les mathématiques hypothèse pour obtenir des résultats appliquées, avec l’informatique et fiables et validés. 01 Faire des observations Que vois-je dans la nature ? Cela peut découler de ses propres 06 expériences, réflexions 02 Communiquer les ou lectures. résultats Penser à des questions Tirer des conclusions intéressantes et publier les résultats Pourquoi ce modèle se pour que les autres produit-il ? comprennent et reproduisent. Affiner, modifier, élargir ou rejeter les 05 hypothèses 03 Recueillir des donnés pour tester Formuler des des prévisions hypothèses Données pertinentes trouvées Quelles sont les causes dans la littérature disponible, 04 générales du phénomène nouvelles observations/ sur lequel je me pose des expériences formelles. questions ? Tests minutieux requis/Réplication pour Élaborer des prévisions vérifier les résultats. testables Si mon hypothèse est correcte alors je peux m’attendre à a, b, c. Figure 5 : La méthode scientifique, le processus analytique qui est utilisé de façon similaire pour « la science des données » 26 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES La science des données Le terme scientifique des données a été inventé en 2008 par DJ Patil et Jeff Statistiques / Hammerbacher pour décrire leurs fonctions chez LinkedIn et Facebook. Mathématiques Ils ont souligné que leurs rôles ne se limitaient pas à faire des calculs et à trouver des modèles dans ces calculs, mais aussi à appliquer un processus créatif et exploratoire visant à établir des liens entre tous ces modèles. Science « La science des données consiste à utiliser des données complexes pour raconter des des histoires », dit Patil, ajoutant qu’il a puisé autant dans le monde du journalisme que dans données celui de l’informatique. Pour cette raison, Patil et Hammerbacher ont envisagé un titre Expertise Informatique alternatif pour leur fonction : Artiste des données. commerciale Figure 6 : La science des données, le croisement de plusieurs disciplines Afin de fournir une veille économique, pour la veille économique, et des indications se chevauchent, mais il est toujours utile toutes les analyses liées à des données utiles peuvent être tirées d’ensemble de de les diviser en quatre principaux cas doivent commencer par définir des données, qu’ils soient grands ou petits, d’utilisation : descriptive, diagnostique, objectifs commerciaux et identifier les et que les données soient traditionnelles prédictive et prescriptives. Les méthodologies bonnes questions commerciales, ou ou alternatives. Des ordinateurs plus les moins complexes sont souvent de hypothèses. La méthode scientifique rapides et des algorithmes complexes nature descriptive ; elles fournissent une fournit des orientations utiles (voir la augmentent les possibilités d’analyse, mais description historique de la performance figure 5). Il convient de noter que ce n’est ne remplacent ni n’écartent les outils et institutionnelle, des chiffres agrégés et pas un processus linéaire. Au lieu de cela, il les approches à l’épreuve du temps pour des statistiques synthétiques. Elles sont existe toujours un cycle d’apprentissage et tirer des indications des données visant également moins susceptibles d’offrir une boucle de rétroaction pour assurer une à résoudre des problèmes commerciaux. un avantage concurrentiel, mais sont amélioration progressive. Cela est essentiel Au contraire, il est important de comprendre néanmoins essentielles pour le suivi des pour obtenir des indications qui permettent les forces que les différents outils offrent et performances opérationnelles et de la une prise de décision fiable et fondée sur de les augmenter de manière appropriée conformité réglementaire. À l’opposé, les des données concrètes. Le chapitre 2.1 de pour obtenir les résultats escomptés en analyses les plus innovantes et complexes ce manuel présente un processus étape temps voulu et de manière rentable. sont prescriptives, optimisées pour la prise par étape de mise en œuvre de projets de La figure 7 donne une description de haut de décision et offrent des indications sur données pour les prestataires de SFN, en niveau des méthodes d’analyse en veille les attentes futures. Cette progression utilisant la méthodologie de l’Anneau des économique, classées selon leur utilisation contribue également à classer les produits données. opérationnelle et leur complexité relative. livrables et la stratégie de mise en œuvre La science des données facilite l’utilisation De nombreuses catégories et leurs d’un projet de données, sujet abordé au de nouvelles méthodes et technologies techniques et mises en œuvre associées chapitre 2.1. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 27 1.1_ANALYSES DE DONNÉES ET MÉTHODES Cadre analytique de science des données pour la veille économique Descriptive Diagnostique Prédictive Prescriptive Alertes, requêtes, Analyse de régression, Apprentissage automatique, Analyse graphique, réseaux recherches, rapports, test A/B, correspondance ARS, reconnaissance de de neurones, apprentissage Techniques visualisations, tableaux de de modèles, exploration formes géo spatiales, automatique et profond, IA bord, tableaux, graphiques, de données, prévision, visualisations interactives récits, corrélations, analyses segmentation statistiques simples Analyses prescriptives Comment pouvons- nous le réaliser ? Analyses prédictives Systèmes intégrés Que se passera-t-il à l’avenir ? Avantage compétitif Analyses diagnostiques Modélisation Pourquoi cela s’est-il Analyse produit ? descriptive Que s’est-il passé ? Veille économique Que se passe-t-il traditionnelle maintenant ? Rapports Informations Optimisation Complexité des analyses Figure 7 : Les quatre catégories d’analyse commerciale 28 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Méthodes souvent en agrégeant des valeurs. entre une variable dépendante, Il s’agit d’une méthode pour segmenter, habituellement un paramètre d’intérêt Les cas d’utilisation d’analyse décrits en qui permet de présenter en tableaux commercial, et un ensemble de figure 7 permettent de déterminer la les sommes agrégées selon le genre ou variables indépendantes avec lesquelles méthode, le moment, le cout et la complexité la localisation, par exemple, ou d’autres il est en corrélation. L’identification de des projets de données. Les méthodes segments intéressants. Excel utilise le variables16 statistiquement significatives suivantes sont généralement incluses dans terme « tableau croisé dynamique » pour peut orienter la stratégie, recentrer les la boite à outils du scientifique des données, décrire ce type d’analyse. objectifs et estimer les résultats. et contribuent à adapter des méthodes générales à des fins d’analyse. Ces méthodes Analyses diagnostiques • Segmentation : La segmentation sont particulièrement pertinentes pour des est une méthode de classification de Trouver les moteurs clés ou comprendre discussions avec des consultants externes ou groupes en sous-groupes en fonction l’évolution de modèles de données des fournisseurs de solutions afin d’aider à constitue une analyse diagnostique. Il s’agit de critères de comportements ou de encadrer ce qu’ils fournissent ou pour évaluer de se demander pourquoi quelque chose caractéristiques définis. La segmentation une proposition. est arrivé ; par exemple, se demander peut aider à identifier les catégories de pourquoi les modèles de transaction ont clients démographiques ou d’utilisation Analyse descriptive des produits, avec des seuils quantifiés changé pour déterminer non seulement L’analyse descriptive offre des rapports s’il existe une corrélation, mais aussi une et statistiquement significatifs. Elle est agrégés de haut niveau sur des historiques et causalité. L’analyse diagnostique nécessite souvent utilisée conjointement avec répond aux questions sur ce qui s’est passé. généralement des méthodes et des l’analyse de régression ou des techniques Les Indicateurs clés de performance (ICP) se protocoles de recherche plus sophistiqués, de modélisation plus sophistiquées trouvent également dans cette catégorie. tel que décrit ci-dessous. pour prédire à quel segment un client potentiel non encore identifié pourrait • Statistiques descriptives : également • Test A/B : Il s’agit d’une méthode appartenir. connues sous le nom des statistiques statistique où deux ou plusieurs variantes synthétiques, les statistiques descriptives d’une expérience sont présentées aux • Analyses géo spatiales : Cette méthode se composent de moyennes, d’additions, utilisateurs au hasard pour déterminer groupe des données en fonction de leur de décomptes et d’agrégations. Les celle qui fonctionne le mieux pour un localisation sur une carte, ou en lien avec statistiques de corrélation qui montrent objectif de conversion donné. Le test la localisation et la proximité. Elle peut des relations entre les variables A/B permet aux entreprises de tester aussi contribuer à identifier des segments contribuent également à décrire les deux scénarios différents et de comparer de clientèle et des comportements, tels données. les résultats. Il s’agit d’une méthode que le lieu d’origine et de destination des • Présentation en tableaux : Le processus très utile pour identifier de meilleures envois d’argent, ou les agences que les d’agencement des données sous forme stratégies de promotion ou de marketing clients ont tendance à visiter. Combinée de tableau est appelé présentation entre différentes options testées. avec des techniques plus évoluées, elle en tableaux. Les présentations sous • Régression : La régression statistique peut également permettre à des services forme de tableaux croisés synthétisent est l’un des types de modélisation les fondés sur la localisation de contacter les données issues d’une ou plusieurs plus élémentaires, et est très puissante. de manière proactive les clients qui sont sources en un format concis pour Elle permet une analyse à plusieurs à proximité de personnes ou de lieux l’analyse ou la création de rapports, variables pour estimer les relations d’intérêt. 16 Statistiquement significatif s’emploie lorsqu’il est probable qu’une relation entre deux ou plusieurs variables soit causée par quelque chose d’autre que le hasard ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 29 1.1_ANALYSES DE DONNÉES ET MÉTHODES Analyses prédictives • Modélisation : Il existe deux principales été produits par rapport à la précision de Les prévisions permettent une prise de méthodes de modélisation : la régression la prévision. Les modèles de régression décisions tournées vers l’avenir et des et la classification. Les deux peuvent ont tendance à être très transparents et stratégies fondées sur les données. Du point être utilisées pour faire des prévisions. facilement interprétables, par exemple ; de vue de la science des données, il s’agit sans Les modèles de régression contribuent alors que la méthode des forêts doute de la catégorie de méthode la plus à déterminer un changement dans une aléatoires se situe à l’autre extrémité centrale, car des algorithmes complexes et variable de sortie pour des variables du spectre, offrant de bonnes prévisions des calculs puissants sont souvent utilisés d’entrée données ; par exemple, à quel mais une compréhension insuffisante de pour faire fonctionner ces modèles. Du point point les notations de crédit augmentent- la façon dont elles fonctionnent. de vue commercial, les modèles prédictifs elle avec le niveau d’éducation ? Les modèles de classification placent les Analyses prescriptives peuvent aboutir sur une meilleure efficacité données dans des groupes ou parfois Les méthodes de cette catégorie ont opérationnelle en identifiant les segments de des multigroupes, répondant ainsi à des tendance à être classées en prédisant ou en clients à fortes propensions et en étendant questions telles que celle de savoir si un classifiant les aspects comportementaux de la portée à moindre cout via des campagnes client est actif ou inactif, ou la tranche de relations complexes, et elles se composent de marketing ciblées. Ils peuvent également revenu dans laquelle il se situe. Il existe d’un ensemble de méthodes évoluées contribuer à améliorer l’assistance à la de nombreux types de techniques de décrites ci-dessous. L’intelligence artificielle clientèle en anticipant de façon proactive les modélisation pour les deux méthodes, (IA) et les modèles d’apprentissage profond besoins en termes de services. avec des détails techniques nuancés. Les appartiennent à ce groupe. Cependant, • Apprentissage automatique : Il approches de modélisation ont tendance cette classification est mieux encadrée s’agit d’un champ d’étude qui crée des à générer beaucoup d’attention, mais il par l’infrastructure attendue nécessaire algorithmes pour apprendre à partir est important de noter que la méthode pour utiliser les résultats d’une analyse, de données et faire des prédictions de modélisation n’est probablement en s’assurant qu’elle offre une valeur sur ces dernières. En particulier, cette pas une caractéristique importante de opérationnelle. Par exemple, cela pourrait méthode permet un processus d’analyse conception d’analyse. Habituellement, de prendre la forme d’un ensemble d’outils de qui identifie des tendances dans les nombreux types de modèles sont testés tableau de bord nécessaires pour exécuter données sans instruction explicite de et le meilleur est alors choisi en réponse une visualisation interactive sur un site l’analyste, et permet des méthodes de à des indicateurs de performance Web ou l’infrastructure informatique modélisation pour identifier des variables prédéfinis. Ou parfois, ils sont associés, pour automatiser un modèle de notation intéressantes et des facteurs clés de créant ainsi une approche d’ensemble. de risque de crédit. L’intégration d’un modèles même moins intuitifs. Il s’agit Un consultant doit expliquer pourquoi algorithme ou d’un processus fondé sur d’une technique plutôt qu’une méthode une approche recommandée est choisie, des données dans un système opérationnel en elle-même. Les approches fondées et non simplement indiquer, par exemple, plus général, ou en tant que contrôleur sur l’apprentissage automatique sont que la solution se fonde sur une méthode d’accès dans un processus automatisé classées selon les termes « apprentissage spécifique telle que la très médiatique reposant sur lui pour fournir un service, est supervisé » ou « apprentissage non méthode des « forêts aléatoires ». ce qui définit un produit de données. supervisé » selon qu’il existe une réalité La décision de la méthode à utiliser pour de terrain pour former l’algorithme la modélisation doit prendre en compte d’apprentissage ou non ; les méthodes l’importance de la capacité d’interpréter supervisées utilisent la réalité du terrain. la raison pour laquelle les résultats ont 30 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Leçons du secteur : Google a attrapé la grippe Modélisation prédictive et ajustement de modèle : risques de fiabilité des modèles non supervisés Les chercheurs du moteur de saisonnière, les avantages en matière fonctionner le modèle, identifiées recherche Google se sont demandé de santé publique sont évidents. comme étant des corrélations s’il pourrait exister une corrélation Le modèle a été une réussite et a été statistiquement puissantes en entre les personnes effectuant une rendu public sous le nom Google 2008. Mais beaucoup de ces termes recherche sur les mots tels que Suivi de la grippe. La modélisation de recherche étaient en fait des « toux », « éternuement » ou « nez impressionnante des mégadonnées prédicteurs de saison, et les saisons qui coule » - les symptômes de la de Google a été bien décrite dans la elles-mêmes étaient en corrélation grippe - et la prévalence réelle de la revue scientifique Nature en 2008. avec la grippe. Lorsque les modèles grippe. Aux États-Unis, les données Six ans plus tard, cependant, l’échec de grippe survenaient plus tôt ou sur la propagation de la grippe du même modèle a été lui aussi bien plus tard qu’en 2008, ces termes sont décalées dans le temps ; les décrit dans la revue Science. Qu’est- de recherche n’étaient plus en personnes tombent malades et vont il arrivé entre 2008 et 2014 ? corrélation si forte avec la grippe. chez le médecin, puis le médecin fait Le nombre d’utilisateurs d’Internet Si on ajoute l’évolution des données son rapport statistique, et ainsi les a considérablement augmenté au démographiques des utilisateurs, données enregistrent ce qui s’est déjà produit. Des modèles orientés par les cours de ces six années et les modèles le modèle est devenu peu fiable. mots d’une recherche pourraient-ils de recherche de 2008 n’étaient pas Google Suivi de la grippe a été laissé fournir des données en temps réel constants. La question fondamentale en pilote automatique, en utilisant à mesure que la grippe se propage était que Google Suivi de la grippe des méthodes d’apprentissage non ? Cette approche de réduction des avait été développé en utilisant supervisées, et les corrélations décalages temporels dans les données des techniques d’apprentissage statistiques se sont affaiblies au est appelée prévision immédiate. automatique non supervisées : fil du temps, incapables de suivre Pour des problèmes tels que la grippe 45 phrases de recherche faisaient l’évolution des tendances. Lors de l’utilisation de méthodes similaires pour des décisions commerciales ou pour des problèmes de santé publique, il est important de se rappeler que la perte de fiabilité au fil du temps peut présenter des risques importants. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 31 1.1_ANALYSES DE DONNÉES ET MÉTHODES La méthode des forêts aléatoires • Fouille de textes (traitement du Outils langage naturel) : La fouille de textes est La science des données et ses le processus d’obtention d’informations La méthode des méthodes reposent sur des langages de haute qualité à partir d’un texte. Le forêts aléatoires a de programmation informatique, ou les texte peut aider à identifier les opinions généré beaucoup algorithmes s’exécutent sur des plateformes des clients et les sentiments sur les d’enthousiasme dans de calcul. Les données qui alimentent produits en utilisant des publications de la science des données, car elle a ces algorithmes sont tirées de bases de réseaux sociaux, des messages Twitter tendance à faire fonctionner des données. La boite à outils du scientifique ou de gestion de la relation client (GRC). de données comprend également des modèles très précis. Il s’agit d’une Le Traitement du langage naturel (TLN) connaissances pointues sur l’informatique forme de modèle de classification est une combinaison de linguistique technique et les compétences nécessaires qui utilise une structure de décision informatique et de méthodes d’IA pour en programmation pour développer et de type arborescence ou de type aider les ordinateurs à comprendre des déployer des algorithmes de données. organigramme combiné à des informations textuelles destinées au Les spécifications techniques de ces outils approches de choix aléatoire pour traitement et à l’analyse. se situent au-delà de la portée de l’analyse identifier un chemin optimal entre le résultat désiré et un ensemble • Analyse des réseaux sociaux (ARS) : de données des SFN. Néanmoins, certaines de « forêts » de variables d’entrée. Il s’agit du processus d’analyse technologies importantes sont mises en quantitative et qualitative d’un réseau évidence pour noter quelques outils que les Il est important de comprendre que social. À des fins commerciales, l’ARS scientifiques des données sont susceptibles certaines méthodes de modélisation peut être utilisée pour limiter le taux de d’utiliser. Les produits de données réussis de la science des données sont désabonnement, détecter les fraudes et exigent une combinaison de méthodes, faciles à comprendre dans un les abus, ou pour déduire des attributs d’outils et de compétences, comme nous le contexte commercial, tandis que tels que la solvabilité en fonction de verrons plus loin au chapitre 2.1 : Gestion d’autres ne le sont pas. La méthode d’un projet de données. des forêts aléatoires peut, par groupes de pairs. exemple, générer des modèles très • Traitement des images : Cette Outils matériels précis, mais sa complexité produit approche utilise des algorithmes • Base de données : La structure des une « boite noire » qui la rend très informatisés pour effectuer des analyses données oriente la solution de base difficile à interpréter. Cela pourrait à des fins de classification, d’extraction de données appropriée. Les données être problématique pour un modèle de caractéristiques, d’analyse de signal structurées sont généralement de notation de risque de crédit ; elle ou de reconnaissance de formes. desservies par des bases de données pourrait identifier les personnes Les entreprises peuvent l’utiliser relationnelles avec des schémas fixes qui les plus solvables, compte tenu des pour reconnaitre les personnes sur peuvent soutenir la fiabilité intégrale des données d’entrée, mais pourrait des images et ainsi contribuer à la données, ce qui peut aider les analystes ne pas permettre de décrire ce qui détection de fraudes, ou pour détecter à identifier les anomalies des valeurs de rend ces personnes solvables ou ce des caractéristiques géographiques données, ou les empêcher dès le départ qui détermine la recommandation pertinentes pour le placement d’agent d’enregistrer des données erronées. de crédit. en utilisant des images satellite. Les bases de données relationnelles 32 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES organisent des jeux de données en • Frameworks : Ce sont des ensembles Outils logiciels tableaux qui sont liés les uns aux autres progiciels qui combinent une solution de • Langages : « R » et Python sont deux par une clé, c’est-à-dire un attribut de stockage de données à une interface de langages de programmation qui métadonnées partagé entre les tableaux. sont devenus essentiels à la science programmation (API) qui intègrent des Les solutions de banques de données des données. Les deux offrent les outils de gestion ou d’analyse dans la base d’entreprise et le stockage de données de avantages du prototypage rapide et transactions utilisent souvent des bases de données. En d’autres termes, il s’agit de l’analyse exploratoire qui peuvent de données relationnelles. Les produits de solutions à source unique pour gérer mettre rapidement sur pied des projets de premier plan sont notamment Oracle, et analyser les données. Les produits de de données. Les deux comprennent SQL Server et MySQL. Les données premier plan sont notamment Spark et également des bibliothèques non structurées sont généralement Hive. Hadoop, mentionné ci-dessus, se complémentaires conçues pour la desservies par des bases de données science des données, ce qui permet un situe entre une base de données NoSQL non relationnelles qui ne disposent pas apprentissage automatique sophistiqué et un Framework. Il est utilisé pour de schémas rigides, communément ou des techniques de modélisation avec appelées bases de données NoSQL. gérer et mettre à l’échelle des données une relative simplicité de programmation. Elles offrent des avantages en termes distribuées en utilisant une approche Les Frameworks et les bases de données d’échelle et de distribution, et sont de recherche appelée MapReduce, une ont leurs propres ensembles de langages souvent utilisées pour les mégadonnées méthode développée par Google pour de programmation. SQL est nécessaire et les applications interactives en ligne. stocker et interroger des données à pour les systèmes de bases de données À mesure que les grands ensembles de relationnelles, alors que d’autres travers ses vastes réseaux de données. données deviennent encore plus grands, solutions peuvent nécessiter Java, Scala, l’espace de disque dur devient limité et Informatique • en Cloud : Les Python, ou pour Hadoop, Pig. le temps de calcul nécessaire pour une fournisseurs tiers offrent des solutions • Conception et visualisation : Les recherche augmente. L’avantage des d’hébergement qui permettent un accès langages fondamentaux de la science des bases de données NoSQL est qu’elles à de la puissance de calcul, du stockage données comprennent généralement des sont conçues pour être horizontalement bibliothèques de visualisation pour aider de données et des Frameworks. Il évolutive, ce qui signifie qu’un autre à explorer les modèles de données et s’agit d’une excellente solution pour les ordinateur, ou deux, ou une centaine, visualiser les résultats finaux. Puisque de peuvent être facilement ajoutés pour entreprises qui veulent se lancer dans des nombreux projets de données produisent augmenter l’espace de stockage et de analyses de données plus sophistiquées, des tableaux de bord interactifs ou puissance de calcul pour y effectuer en particulier les mégadonnées, des outils de surveillance fondés sur des recherches. Alors que les solutions mais n’ont pas la possibilité d’investir des données, un certain nombre de relationnelles peuvent également être dans des serveurs informatiques et fournisseurs offrent des solutions clés en mises à l’échelle et distribuées, elles sont main. Voici des exemples de fournisseurs d’embaucher des techniciens pour les souvent plus complexes à gérer et à régler de produits : IBM, Microsoft, Tableau, gérer. Les produits de premier plan lorsque les données sont enregistrées sur Qlik, Salesforce, DataWatch, Platfora, de nombreux ordinateurs. Les produits sont notamment Amazon Web Services Pyramide et BIME, entre autres, dont NoSQL de premier plan sont notamment (AWS), Cloudera, Microsoft Azure et IBM certains sont mentionnés dans les études Hadoop, MongoDB et BigTable. SmartCloud. de cas opérationnelles au chapitre 1.2. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 33 nées Ap PARTIE 1 don s de plic e od e h do Chapitre 1.2 : Applications de et m es d at ées ét nn ion s données pour les prestataires de Analy services financiers numériques proj G e s de s ce et ti o n ur do d ’u n ss o nn Re Ce chapitre couvre les trois principaux domaines dans lesquels l’analyse ées des données permet aux entreprises d’être orientées client, créant ainsi une meilleure proposition de valeur pour le client et générant une valeur commerciale pour le prestataire de SFN. Il traite d’abord du rôle que les indications tirées de données peuvent jouer pour améliorer la compréhension des clients du prestataire de SFN. Ensuite, il montre comment les données peuvent jouer un plus grand rôle dans les opérations au jour le jour d’un prestataire de SFN typique. Enfin, il aborde l’utilisation des données alternatives en matière d’évaluations et de décisions de crédit. Ces sections présentent un certain nombre de cas d’utilisation pour montrer le potentiel que représente la science des données pour les prestataires de SFN, mais elles ne sont en aucunes façons exhaustives. Les possibilités d’affaires qu’offre la science des données ne sont limitées que par la disponibilité des données et par les méthodes et compétences nécessaires pour faire usage des données. Un certain nombre d’exemples sont présentés ci-dessous pour encourager les prestataires de SFN à initier une réflexion sur la manière dont les données peuvent permettre à leurs opérations existantes d’atteindre le prochain niveau de performance et d’impact. La figure 8 ci-dessous montre comment les données analytiques peuvent jouer un rôle dans la prise de décision de soutien pour tous les aspects d’une activité de SFN, parallèlement au cycle de vie client et aux tâches opérationnelles correspondantes. À ce titre, les données jouent un rôle clé pour aider les prestataires de SFN à être davantage orientés client. Il va sans dire que toutes les organisations dépendent de la fidélisation de leurs clients. L’orientation client signifie établir une relation positive avec les clients à chaque étape de l’interaction, en vue de favoriser la fidélité, les bénéfices et les activités des clients. Pour l’essentiel, les services orientés client fournissent des produits qui sont fondés sur les besoins, les préférences et les aspirations de leur segment, en intégrant cette compréhension dans les processus opérationnels et la culture d’entreprise. 34 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Cycle de vie client Réduire l’attrition de Cibler le client le plus la clientèle susceptible d’adopter les SFN Identifier le besoin d’amélioration de produit/processus Mesurer l’impact Inspirer Acquérir du marketing Prédire le comportement des clients Prestataire de SFN orienté client Améliorer Créer des Retenir Développer l’activité des programmes de clients fidélisation Établir des Examiner les relations plus commentaires des étroites avec les clients clients précieux Stratégie de fixation des prix Figure 8 : Le cycle de vie client ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 35 1.2_APPLICATION DE DONNÉES Répondre aux clients est la clé de matière de dépenses. Enfin, la nécessité clients sous différentes formes. Ces données l’orientation client. Il est utile de de la protection des consommateurs peuvent être manipulées et analysées comprendre pourquoi les clients s’en de ce segment est plus importante, pour donner des indications précises sur vont et le moment où ils sont les plus car ils pourraient avoir moins accès à le marché. Une telle analyse implique susceptibles de s’en aller afin que des l’information, avoir des niveaux inférieurs généralement un ensemble diversifié de mesures appropriées puissent être prises. d’alphabétisation et représenter un risque méthodes, et des données quantitatives et Certains clients vont inévitablement s’en plus élevé de fraude par rapport à d’autres qualitatives. Cette section commence par aller et devenir d’anciens clients. Utiliser segments. Les prestataires de SFN doivent une étude de cas pour illustrer comment l’analyse de données pour comprendre d’abord comprendre les besoins particuliers de petites étapes pour intégrer une comment ces clients se sont comportés de ces clients et ensuite concevoir des approche fondée sur les données peuvent tout au long du cycle de vie client peut processus opérationnels qui reflètent cette apporter une plus grande précision à la aider les prestataires à développer des compréhension. Ainsi, la compréhension compréhension des préférences des clients. indicateurs qui alertent l’entreprise des clients et l’offre d’une la valeur ajoutée Elle est suivie d’une discussion sur la façon lorsque des clients vont probablement aux clients est cruciale pour les prestataires dont les données peuvent être utilisées s’en aller. Elle peut également donner des de SFN, et les données peuvent les aider à pour comprendre l’interaction des clients indications sur ceux, parmi ces derniers, être davantage orientés client. avec un produit de SFN en vue d’améliorer que le prestataire peut être en mesure de l’activité des clients et de réduire l’attrition garder et de la façon de les reconquérir. 1.2.1 Analyses et de la clientèle. Ensuite, elle explique Les prestataires de SFN pourvoient applications : comment utiliser la segmentation des souvent aux besoins des personnes qui ne Indications tirées du clients pour identifier des groupes spécifiques au sein de la base de clients bénéficiaient auparavant pas d’accès aux marché et comment utiliser ces connaissances banques ou à d’autres services financiers ainsi que d’autres clients mal desservis. Cette section explique comment utiliser pour améliorer le travail de ciblage. Elle est Cela pose des défis particuliers pour les les données pour avoir une compréhension suivie d’une discussion sur la manière dont prestataires à mesure qu’ils établissent plus précise et plus nuancée des clients les prestataires de SFN peuvent exploiter pour la première fois la confiance et la et des marchés, ce qui peut aider un les nouvelles technologies pour prédire foi dans un nouveau système pour leurs prestataire à créer des produits et des le comportement financier et améliorer clients. Ces clients peuvent avoir des services qui correspondent aux besoins l’acquisition de clients. Enfin, cette section revenus irréguliers, être plus sensibles des clients. Comme cela est décrit dans le examine les moyens d’interpréter les aux chocs économiques et peuvent se chapitre précédent, les prestataires de SFN commentaires des clients afin d’améliorer caractériser par différentes tendances en ont accès à des données précieuses sur les les produits et services existants. 36 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES CAS 1 Zoona - Tester des stratégies de marketing pour un impact optimal Développer des hypothèses pour créer des messages de marketing efficaces et les tester Zoona est un PSP qui opère en Zambie, appelée « Gratification instantanée », des résultats 30 pour cent meilleurs au Malawi et au Mozambique, où il et elle récompensait tous les clients que le projet pilote de référence. compte devenir le principal prestataire ouvrant un compte par un bracelet de services de transferts d’argent et de gratuit et offrait une grande chance de L’analyse montre que la méthode de comptes d’épargne simples pour le recevoir une petite récompense sous la loterie a eu le moins de succès, alors grand public. Le marketing est souvent forme de remboursement d’argent que le plus grand nombre de comptes une activité gourmande en ressources à chaque fois qu’ils effectuaient un ouverts a été obtenu grâce à la stratégie et qui exige d’y consacrer du temps, dépôt. Dans la deuxième stratégie, reposant sur les ambassadeurs. et il peut être difficile de mesurer son appelée « Loterie », les clients avaient Ces comptes ont également reçu des impact. Zoona a traité certains de une petite chance de gagner un prix valeurs de dépôt élevées. Zoona a ces défis en utilisant une approche important, avec seulement quatre également étudié les taux d’activité orientée client pour tester trois gagnants sélectionnés sur deux mois. des clients, mesurés par le nombre stratégies de marketing différentes La troisième approche impliquait des de dépôts par compte. L’approche pour un nouveau produit de dépôt ambassadeurs d’ouverture de compte de la gratification instantanée l’a appelé Sunga. Tout d’abord, il a mené allant dans des zones de haute activité, emportée de loin. Dans la figure 9 ci- un projet pilote sur trois mois du telles que les marchés, pour inciter les dessous, le 24 novembre est la date à produit Sunga dans une zone, étendant personnes à ouvrir des comptes. laquelle les déposants ont commencé plus tard le projet pilote à trois autres à gagner de petites récompenses sous villes pour tester trois stratégies de Les statistiques du premier mois de ce forme de remboursement à chaque marketing différentes, tout cela pour projet pilote étendu sont présentées fois qu’ils effectuaient un dépôt sur identifier l’approche ayant le plus ci-dessous. Les chiffres ont été leurs comptes : la ligne bleue montre d’impact pour le lancement à l’échelle indexés par rapport à la ville pilote que les dépôts progressent de façon nationale. La première stratégie était initiale, donc le chiffre 1,3 indique importante. Comparaison des stratégies de marketing, tableau de résultats INDEXÉ (30 premiers jours) Nb d’inscriptions Valeur du dépôt Projet pilote 1.0 1.0 P1 : gratification immédiate 1.4 1.9 P2 : Loterie 1.1 1.8 P3 : Ambassadeur 3.0 3.8 Tableau 1 : La comparaison des résultats montre que la stratégie “ambassadeur” permet d’ augmenter le volume d’ouverture de comptes de 300% par rapport au début du pilote ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 37 1.2_APPLICATION DE DONNÉES 2.0 1.9 1.8 1.7 Nb. de dépôts par compte Remarquez la croissance de la ligne bleue 1.6 24 novembre 2016 1.5 Ville d’inscription 1.4 PILOTE P1 : GI 1.3 P2 : LOTERIE P3 : AMBASSADEUR 1.2 1.1 1.0 Nov 01 Nov 14 Nov 28 Dec 01 Dec 14 Dec 28 Date Figure 9 : Résultats des tests de la campagne de marketing d’incitations des clients Le résultat de l’analyse a été renforcé des personnes dans le groupe de deux stratégies des « Ambassadeurs » par des appels de suivi des clients. gratification instantanée ont prévenu et de la « Gratification instantanée » Les commentaires ont révélé que la une famille ou un ami de l’existence - la première pour inciter à ouvrir des gratification instantanée a également du produit. En conséquence, la comptes, et la seconde pour stimuler fait fonctionner le marketing de stratégie marketing à l’échelle les niveaux d’activité des clients. bouche-à-oreille, car 88 pour cent nationale combine maintenant les Cette étude de cas montre qu’une approche rigoureuse pour tester les stratégies de marketing ne nécessite de méthodes compliquées. Au contraire, une approche et une planification systématiques en répétant rapidement des techniques mesurées par les taux de réponse des clients peut créer des indications mesurables. Cela souligne également l’avantage de combiner les méthodes pour arriver au comportement souhaité du client. 38 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Cas d’utilisation : Comprendre peut être utilisé pour créer des messages des changements dans toute l’entreprise l’engagement produit pour les efficaces pour le produit ou utilisé pour pour s’aligner sur le comportement et offres de SFN développer des mesures visant à gérer les besoins des clients. Ce type d’analyse l’interaction des clients avec le produit. peut aider à orienter les stratégies de Comprendre comment un client utilise ou Des niveaux élevés d’inscription mais marketing, les stratégies de recrutement non un produit ou un service est important accompagnés de faibles niveaux d’activité pour apporter des améliorations à la zone d’agents ou l’adoption de processus impliquent généralement que le cout d’opération appropriée afin d’étendre la pour les agents adoptant les meilleures d’acquisition et de maintien de l’activité des portée et d’augmenter l’adoption. Les pratiques, par exemple. La figure 10 fournit clients est inutilement élevé. Les données données transactionnelles et les données transactionnelles, ainsi que les données une illustration simple de la manière dont de profilage des clients fournissent des géo spatiales, peuvent offrir au prestataire les données transactionnelles peuvent informations précieuses sur la façon dont des indications sur les niveaux d’activité être interprétées. Le processus d’analyse les clients interagissent avec un produit des clients et des agents. Ces indications des données est également étudié plus en au fil du temps. Ce retour d’information peuvent aider le prestataire à effectuer détail au chapitre 2.1. Mesures axées sur les Poser une hypothèse Recueillir des données Analyser les données données • Que s’est-il passé ? • Données transactionnelles • Analyse statistique simple • Changer la stratégie en • Pourquoi cela s’est-il • Niveaux d’utilisation • Tableaux fonction des résultats produit ? • Comparaison des • Corrélations • Recherche primaire • Que se passe-t-il comportements entre les supplémentaire maintenant ? groupes • Données de la KYC • Données du CDR Figure 10 : Le processus d’analyse et d’interprétation des données ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 39 1.2_APPLICATION DE DONNÉES Amélioration de l’activité des clients de nouveaux. Un grand nombre de clients desservent soit le marché de masse dans Une analyse transactionnelle simple, qui n’ont effectué aucune transaction est des contextes de pays en développement comme on l’a vu ci-dessus peut, par signe d’un ciblage insuffisant au stade de comme un seul segment, ou utilisent une exemple, révéler que des clients très l’acquisition. Un grand nombre de clients segmentation démographique de base actifs sont liés à des agents spécifiques. qui s’en vont peut indiquer d’autres limites pour comprendre les clients. Il existe Pour être en mesure d’agir à partir dans l’offre de services, ce qui peut être deux raisons pour lesquelles l’intégration de cette information, il est nécessaire amélioré par de petites améliorations des de la segmentation visant à obtenir des de savoir pourquoi c’est le cas. Est-ce produits ou processus. indications sur les clients est limitée. grâce aux meilleures pratiques adoptées Tout d’abord, les prestataires de SFN aux Cas d’utilisation : Segmentation par les agents, à cause de la situation abois sur des marchés très concurrentiels géographique ou du fait d’une autre Les segments peuvent être délimités peuvent être incités, par la réussite de variable ? À titre d’exemple, des entretiens par des marqueurs démographiques, certains produits, à adopter une approche pourraient être menés afin de mieux des marqueurs comportementaux tels orientée produit, plutôt qu’une approche comprendre les techniques des agents, que des modèles d’utilisation des SFN, orientée client, pour leur entreprise. Ainsi, et les données géo spatiales pourraient être des données géographiques, ou d’autres les prestataires de SFN peuvent omettre de utilisées pour mieux comprendre l’impact données externes provenant des ORM penser aux différentes utilisations possibles de la localisation sur l’activité des agents telles que l’utilisation et l’achat de temps pour leurs offres en fonction des besoins et et des clients. Des groupes à l’activité très de communication et de données. préoccupations des clients. Au contraire, élevée ou très faible indiquent souvent la Comprendre les segments est nécessaire ils peuvent choisir de mettre en évidence nécessité d’une étude plus approfondies et pour découvrir les besoins et les désirs des cas d’utilisation et des messages pour de groupes de discussion pour comprendre de groupes spécifiques, ainsi que pour un produit très particuliers. Ainsi, alors les raisons qui provoquent cette situation. concevoir des stratégies de vente et de que le produit de transfert d’argent mobile marketing bien ciblées. Des indications Réduction de l’attrition de M-Pesa a connu un grand succès au Kenya, tirées de la segmentation, destinées à la clientèle les ORM sur d’autres marchés n’ont pas développer les perspectives génératrices En regardant de près les données connu la même réussite, ce qui souligne de revenus dans chaque segment, sont des transactionnelles, on peut trouver des la nécessité d’étudier le comportement contributions essentielles pour la feuille indices sur les raisons pour lesquelles les et les besoins du marché et des clients, de route stratégique d’une institution. clients abandonnent le service et comment marché par marché, avant le déploiement La segmentation de la clientèle est les retenir. La fréquence avec laquelle les de produits. En second lieu, on constate un un aspect crucial pour devenir une clients interagissent avec un service peut manque de sensibilisation sur la manière organisation orientée client qui sert indiquer s’ils viennent d’être acquis, s’ils de segmenter efficacement la clientèle, correctement ses clients, prend des sont des clients actifs du service, ou s’il et la manière d’utiliser cette analyse de décisions d’investissement réfléchies et est nécessaire de les attirer à nouveau segmentation. Il n’est pas nécessaire maintient une entreprise en bonne santé. pour qu’ils utilisent le service. Différents que la segmentation soit compliquée ou messages et canaux sont pertinents pour En principe, bon nombre de prestataires couteuse. Les praticiens doivent définir les clients dans chacune de ces étapes. de SFN reconnaissent l’importance de clairement les objectifs commerciaux, En général, garder les clients existants est la segmentation. Cependant, dans la qui peuvent ensuite guider l’exercice de beaucoup moins couteux que d’en acquérir pratique, la plupart des prestataires de SFN segmentation. 40 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Segmentation des clients Super Utilisateur Utilisateur passif Client qui a renoncé Envoie de l’argent Reçoit de l’argent A changé sa carte toutes les deux de l’employeur SIM, ne comprend pas semaines aux enfants et le retire le produit, l’a utilisé qui font leurs études immédiatement une fois, ne l’a jamais en ville utilisé à nouveau Besoins Besoins Besoins Programme de Informations sur le Informations sur le fidélisation produit produit, assistance supplémentaire de la part de l’agent Figure 11 : Exemples de segments de clients de SFN, par activité du produit Le cadre suivant présenté par le Groupe consultatif d’assistance aux plus pauvres (CGAP) illustre la façon dont les différents types de segmentation peuvent être utilisés par un praticien en fonction de ses besoins :17 Type de Exemple Besoins en données Avantages Inconvénients segmentation : Démographique • Rural ou urbain Informations relevant de • Simple • Manque d’uniformité au sein • Homme ou femme l'obligation de s'informer sur le • Les données sont faciles à des groupes • Vieux ou jeune client (KYC) trouver • Moins riche en indications Comportementale • Utilisateurs qui n’ont jamais • BD transactionnelle • Les données sont faciles à • Manque d’indications effectué de transactions ou trouver sur la vie, les besoins, les dormants ou actifs • Il est facile d’attribuer de la aspirations du client • Épargnants ou enclin à des valeur au client • Moins utiles pour les retraits messages de marketing Démographique et • Étudiants • Inscription et informations • Attribue de la valeur à • Les données sont comportementale • Travailleurs migrants relevant de la KYC un client et donne des relativement plus difficiles à envoyant de l’argent à la • BD transactionnelle indications sur sa vie et ses trouver maison • Étude de marché primaire besoins • Il pourrait exister des • Il est plus facile de segments qui se chevauchent développer des messages de marketing Psychographique • Femmes qui veulent un • Données transactionnelles • Fortement sensibles aux • Il est difficile de trouver des endroit sûr pour épargner historiques abondantes et aspirations des clients données • Clients qui pensent que significatives • Forte proposition de valeur • Il pourrait exister des l’accès à l’argent mobile est • Recherche primaire • Il est plus facile de segments qui se chevauchent signe d’un statut plus élevé développer des messages de • Ceci pourrait être un • Font attention à leur budget marketing segment très dynamique, c’est-à-dire que les désirs pourraient évoluer Tableau 2 : Cadre de segmentation des clients du CGAP 17 CGAP (2016). Boite à outils de segmentation des clients ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 41 1.2_APPLICATION DE DONNÉES CAS 2 Tigo Cash Ghana augmente l’utilisation des portefeuilles d’argent mobile Des modèles de segmentation de clients améliorent l’acquisition et l’activation de clients Tigo Cash a été lancé au Ghana en avril Une clientèle active en matière de actifs de l’argent mobile. Pour ce faire, 2011, et est le deuxième plus grand transactions ne représente pas un défi six mois et près de deux téraoctets de prestataire d’argent mobile en termes qu’au Ghana ; la GSMA estime que CDR et de données transactionnelles d’utilisateurs enregistrés. Malgré des les taux d’activité globaux n’atteignent ont été analysés par une équipe de taux d’inscription élevés, obtenir que les que 30 pour cent. scientifiques des données. clients effectuent diverses transactions En 2014, Tigo Cash Ghana a établi un Les résultats de l’analyse indiquent par le biais de l’argent mobile reste partenariat avec IFC pour effectuer une qu’il existe des différences entre les un défi et un objectif majeurs. Le taux analyse prédictive visant à identifier clients selon un grand nombre de d’inscription des clients, et le maintien les utilisateurs de services vocaux et paramètres d’utilisation du téléphone des taux d’activité, est resté un objectif de données mobiles qui ont une forte mobile, la structure des réseaux sociaux majeur après le lancement du service. probabilité de devenir des utilisateurs et la mobilité individuelle et de groupe. Taux d’adoption par district : Tigo Cash Adoption prévue (Selon les CDR) : Tigo Cash Top districts Ciblés : Tigo Cash Figure 12 :DE 42 ANALYSE Les quartiers DONNÉES actuels, prévus ET SERVICES et les FINANCIERS plus actifs en termes d’utilisation de l’argent mobile NUMÉRIQUES Il existe de fortes différences entre les d’argent mobile a rapporté que la non ont été utilisés pour identifier les abonnés aux services vocaux et à ceux disponibilité des agents les empêchait potentiels utilisateurs d’argent composés uniquement de données, les d’utiliser les services d’argent mobile. mobile actifs. Ce qui a commencé abonnés à l’argent mobile inactifs et Les faibles niveaux d’utilisation étaient comme une analyse des CDR a créé les abonnés à l’argent mobile actifs. plus étroitement liés au manque de une valeur de démonstration de la Une forte corrélation peut être observée sensibilisation des personnes à la validité d’un concept et a conduit à entre les grands utilisateurs de services proposition de valeur de l’argent une approche fondée sur les données de télécommunications traditionnels mobile ou à l’impression qu’ils ne qui a permis à Tigo Cash de dépasser et la probabilité que ces utilisateurs disposaient pas d’assez d’argent pour le seuil d’activité de 65 pour cent deviennent également des utilisateurs utiliser les services. parmi ses clients de l’argent mobile. d’argent mobile réguliers actifs. La clientèle active est passée de 200 Nouveaux clients 000 avant l’étude à plus d’un million Avec l’aide d’algorithmes d’apprentissage La modélisation prédictive a donné de clients actifs en 90 jours. automatique, l’équipe de recherche a lieu à 70 000 nouveaux utilisateurs identifié les profils qui correspondent Changement de la façon de voir les d’argent mobile actifs en raison de parmi les clients des services vocaux choses pour les institutions l’utilisation du modèle unique. Les et ceux composés uniquement de données qui ne sont pas encore des résultats ont cartographié la réserve En tant que prestataire d’argent abonnés à l’argent mobile, mais d’utilisateurs probables de l’argent mobile, Tigo Cash est devenu un des qui sont susceptibles d’en devenir mobile et ont identifiés les lieux où services les plus prospères au Ghana. des utilisateurs actifs. L’équipe a les activités de marketing hors médias Le résultat de la collaboration est également opéré une géocartographie avaient le meilleur impact. Avoir une devenu le fondement de tout le des données (voir la figure ci-dessous) idée au préalable du potentiel du travail d’acquisition de clients de pour une analyse plus approfondie. marketing dans différentes zones évite Tigo Cash Ghana. Surtout, l’analyse De plus, l’analyse des CDR et des une surbudgétisation du personnel des données a montré la valeur données transactionnelles a été de vente et augmente l’efficacité du d’une bonne connaissance de ses complétée par des enquêtes non marketing. L’approche fondée sur les clients. Tigo Cash Ghana prévoit seulement pour comprendre ce qui données a permis d’utiliser un moyen d’augmenter sa capacité interne est arrivé, mais aussi les raisons pour plus réfléchi et mieux informé pour en science des données, ainsi que lesquelles cela est arrivé. cibler les abonnés téléphoniques d’améliorer la compréhension existants afin qu’ils adoptent l’argent de ses clients en menant une Facteurs déterminants de l’adoption de mobile. recherche primaire supplémentaire. l’argent mobile L’objectif est maintenant passé de La nécessité d’intensifier l’éducation L’amélioration des taux d’activité l’inscription de nouveaux clients, qui de la clientèle et d’ adapter les produits L’utilisation des SMS et un grand seront probablement actifs, à une sont des éléments qui sont clairement volume d’utilisation des services réflexion prospective sur les moyens ressortis dans chaque enquête. Seule vocaux et des services de données de maintenir des niveaux élevés une faible proportion d’utilisateurs mobiles sont des facteurs clés qui d’activité de façon durable. Une approche institutionnelle à l’acquisition et à la fidélisation des clients peut être fondamentalement modifiée et améliorée en utilisant tout simplement des données existantes afin de prendre des décisions opérationnelles informées. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 43 1.2_APPLICATION DE DONNÉES Programmes marketing ciblés peuvent utiliser une recherche primaire susceptibles de devenir important à l’avenir. Cibler les bons segments sur le marché, pour identifier les segments sur lesquels Les prestataires de SFN peuvent utiliser ces avec les bonnes campagnes de publicité porter son attention. Toutes les données informations afin d’augmenter leur part de des clients peuvent être utilisées pour marché pour ce groupe et allouer moins de et de marketing, peut augmenter de développer des programmes de marketing ressources à des groupes moins rentables. manière significative l’efficacité d’une ciblés. Cependant, les résultats sont Les données nécessaires à ce type d’analyse campagne en termes d’intérêt suscité et susceptibles d’être plus pointus si l’analyse sont les caractéristiques démographiques d’utilisation. En utilisant une combinaison est réalisée sur les membres de segments des clients, les données transactionnelles de sources de données, les prestataires de clients spécifiques. et les données concernant la rentabilité de SFN peuvent segmenter les données des clients. transactionnelles selon des paramètres Campagnes de fidélisation et démographiques afin d’identifier des Ceci est également valable pour de promotion groupes stratégiques parmi leur clientèle. l’identification des agents à haut Des programmes de marketing peuvent Il peut exister des segments de clients rendement en fonction de la segmentation. être personnalisés pour cibler ces groupes, qui effectuent un nombre très élevé En collaborant avec FINCA en République souvent avec une plus grande efficience de transactions sur le canal du SFN. Démocratique du Congo (RDC), IFC a et efficacité que l’approche standard. Ces segments peuvent souhaiter des analysé les données de transaction des Les prestataires de SFN ont souvent récompenses de fidélité pour des agents et les formulaires d’inscription combiné les connaissances sur les segments transactions spécifiques telles que en RDC pour montrer que le fait d’être à des données sur la rentabilité afin de les paiements chez certains types de une femme et d’être impliquée dans concentrer le travail du marketing sur les commerçants. Autrement, le prestataire une entreprise axée sur les services est segments qui sont susceptibles d’optimiser de SFN peut être en mesure d’orienter fortement corrélé avec le fait d’être un les profits. De même, d’autres prestataires d’autres segments vers certains types de agent à meilleur rendement.18 de SFN ont utilisé le cycle de vie client pour transactions en proposant des campagnes faire les bonnes offres de produit aux bons de promotion. Des transactions spécifiques Améliorations de produits ou clients. Le principal défi est de trouver dans la base de données et les profils des de processus quels sont les groupes de clients à prendre clients contribueraient à identifier quels Le classement des clients en segments en considération afin de concevoir une groupes bénéficieraient de ces campagnes. permet également aux prestataires de campagne de marketing appropriée. Alors SFN d’accorder davantage d’attention que l’univers des données disponibles aux Relations client de grande qualité aux besoins spécifiques d’une cohorte prestataires de SFN augmente chaque jour, La segmentation des clients en fonction de représentative. Dans un grand groupe, en l’absence d’analyse pour faire la lumière la rentabilité est une application commune ces besoins peuvent disparaitre, mais sur ce point, lorsque les groupes de clients du processus de segmentation. On peut en faisant attention aux plus petits sont identifiés, les prestataires de SFN en outre évaluer les groupes qui sont segments, on permet aux prestataires de 18 Harten et Rusu Bogdana, « Women Make the Best SFN Agents. » Note de terrain d’IFC 5, Partenariat pour l’Inclusion Financière 44 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES SFN d’affiner leur objectif et d’étudier des segmentation peut jouer un rôle important possibilité d’utiliser des informations besoins et désirs insatisfaits ou ignorés. dans la feuille de route stratégique d’un sur les comportements individuels. Ces Par exemple, dans un groupe de personnes prestataire de SFN. informations prédisent mieux les besoins qui n’utilise pas un service, pourraient se et usages financiers des clients. De plus, La segmentation démographique trouver les clients qui ont renoncé, ou ceux elles reflètent les évolutions des besoins traditionnelle, qui peut être fondée qui ont réalisé des transactions mais ont et des activités des clients. Cependant, les sur l’âge, le revenu ou la position cessé d’utiliser ce service. Des discussions données comportementales peuvent ne géographique, est utile, mais avec ces utilisateurs pourraient révéler un pas livrer beaucoup d’informations sur les l’expérience montre que la segmentation besoin de réaliser de petites modifications démographique prédit moins bien la besoins et les aspirations des clients, ce dans le produit ou le processus. Il peut future relation d’une institution avec un qui rend difficile la création de messages également arriver que les clients d’un client que la segmentation fondée sur significatifs pour ces segments. segment utilisent la gamme complète de des caractéristiques comportementales. produits offerts par un prestataire de SFN, La réalisation d’un exercice de Le regroupement des clients en fonction tandis qu’un autre segment n’utilise qu’un de caractéristiques démographiques a segmentation de base de données de ou deux de ces produits. Dans toutes ces tendance à traiter tous les clients d’un clients exige des ressources dédiées et un situations, la segmentation donne une groupe comme étant identiques, quel plan détaillé. En particulier, les stratégies indication des études de marché ciblées que soit leur niveau d’activité sur le canal. de segmentation qui utilisent de multiples et du développement de produits visant à Les critères démographiques peuvent sources de données sont les plus efficaces accroitre la demande des clients. également être de nature statique, pour décrire de façon utile et précise les lorsque, en particulier dans le monde de groupes de clients. Ainsi, le processus Débouché commercial et produits l’accès financier par les technologies, le d’élaboration de la segmentation de clients prioritaires comportement des clients est dynamique doit intégrer cette approche. L’analyse des Une fois l’exercice de segmentation et en constante évolution. données joue un rôle important dans ce achevé, les prestataires de SFN peuvent processus, car elle permet aux prestataires L’accès à des bases de données évaluer la mesure dans laquelle leur offre de SFN de segmenter exactement selon les transactionnelles peut faire de la de produits répond aux besoins et aux variables qui jouent un rôle pour motiver segmentation traditionnelle un outil désirs de chaque segment. Ils peuvent puissant pour obtenir des indications l’utilisation et susciter l’intérêt. Ce rapport estimer quels segments représentent le sur les clients. Avec des données de plus ne traite que le rôle de l’analyse des plus grand débouché au fil du temps et en plus disponibles, de nouveaux outils données pour faciliter ce processus, mais le degré de compétitivité de leur offre d’analyse de données et de multiples il est important de noter que ces segments au sein de ces segments de croissance canaux à la disposition des clients, les peuvent être créés par le biais de plusieurs essentiels. Ainsi, une analyse fondée sur la prestataires de SFN ont maintenant la types d’études et d’analyse. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 45 1.2_APPLICATION DE DONNÉES CAS 3 Airtel Money - Augmentation de l’activité avec des modèles de prévision de segmentation de clients Le modèle de segmentation par apprentissage automatique apporte une valeur opérationnelle et des indications stratégiques Airtel Money, l’offre de SFN d’Airtel a été en mesure d’identifier les pour cibler les clients au-dessus ou en Ouganda, a été lancée en 2012. utilisateurs actifs potentiels avec une dessous d’un seuil donné. Bien qu’il L’intérêt suscité initialement était précision de 85 pour cent. Ceci a ne soit pas aussi précis que le modèle faible, avec seulement une fraction débouché sur une « haute probabilité sophistiqué, il a fourni un solide de ses 7,5 millions d’abonnés » de 250 000 nouveaux clients actifs « découpage rapide » qui pouvait GSM s’inscrivant au service. Les d’Airtel Money identifiés sur la base être utilisé par rapport aux ICP pour niveaux d’activité étaient également d’abonnés GSM qu’Airtel devait évaluer rapidement les attentes. faibles, avec environ 12,5 pour atteindre avec un marketing ciblé. cent d’utilisateurs actifs. IFC et L’analyse géo spatiales et du réseau Enfin, l’étude a analysé les zones de Airtel Ouganda ont collaboré des clients a permis d’identifier de mouvement d’argent mobile dans à une étude visant à utiliser des nouvelles zones d’intérêt stratégique, la région. Elle a constaté que 60 analyses de mégadonnées et une cartographiées par rapport au pour cent de tous les transferts se modélisation prédictive visant à nouveau potentiel d’intérêt suscité. produisaient dans une zone d’un identifier les clients GSM existants rayon de 19 kilomètres autour de qui étaient susceptibles de devenir Le modèle d’apprentissage automatique Kampala. La compréhension de ce des utilisateurs actifs d’Airtel Money. a identifié certaines variables avec besoin de transferts de fonds à courte une grande fiabilité statistique, mais distance a également éclairé le travail Le projet a analysé six mois de CDR elles n’étaient pas très parlantes de marketing d’Airtel Money pour et de transactions Airtel Money. au sens commercial, par exemple les transferts P2P. De plus, cette L’analyse a cherché à segmenter les « l’entropie de la durée de la voix ». analyse de réseau de transactions utilisateurs d’argent mobile très En conséquence, une analyse P2P a identifié d’autres villes et zones actifs, actifs et non actifs. L’étude a supplémentaire a produit des rurales avec des zones d’activités qui identifié trois catégories distinctes : paramètres de règles métier, ou des pourraient guider des engagements les niveaux d’activité GSM, les indicateurs qui avaient une bonne stratégiques au-delà de Kampala dépenses mobiles mensuelles et corrélation avec l’activité potentielle pour qu’Airtel puisse s’axer sur la connectivité des utilisateurs. et avaient également de forts liens sa croissance. À l’aide de méthodes d’apprentissage avec les ICP commerciaux. Chaque automatique, un modèle prédictif mesure avait un seuil numérique 46 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Transferts P2P Envoyés par Numéro Source CDR Localisation des Clients Mitya n a M ba ra ra M ba le Ma sin di Gulu Kampala ta See ja Jin Masaka Figure 13 : Analyse du réseau (à gauche) des flux P2P entre les villes et solidité du canal. Également sur la photo, densité géo spatiales des transactions Airtel Money P2P (centre), par rapport à la distribution de l’utilisation GSM (à droite). Données en 2014. Une analyse de données évoluée peut donner des indications sur des segments de clients actifs et très actifs qui peuvent conduire les modèles de propension à identifier les clients potentiels avec une grande précision. L’analyse du réseau et l’analyse géo spatiales peuvent fournir des indications pour établir les priorités en matière de planification de croissance stratégique. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 47 1.2_APPLICATION DE DONNÉES Cas d’utilisation : Prévision du L’analyse prédictive peut aider les praticiens grâce à une technique statistique appelée comportement des clients à atteindre les objectifs suivants : modélisation des réponses. Celle-ci utilise les connaissances disponibles sur une Une modélisation prédictive est un • Acquisition de nouveaux clients clientèle potentielle pour attribuer un score outil de prise de décision qui utilise • Création d’une offre de produits optimale de propension à chaque client potentiel. l’historique des données des clients pour • Identification des cibles de clients et Plus le score est élevé, plus il est probable déterminer la probabilité de résultats que le client devienne un utilisateur actif. prévision du comportement des clients futurs. Les prestataires de SFN évaluent Les ORM qui sont des prestataires de SFN • Prévention du désabonnement les informations multidimensionnelles sur ont utilisé ce type de modélisation pour les clients pour définir avec précision leurs • Estimation de l’impact du marketing prédire quels membres de leur clientèle caractéristiques qui sont en corrélation de services vocaux et de données sont Nouvelle acquisition et avec les résultats souhaités. Dans le cadre susceptibles de devenir des utilisateurs identification des cibles de la modélisation, chaque client se voit actifs de leur service de SFN. Le modèle Comme en témoigne la recherche et attribuer une note ou un classement qui repose sur l’hypothèse que les clients qui l’expérience des praticiens, les praticiens calcule la probabilité que le client prenne sont susceptibles de dépenser davantage ont réussi à abonner un grand nombre de une certaine décision. en services vocaux et de données sont nouveaux clients à leurs services de SFN. aussi susceptibles d’adopter des SFN. À Cependant, la transformation de ces clients Pour une institution orientée client, la partir des données des CDR, le modèle abonnés en clients actifs reste une tâche modélisation prédictive peut éclairer sur est capable de prédire avec un fort degré difficile que seuls quelques prestataires la façon dont elle comprend leurs besoins de précision quelle est la probabilité qu’un de SFN ont été en mesure d’accomplir. et y répond. Il reste toutefois quelques client devienne un utilisateur actif des SFN. En moyenne, environ un tiers des clients obstacles qui l’empêchent d’être plus abonnés n’ont effectué qu’une seule Développement des offres de largement utilisée. Il a existé un sentiment, transaction au cours des 90 derniers jours.19 produits optimales qui est en train d’évoluer progressivement L’une des raisons invoquées pour ces faibles Il existe des modèles prédictifs qui chez les prestataires de SFN, que les niveaux d’activité est le ciblage insuffisant peuvent être utilisés pour découvrir les prestataires connaissent déjà assez bien au stade de l’acquisition. La plupart des offres groupées de produits qui sont leur clientèle pour comprendre quels offres de SFN ciblent le vaste marché de susceptibles d’être utilisées par les clients. sont les produits et les campagnes de masse. À ce titre, ils sont en mesure de voir Le modèle identifie donc les segments qui marketing qui fonctionnent. Par ailleurs, un grand nombre de clients s’abonner, mais ont tendance à utiliser un seul produit certains prestataires de SFN regardent ont connu un succès limité en termes de tels que les transferts P2P et d’autres qui conversion de ces clients en une clientèle ce qui a fonctionné ailleurs et essayent font usage de plusieurs produits, tels que active et génératrice de profits. de reproduire des produits et services les services de dépôt, l’achat de temps similaires sur leurs propres marchés. L’analyse prédictive pourrait aider de communication et les transferts P2P. De nombreux prestataires ne savent à identifier les clients au stade de Cependant, le deuxième groupe peut également pas exactement comment et l’acquisition qui sont bien plus susceptibles ne jamais utiliser le service pour les par où commencer le processus. de devenir des utilisateurs actifs à l’avenir microprêts. Il s’agit d’une information que 19 « State of the Industry Report on Mobile Money, » Édition de la décennie 2006 – 2016, GSMA 48 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES le prestataire de SFN peut utiliser à des utilisé, au niveau de chaque client ou au Estimation de l’impact marketing fins de marketing et de développement niveau global, à tout un segment. Le marketing des SFN a tendance à être de produits. gourmand en ressources compte tenu de Une analyse prédictive complète de sa relative nouveauté sur de nombreux Prédire le comportement la valeur du cycle de vie d’un client nécessite un niveau élevé de clients actifs marchés. Ceci est accentué par la prise des clients dans tous les secteurs de produits et de de conscience qu’un produit exige un Cette analyse peut également être canaux. Cela peut ne pas encore être renforcement de la sensibilisation avant utilisée pour comprendre le potentiel d’obtenir l’acceptation des clients. Sans réaliste pour de nombreux prestataires de valeur future de chaque client. Cela un outil de mesure de la réussite, les de SFN. Cependant, à mesure que les inclut la valeur du cycle de vie d’un client, gestionnaires sont obligés de se fier à leur organisations grandissent, la capacité de la fidélité des clients, les achats et le instinct et aux données de vente de haut prévoir de futurs modèles et tendances comportement en termes d’utilisation niveau pour évaluer la valeur de leur travail sur les clients ne va pas seulement devenir qui sont prévus, et la réponse attendue de marketing. Étant donné que les clients possible mais impérative pour faire croitre aux campagnes et programmes. sont désormais en interaction avec les une entreprise prospère. Ainsi, être De même, les prestataires de SFN peuvent prestataires de SFN sur plusieurs canaux, conscient de cette fonctionnalité peut augmenter leurs opportunités de montée numériques et autres, il est également aider les prestataires de SFN à l’intégrer en gamme et de ventes additionnelles en dans leur processus de prise de décision si difficile d’isoler les effets des campagnes prédisant l’utilisation future grâce à l’ offre besoin est. spécifiques, car les clients sont exposés à de produits et aux modèles actuellement de nombreux messages à tout moment. utilisés. La détermination des groupes de Prévention du désabonnement produit qui peuvent faire l’objet d’une offre Le désabonnement d’un client se produit La modélisation prédictive permet de commune grâce à l’analyse de données lorsqu’un client se désabonne du service mesurer l’impact du marketing sur le transactionnelle présente également une d’un prestataire de SFN. Le cout du comportement des clients. Selon les opportunité de vente additionnelle. Par désabonnement inclut à la fois les données disponibles, l’analyse peut exemple, un PSP peut découvrir que les recettes futures perdues qui aurait pu permettre aux prestataires de SFN utilisateurs utilisent le portefeuille comme être générées par le client, mais aussi les d’estimer le « lift », ou l’augmentation des compte de stockage, ce qui indique qu’on couts de marketing et d’acquisition liés au ventes qui peut être attribuée au marketing. peut offrir un service plus efficace à ces remplacement du client perdu. De plus, au La modélisation prédictive identifiera clients par une offre de compte d’épargne. moment du désabonnement, les recettes comment des mesures de marketing provenant du client peuvent ne pas avoir spécifiques peuvent avoir un impact sur Ces informations peuvent être utilisées couvert le cout d’acquisition de ce client. le comportement des clients dans tous les pour plusieurs fonctions opérationnelles Ainsi, l’analyse du désabonnement des segments. Elle peut montrer, par exemple, : la conception de la campagne et du clients a deux objectifs : prédire quels qu’une certaine mesure prise en marketing marketing, les projections financières, la clients vont se désabonner et comprendre ou de la publicité sur un certain canal peut répartition des placements des clients quelles mesures de marketing sont avoir une réponse beaucoup plus marquée et le développement des futurs produits. susceptibles de convertir un client à haut dans certains segments que la réponse Ce genre de prévision peut également être risque de désabonnement en client fidélisé. moyenne de la population. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 49 1.2_APPLICATION DE DONNÉES Messages de marketing des messages non-personnalisés qui font Comprendre les clients : Ensuite, les 2. personnalisés référence à une proposition de valeur de prestataires de SFN doivent examiner ces SFN de très haut niveau et non spécifique. données et envisager la segmentation en Les sections précédentes ont déjà traité Enfin, le bon message marketing va inciter groupes en fonction de caractéristiques de la façon dont le marketing ciblé le client à prendre des mesures en fonction communes. peut utiliser une compréhension plus des messages qu’il reçoit, sans doute parce 3. Développer des messages et interagir approfondie des segments de clients. qu’ils touchent du doigt les besoins sous- avec les clients : Les prestataires Le marketing personnalisé est un marketing jacents du client. de SFN doivent ensuite créer des ciblé à un niveau très personnalisé, dans messages pour les clients et identifier lequel les besoins et désirs individuels Certains messages personnalisés peuvent les canaux appropriés pour transmettre des clients sont anticipés en fonction de ne pas atteindre les objectifs ciblés, car les des messages à leur clientèle. L’étape leur comportement passé et d’autres messages non sollicités peuvent facilement suivante consiste à interagir avec la informations signalées. De nombreux être ignorés, ou pire, peuvent entrainer des clientèle grâce à la messagerie. clients éventuels ont une expérience associations négatives avec le prestataire limitée des services financiers et doutent de SFN. Ainsi, les messages personnalisés Tester l’efficacité de la messagerie : 4. souvent de leur capacité à leur être utiles. doivent être soigneusement conçus et L’impact du message peut être mesuré en La messagerie personnalisée permet aux ciblés afin de garantir qu’ils atteignent les utilisant le test A/B. La personnalisation clients qui ont besoin de l’information. doit être accompagnée de tests pour prestataires de SFN de « parler » à leurs qu’il soit possible d’évaluer son impact. clients comme s’ils les connaissaient, Comment les prestataires de SFN peuvent- 5. Affiner les messages : Les commentaires ce qui permet ainsi aux prestataires de ils personnaliser les messages de marketing ? des clients et la mesure de l’impact doivent SFN de gagner leur confiance. Les clients peuvent en outre avoir une relation permettre d’affiner les messages. 1. Recueillir des données et identifier très personnalisée avec leur prestataire. des clients : Tout d’abord, les prestataires Sur les marchés concurrentiels, des de SFN doivent recueillir des données messages personnalisés contribueraient à sur leurs clients. Les sources de ces établir une affinité pour un service plutôt données comprennent les transactions qu’un autre. Les clients sont beaucoup plus des clients, les données démographiques, susceptibles de répondre à des messages les préférences et les contributions des qui répondent à leurs intérêts, plutôt qu’à réseaux sociaux. 50 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES CAS 4 Juntos offre des messages d’interaction évolutifs et personnalisés avec les clients Sources de données : Les données qualitatives et quantitatives améliorent la segmentation et la sensibilisation Juntos, une société de technologie Cette approche est fondée sur Pour commencer, les messages de la Silicon Valley, a établi un des données de qualité. Tout sont envoyés aux utilisateurs, et les partenariat avec des prestataires de d’abord, Juntos conduit des études utilisateurs peuvent répondre à ces SFN pour établir des relations de ethnographiques pour mieux messages. Cela établit la relation de confiance avec les utilisateurs finaux, comprendre les clients sur le marché. confiance nécessaire. Plus important améliorant ainsi les taux généraux Les interactions sont toujours encore, ces réponses sont reçues par un d’activité des clients. À l’échelle guidées par des données quantitatives « chatbot » (un agent conversationnel) mondiale, de nombreux prestataires fournies par le partenaire de SFN, automatisé de Juntos qui analyse les résultats selon trois ICP : de SFN connaissent une forte des études comportementales inactivité et une faible interaction. qualitatives effectuées dans le pays • Taux d’engagement : Quel Cela décourage les prestataires, dont et des leçons tirées de l’expérience pourcentage des utilisateurs ont les investissements peuvent ne pas internationale. Après avoir obtenu répondu au chatbot ? À quelle connaitre un rendement financier une compréhension initiale de fréquence ont-ils répondu ? suffisant et dont les clients peuvent l’utilisateur final, Juntos effectue une • Contenu des réponses : Quelles avoir accès à des services qu’ils série d’essais randomisés contrôlés étaient les réponses ? Quelles n’utilisent pas suffisamment. Juntos (ECR) avant le lancement complet du informations ont-ils communiqué offre une solution à ce problème en produit. Ces expériences contrôlées ou demandé ? utilisant des messages personnalisés sont conçues pour tester le contenu, • Comportement transactionnel : d’interaction avec des clients fondés les modèles de timing ou de remise Est-ce que le comportement sur des stratégies de segmentation des messages, et identifier l’approche transactionnel a changé après avoir basées sur des données qui produisent la plus efficace pour interagir avec reçu des messages pendant une des résultats quantifiés. les clients. semaine ? Un mois ? Deux mois ? ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 51 1.2_APPLICATION DE DONNÉES Ces expériences permettent à comment on peut comparer un masculins ou féminins, correspondant Juntos de déterminer quels sont les message générique avec un message à une tranche de revenu, et selon des clients inactifs devenus actifs suite personnalisé avec une incitation modèles d’utilisation, en fusionnant à la sensibilisation des messages de qui tient compte du moment. ces informations avec les données Juntos, et de savoir quels messages Les données ethnographiques ethnographiques sur les opinions des ont permis une activité plus forte de base de Juntos améliorent la consommateurs. et plus cohérente. Par exemple, un compréhension qualitative des message de commande est envoyé à clients, ce qui contribue à établir En testant une grande diversité de un groupe d’utilisateurs choisis au une hypothèse à propos de laquelle messages, Juntos est en mesure de hasard : « Vous pouvez utiliser votre les messages sont susceptibles de segmenter les groupes d’utilisateurs compte pour envoyer de l’argent à résonner, puis de soumettre ces selon les messages qui montrent la maison ! » D’autres pourraient messages à un test statistique. une amélioration statistiquement puiser dans les données du service significative de l’utilisation au fil du pour inclure le nom du client : « Salut La première question est de savoir si les temps. Cela signifie que les messages Jean, saviez-vous que vous pouviez messages test produisent des résultats de fort engagement peuvent être utiliser votre compte pour envoyer statistiquement plus significatifs que conçus pour tout le monde, des de l’argent à la maison ? » D’autres les messages génériques. Lorsque la femmes rurales aux jeunes hommes données peuvent être intégrées au réponse est « oui », il est important ou aux citadins à revenu élevé. message : « La dernière fois que vous d’approfondir les choses, de se L’approche de Juntos est adaptée avez utilisé votre compte, c’était il y poser des questions sur la personne à chaque contexte et est affinée a 20 jours. Où voulez-vous envoyer interrogée et de faire des sondages en permanence pour s’adapter en de l’argent aujourd’hui ? » Ce ne sont dans tous les segments tels que souplesse aux clients qui modifient que des exemples, mais ils montrent les segments ruraux ou urbains, leurs interactions au fil du temps. Recueillir les opinions des clients et les données du marché de manière qualitative permet une meilleure compréhension du comportement des clients, ce qui aide les prestataires à rédiger des messages que les personnes aiment lire. Les tests de l’hypothèse statistique identifient quels messages résonnent le mieux avec des groupes spécifiques, ce qui permet de créer des messages personnalisés pour des publics ciblés. 52 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Cas d’utilisation : Comprendre Analyse des opinions : L’analyse des 2. de bouche-à-oreille n’est pas difficile. le retour d’information et les opinions ou « exploration des opinions » Cependant, pour les nouveaux produits analyses des textes des clients est un outil fondé sur des algorithmes comme les SFN, les prestataires doivent Les prestataires de SFN peuvent aussi utilisé pour évaluer le langage, parlé et trouver une méthode pour catalyser les extraire des indications utiles sur les écrit, afin de déterminer si l’expression niveaux d’éducation parmi les clientèles d’opinion est positive, négative ou neutre potentielles, en particulier chez les clients préférences et attitudes des clients grâce et à quel point. Grâce à cette analyse, qui montrent de l’enthousiasme et de à de nouvelles techniques fondées sur les prestataires de SFN comprennent ce l’initiative à l’égard du produit au sein de la des algorithmes qu’on appelle fouille de que les clients pensent de leurs produits, clientèle cible. En règle générale, les clients textes, ou analyse de texte. Aujourd’hui, la façon dont ils s’associent à la marque sont plus motivés pour passer le mot sur de nombreuses sociétés peuvent accéder et la façon dont ces attitudes évoluent un ou deux cas d’utilisation spécifiques ; ils à des informations sur ce que les clients au fil du temps. Les pics ou creux sont diffusent rarement un message générique aiment ou n’aiment pas le biais des réseaux d’un intérêt particulier pour l’analyse sur la marque. Les fils des réseaux sociaux sociaux, des e-mails, des sites Web, et des opinions. et autres informations sur le Web peuvent de transcriptions de conversations avec être utilisés pour identifier les leaders des centres d’appels. Ces méthodes ont À l’heure actuelle, les évaluations tirées de d’opinion par leur connectivité, le niveau notamment été appliquées dans des l’analyse de textes peuvent être appliquées et la nature des interactions et leur portée contextes de pays développés en Europe à trois domaines : potentielle. Ce type d’analyse dépend de et en Amérique du Nord. Toutefois, les données non structurées provenant de prestataires de SFN sur les marchés Amélioration des produits réseaux sociaux, de données provenant de émergents peuvent également vouloir et services sites de critiques et de données provenant analyser ces données pour contribuer à la Les prestataires de SFN pourraient apporter de blogs. croissance de l’entreprise. L’analyse de texte des améliorations rapides aux produits et peut également être faite manuellement. Impact marketing et surveillance services s’ils pouvaient avoir un contact Avec les progrès de la technologie, des retours d’information direct avec les clients. Les réseaux sociaux, ces méthodes sont susceptibles de e-mails et autres mécanismes de retour L’exploration des opinions permet aux devenir moins chères et plus adaptables d’information direct sont un excellent prestataires de SFN de comprendre le aux contextes et langues des pays en moyen de connaitre immédiatement et processus de réflexion d’une immense développement. directement les opinions des clients. Une quantité de clients. Grâce à l’analyse des L’application la plus courante pour l’analyse étude de marché peut ne représenter opinions, il est possible de suivre ce que les de texte repose sur deux méthodes : qu’une source limitée de commentaires des clients disent sur les nouveaux produits, clients dans ce contexte. publicités, services, marques et autres Méthodes de synthèse de texte : 1. aspects du marketing. Cette analyse peut Ces méthodes fournissent un résumé Le marketing de bouche-à-oreille également être utilisée pour comprendre de toutes les informations clés dans un Le marketing de bouche-à-oreille reste la manière dont le marché perçoit les texte. Ce résumé peut être créé soit en la forme de publicité la plus digne de produits et services des concurrents. Ces n’utilisant que le texte original (approche confiance pour de nombreux clients. Pour données provenant de réseaux sociaux, d’extraction) soit en utilisant du texte les produits et les prestataires de SFN qui blogs, sites de critiques, et autres sites Web qui n’est pas cité dans le texte (approche ont déjà une large clientèle, motiver des dans le domaine social sont également non d’abstraction). clients satisfaits pour stimuler le marketing structurées. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 53 1.2_APPLICATION DE DONNÉES 1.2.2 Analyses et applications : Gestion des Cette équipe joue un rôle important dans la structure organisationnelle, car elle est opérations et des performances indépendante des autres fonctions de base et également impliquée dans des activités L’équipe des opérations est responsable du fonctionnement de la « salle des machines », essentielles de l’entreprise. La nature qui est au cœur de l’entreprise de SFN, car elle effectue une myriade de tâches, notamment : des responsabilités de l’équipe nécessite recueillir les données, stocker les données et garantir que leur connectivité est fluide entre des compétences techniques, ainsi les différents systèmes et applications pour l’ensemble de l’environnement informatique du qu’une excellente connaissance du volet prestataire de SFN ; surveiller en permanence la qualité des données ; accueillir les agents et commercial. Cette combinaison permet des gérer leurs performances ; veiller à ce que la technologie fonctionne comme prévu ; fournir interprétations de données significatives une assistance à la clientèle ; fournir les informations et les outils nécessaires à l’équipe qui peuvent au bout du compte faciliter les commerciale, notamment la mesure des performances, la surveillance des risques et processus de prise de décision des acteurs l’établissement de procédures réglementaires de déclaration ; la résolution des problèmes ; clés de l’entreprise. surveiller efficacement les indicateurs, les exceptions et les anomalies ; gérer les risques ; Cette section décrit le rôle que les données et veiller à ce que l’entreprise respecte ses obligations réglementaires. Cela ne peut être peuvent jouer dans l’optimisation des fait de façon efficace sans avoir accès à des données précises, présentées sous une forme opérations au jour le jour d’un prestataire pertinente, facile à lire et en temps voulu. de SFN typique. Elle commence par décrire la façon dont les données peuvent être converties en informations utiles, Style de vie des agents en donnant des exemples concrets d’application d’analyse des données. Elle inclut quelques conseils sur les meilleures Cycle de vie des partenaires commerciaux Cycle de vie client pratiques d’utilisation des données des SFN. À mesure que l’utilisation des tableaux de bord de données devient plus courante, elle donne des indications sur la création et le contenu des tableaux de bord. Tâches Développer et gérer les Cas d’utilisation : Visualiser les Risque et Conformité opérationnelles produits performances avec des tableaux de bord On dit souvent qu’une image vaut mieux que mille mots. Ainsi, trouver un moyen graphique de représenter des données Facturation, revenus, est un moyen puissant de communiquer Opérations techniques commission rapidement des informations et des tendances, ce qui est essentiel pour Rapprochement de la monnaie électronique assurer une surveillance constante de la performance des entreprises et pour identifier des risques avant qu’ils ne s’accroissent. Des tableaux de bord bien structurés, adaptés à différents groupes d’utilisateurs, doivent refléter la demande Figure 14 : Tâches opérationnelles des unités opérationnelles et les aider à prendre des décisions plus informées. 54 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES La conversion des données en graphiques des mesures précoces sur les comptes à • Ventes : Performance des agents ; et autres formes de visualisation favorise la faible activité pour activer le client et ne performance des commerçants et des communication des informations révélées et pas laisser le compte en sommeil. Certains émetteurs de facture ; performance de contribue également à repérer les tendances de ces tableaux de bord permettraient aux l’équipe de vente et anomalies dans les données. Beaucoup de utilisateurs finaux de manipuler les données • Opérations : Gestion de la liquidité personnes dans l’organisation n’ont pas le pour visualiser différentes découpes et segments de données. Souvent, ces types des agents temps ou les ressources nécessaires pour analyser les données elles-mêmes ; elles de tableaux de bord sont présentés en • Assistance à la clientèle : Statistiques veulent simplement que leurs questions direct sur un grand écran dans les locaux et indications provenant du centre aient des réponses qui les aideront à faire de l’équipe pour que tout le monde puisse d’appels leur travail de manière plus efficace. les voir. Pour le personnel sur le terrain, • Opérations techniques : TIndications où l’accès à Internet peut être de qualité Un tableau de bord donne un aperçu des variable, des tableaux de bord en ligne provenant de l’équipe des opérations ICP pertinents pour un service ou toute peuvent être téléchargés et mis en cache techniques l’entreprise. S’il est rarement nécessaire localement pour être utilisés sur le terrain. de prendre des mesures fondées sur Les outils de gestion de données disponibles les données signalées, les paramètres D’autres tableaux de bord de gestion sur le marché ont énormément évolué ces du tableau de bord sont probablement fournissent des indications en analysant dernières années. Des tableaux de bord incorrects. Pour concevoir des tableaux de les données de la veille, de la semaine standard sont souvent livrés dans le cadre bord solides, il est important d’intégrer les précédente, du mois précédent ou de de l’offre technologique du fournisseur. Pour commentaires des utilisateurs finaux afin l’année précédente, et peuvent donc être obtenir les indications plus précises nécessaires de répondre à leurs besoins spécifiques. livrés de multiples façons, notamment et le faire de manière reproductible, il existe Sans ce retour d’information, les tableaux sous forme de rapports, de présentations deux approches standard : de bord pourraient devenir obsolètes et ou via un portail en ligne. Par conséquent, tout le travail consacré à leur création serait chaque service et équipe de projet a 1. Retour au fournisseur : Un budget perdu. Par conséquent, le développement besoin de tableaux de bord personnalisés est souvent disponible pour que les du tableau de bord est un partenariat selon les objectifs et initiatives du service. fournisseurs modifient les tableaux de entre les équipes opérationnelles et Habituellement, au minimum, les solutions de SFN doivent avoir plusieurs tableaux de bord, mais la rivalité des nombreuses commerciales, ce qui pourrait passer bord des opérations couvrant les domaines demandes des services et des nombreux par des répétitions pour faire le tour de suivants, chacun fournissant un accès clients des fournisseurs exigeant de la boucle de rétroaction des différentes en fonction des rôles pour des publics l’attention peut entrainer des problèmes parties prenantes. spécifiques : de capacité et des retards. Certains tableaux de bord nécessitent une Utiliser Excel pour manipuler des 2. • Risque : Pertes de recettes ; prêts mise à jour en temps réel. Ainsi, une équipe rapports bruts téléchargés à partir non performants (PNP) ; indications technique opérationnelle doit agir lors concernant la Lutte contre le blanchiment de « cubes de données » du système : d’alertes déclenchées en temps réel : les de capitaux (LBC) ; adéquation des fonds Lorsqu’une question est posée à l’équipe responsables de l’assistance à la clientèle propres ; détection des fraudes de soutien à la décision de l’entreprise, elle évaluent activement les volumes d’appels pour attribuer le travail d’équipe et gérer • Finance : Perspectives de profits et crée un tableau de bord personnalisé et les incidents, les équipes de gestion des pertes ; surveillance de la monnaie produit un rapport ou une présentation risques sont constamment informées des électronique PowerPoint pour tenter d’offrir une remboursements qui ne fonctionnent pas, • Marketing : Indications et tendances réponse. Il s’agit d’une autre forme ad et les équipes de vente peuvent prendre sur les clients pour les différentes offres hoc de création de tableau de bord. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 55 1.2_APPLICATION DE DONNÉES La dernière génération d’outils de gestion Rapports standard des opérations Les ICP des services bien structurés offrent de données permet d’avoir la liberté Afin d’améliorer leurs activités, les aux équipes opérationnelles des indications d’enquêter sur des domaines d’intérêt sans prestataires de SFN tentent de trouver les avec lesquelles elles peuvent mesurer nécessiter une expertise en manipulation réponses à des questions telles que : les performances par rapport aux cibles. des données. Cependant, les bases de Ils aident les équipes à comprendre ce qui données sous-jacentes doivent être • Quel était le volume et la valeur des se passe sur le terrain et dans quel domaine conçues et optimisées pour être capables transactions ? il existe un potentiel d’amélioration. de déployer et d’utiliser ces types d’outils. • Combien de clients et d’agents étaient Quel que soit le processus de gestion Les rapports standards d’ICP sur les actifs ? des données ou le système utilisé, voici principaux moteurs d’activité sont • Quel a été le montant de nos recettes ? généralement segmentés par zone les points à prendre en compte lors de la création d’un tableau de bord : • Combien cela représente-t-il par rapport opérationnelle. Les ICP sur lesquels au mois dernier et au budget ? se concentrer pour chaque domaine 1. Pensez à la réponse « Et alors ? » : opérationnel respectif figurent dans le • Existe-t-il des indicateurs de risque en Les résultats doivent avoir une valeur Tableau 3 ci-dessous. dehors des limites acceptables ? pratique, et pas seulement être « bons • Existe-t-il des transactions inhabituelles à savoir ». De nombreux tableaux de récurrentes, des pics d’activité ou des bord ne montrent que l’état actuel anomalies qui révèlent une activité de l’entreprise et ne donnent pas le inhabituelle ? contexte des résultats précédents ou des tendances temporelles. Le point de départ est de se concentrer Choisir à quelle question on doit 2. sur les ICP, ou des paramètres avec des répondre avant de commencer : objectifs quantifiables que la stratégie Souvent, les rapports sont un lieu de opérationnelle s’efforce d’atteindre et déversement de toutes les données qui servent de référence pour juger disponibles, qu’elles soient utiles ou non. la performance. Les ICP généraux des Ces types de rapports ne contiennent entreprises doivent être directement liés pas les indicateurs et mesures sources aux objectifs stratégiques de l’organisation de motivation qui améliorent la et, par conséquent, déterminer les ICP performance. spécifiques de chaque service. Les données 3. Concevoir le rapport pour raconter les plus utiles sont celles qui peuvent être une histoire : Une fois que les bonnes converties en informations nécessaires données sont mesurées et recueillies, le pour prendre des décisions. Avant de rapport doit contenir des informations créer un rapport, il convient d’identifier accrocheuses pour attirer l’attention du exactement ce que l’on veut savoir. Il lecteur sur les points les plus importants. convient également de confirmer que des Présenter de façon visuelle, intéressante mesures seront prises suite à l’obtention et utile. des données. 56 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Service Thèmes Prioritaires des ICP Finance et trésorerie Recettes, produits et charges d'intérêts, frais et commissions, montant en dépôt, volume et valeur des transactions, volume de clients et d'agents (actifs), couts indirects et émission de monnaie électronique pour les établissements non bancaires, rapprochement des relevés bancaires Cycle de vie des partenaires Recrutement, niveaux d'activité, résolution de problèmes, gestion des performances, rapprochement et règlement commerciaux (commerçants, émetteurs de facture, commutateurs, agents, banques partenaires, autres PSP) Gestion du cycle de vie des clients Gestion de la KYC, niveaux d'activité, comportement transactionnel, résolution de problèmes (assistance à la clientèle) et gestion des comptes Opérations techniques Suivi des performances des produits, suivi des niveaux de service des partenaires, gestion du changement, intégration des partenaires, résolution des pannes, gestion des incidents et gestion des accès utilisateur Risque de crédit Structure des risques de portefeuille, prêts non performants, pertes liées aux annulations et risques, provisionnements liés aux prêts Risque opérationnel et de Gestion des risques opérationnels, surveillance et suivi des activités suspectes, conformité réglementaire, conformité vérification préalable et enquêtes ad hoc Cycle de vie (spécifique aux SFN) du Recrutement, niveaux d'activité, gestion du fonds de caisse, résolution des problèmes, gestion des performances, réseau d'agents rapprochement et règlement, et audit Autre En fonction de la nature des SFN, d’autres rapports peuvent être nécessaires, par exemple, les organismes octroyant un crédit calculent une cote de crédit, recouvrement de la dette et tâches connexes Tableau 3 : ICP sur lesquels se concentrer par domaine opérationnel En fonction de la stratégie commerciale justificatives d’autre dans les rapports de les ICP et à décider comment ils peuvent et des objectifs du service, une sélection gestion, car il existe toujours la tentation être optimisés, mais elles ne nécessitent des données ci-dessus sont présentées d’inclure des données périphériques qui généralement pas d’être signalées à un en tant qu’ICP de l’entreprise et des ne sont pas strictement nécessaires pour large public, à moins de vouloir attirer services. Ces ICP peuvent, idéalement, comprendre la santé de leur service. l’attention sur un point particulier. Un bon être présentées sous forme de tableaux Cela peut être source de distraction ou exemple de cette approche est illustré ci- de bord, ou d’une série de rapports. Il est conduire à de mauvaises priorités. Les dessous : l’utilisation de tableaux de bord important que chaque service sépare ses données justificatives sont essentielles pour de données par MicroCred. données en ICP d’une part et en données aider à mieux comprendre ce qui détermine ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 57 1.2_APPLICATION DE DONNÉES CAS 5 MicroCred utilise des tableaux de bord de données pour améliorer ses systèmes de gestion Visualisations et tableaux de bord de données pour le suivi des performances quotidiennes et de la fraude MicroCred est un réseau de microfinance axé sur l’inclusion financière en Afrique et en Asie. Au Sénégal, il exploite une entreprise de microfinance en croissance qui offre des services financiers aux personnes qui n’ont pas accès aux banques ou à d’autres services financiers. La portée a été étendue à l’ensemble du pays en créant un réseau de plus de 500 agents de SFN. Les appareils de PDV des agents peuvent effectuer des transactions de gré à gré pour les paiements de factures et les envois de fonds, et traitent également des dépôts et des retraits sur les comptes MicroCred. La confirmation de la transaction est assurée par la réception d’un SMS. À la fin de 2016, près d’un tiers des clients avaient créé un compte pour utiliser le canal des agents, et plus d’un quart utilisaient activement les points de vente des agents pour effectuer des transactions. Cela a généré d’importantes données sur les opérations et la performance du canal. Figure 15 : Exemple des données des tableaux de bord de MicroCred 58 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES MicroCred a été un adopteur précoce L’activité de l’agent, avec des • données présentées dans les tableaux des systèmes de gestion de données alertes pour signaler les agents qui de bord. Il s’axe sur : de nouvelle génération, en acquérant n’effectuent pas de transactions ou et mettant en œuvre BIME, un L’utilisation des agences de • qui sont peu performants outil de visualisation pour faciliter MicroCred par rapport aux agents Des alertes provoquées par une • l’optimisation des opérations. Il a • L’adoption et l’utilisation des SFN activité suspecte et une fraude permis à MicroCred de développer par les clients potentielle, telle que l’activité des tableaux de bord interactifs • Le déploiement du canal de SFN inhabituelle d’un agent ou d’un conçus pour répondre à des questions • L’évolution des ICP fondamentaux client opérationnelles spécifiques. par rapport aux objectifs à long • Le suivi des processus d’abonnement MicroCred utilise le plus souvent terme aux SFN, en mettant l’accent sur les deux tableaux de bord : abonnements infructueux Avec des outils de visualisation Tableau de bord des opérations La répartition géographique des • comme BIME, il est facile de créer quotidiennes transactions des graphiques pour illustrer les données opérationnelles, ce qui Il permet une visualisation Tableau de bord stratégique mensuel permet de repérer les tendances et quotidienne des portefeuilles Il donne une vision à long terme, anomalies plus facilement, et de d’épargne et de prêts, en mettant en plus stratégique, et est principalement les communiquer de façon efficace. évidence tout problème. Il présente utilisé par l’équipe de direction pour La mise en œuvre du système de gestion des données sur une période de visualiser des mesures commerciales des données a également présenté trois mois, mais peut être ajusté en critiques plus complexes. Il a été des difficultés, à la fois techniques et fonction des besoins des utilisateurs. développé pour tenir compte des culturelles. MicroCred recommande Ce tableau de bord utilise des alertes l’adoption d’une approche étape par automatisées pour avertir l’équipe des comportements au cours du cycle de étape, en commençant par quelques opérations de problèmes potentiels. vie client, notamment la façon dont tableaux de bord de base et en les Dans les rapports, personnalisés pour l’utilisation du service évolue à mesure complexifiant au fil du temps pour les équipes opérationnelles, figurent que les clients se familiarisent avec la obtenir des tableaux de bord plus des mesures telles que : technologie et les services proposés. sophistiqués. • Les ICP de suivi, notamment Il est également possible d’effectuer les volumes de transactions, les aisément des analyses ad hoc pour commissions et les frais suivre des questions soulevées par les Les outils de visualisation et les tableaux de bord interactifs peuvent être intégrés à des systèmes de gestion de données et fournissent des rapports dynamiques et sur mesure utiles pour les opérations, la gestion et le suivi des performances stratégiques. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 59 1.2_APPLICATION DE DONNÉES Données utilisées dans les cout potentiellement nul - et en raison l’appui des opérations de back-office. Il peut tableaux de bord de leurs implications pour la stratégie être difficile de diffuser des informations, de marketing. car l’équipe et les agents sont dispersés Il existe deux principaux niveaux d’enregistrement des données nécessaires géographiquement, ont différents niveaux Données sur les clients à l’élaboration des tableaux de bord : au de connectivité, et sont souvent équipés Avoir un identifiant client unique est d’une technologie assez rudimentaire. niveau des transactions et au niveau des essentiel, surtout quand le tableau de Leurs besoins en données sont malgré tout clients. Ils servent des objectifs différents, bord puise ses données dans plusieurs nombreux. Les responsables des relations, mais les deux sont importants. applications. Grâce à son intégration les agrégateurs et les agents disposant de Données sur les transactions de données, les prestataires peuvent plusieurs points de vente à de nombreux Les données sur les transactions sont contrôler l’intégrité des données afin endroits ont besoin d’informations sur les caractérisées par une forte fréquence et d’assurer un enregistrement de données performances et la gestion du fonds de une forte hétérogénéité. Les prestataires de qualité, élément nécessaire au suivi caisse. Les employés de la force de vente de SFN doivent cependant viser à de la concentration du portefeuille, du sur le terrain qui ne passent pas souvent normaliser la typologie des transactions calcul de la pénétration des produits, de la au bureau ont besoin d’accéder aux afin de suivre la rentabilité des produits, vente croisée et du suivi du personnel de informations à distance. L’agent a besoin de surveiller et d’analyser le comportement vente, et de l’analyse d’autres indicateurs d’informations sur sa propre performance des client (et des agents), et de lancer importants. Il existe généralement deux en termes de nombre de transactions et des signaux d’avertissement en cas de grands groupes de données qui doivent de clients, de volume d’activité, d’efficacité mauvaise performance ou de faible être enregistrées au niveau des clients : les des ventes (conversion), et de rentabilité. activité. Les types de transaction doivent données démographiques et financières. Des informations sur la disponibilité des être clairement différenciés et doivent être Des listes complètes d’indicateurs de services de réapprovisionnement de facilement identifiables dans la base de données peuvent être consultées dans le fonds, en particulier sur les marchés où les données, même lorsque les transactions chapitre 1.2. La combinaison de données agents peuvent se fournir des services de semblent techniquement similaires. Par au niveau des transactions et du client gestion de fonds de caisse et de trésorerie exemple, une cause fréquente de confusion peut fournir des indications utiles sur le liés à la monnaie électronique les uns aux apparait lorsqu’il existe plusieurs façons comportement de certains segments de autres, seront potentiellement utiles. Sur de verser des fonds sur un compte client, la clientèle et peut conduire à une gestion les marchés où opèrent des partenaires telles que l’utilisation des P2P entrant, les optimale des performances. de gestion de trésorerie indépendants, paiements groupés ou les encaissements, les agents doivent également disposer de mais que toutes les données sont groupées Cas d’utilisation : Gestion des données sur les niveaux des fonds de caisse. et simplement signalées comme étant des performances des agents « dépôts ». Ces trois types de transaction La gestion des agents est probablement La gestion des performances des agents a doivent être traités séparément en raison l’aspect le plus difficile d’une prestation de besoin de données précises, directement de leur impact très différent sur les recettes services financiers réussie car elle nécessite liées aux équipes responsables de la gestion - l’un est un cout direct, un autre est une une intervention concrète régulière par des points de vente. Les données sur les source de revenus et le troisième est d’un une équipe de vente sur le terrain ainsi que performances des agents doivent être 60 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES facilement segmentées en correspondant Identification des agents les ou, si cela se révèle impossible, être écartés à la structure de l’équipe de vente ; plus performants du service. Puisque le manque de liquidité chaque section et chaque individu peut en monnaie électronique est fortement Les bons agents doivent être récompensés voir ses propres performances. Il s’agit corrélé à de mauvaises performances, un pour leur travail. Des incitations, de la base sur laquelle les objectifs de paramètre clé souvent utilisé pour analyser notamment des activités de marketing et performance peuvent être évalués avec les performances des agents est le nombre des commissions exceptionnelles ou des précision et récompensés. Dans l’exemple de jours en situation de « rupture de stock » primes liées à la performance, peuvent ci-dessous, les équipes et les personnes par mois (c’est-à-dire que les niveaux de être basées sur ces données. Il peut être responsables de chaque niveau de la fonds de caisse se situent en dessous d’un très efficace d’avoir des objectifs par agent hiérarchie des agents, du directeur des certain seuil). personnalisés en fonction des conditions ventes aux représentants des ventes de locales du marché, et de disposer d’un Ce type d’analyse de données sur les district, ont besoin de données précises et moyen de montrer clairement à l’agent ses agents est très efficace, mais assez détaillé en temps voulu directement liées à leurs performances par rapport à ses propres et souvent effectué manuellement, ce qui responsabilités. Les informations les plus objectifs et ceux de ses pairs. Les objectifs peut être lent et fastidieux. Il peut être utiles qui peuvent être fournies à l’équipe comprennent la liquidité et l’activité des efficace de fournir à l’équipe de vente des de vente concernent les agents dont elle clients. Une caractéristique clé d’un bon outils de gestion automatisée des données est responsable. agent est qu’il se trouve rarement à court de qu’ils peuvent utiliser sur le terrain, monnaie électronique ou de fonds de caisse. ainsi que des indicateurs personnalisés. Lacunes du suivi des agents Les cibles cumulées des agents agrégateurs L’étude de cas Zoona ci-dessous illustre Il n’existe pas de réponse définitive sur bien ces points. doivent être fondées sur l’activité de le nombre optimal d’agents nécessaires gestion de la liquidité qu’ils se sont engagés pour que chaque client ait un accès par contrat à soutenir, ainsi que les relativement facile à un agent et que performances de leur équipe d’agents. chaque agent ait assez de clients pour générer un revenu acceptable. Les études Identification des agents les citent la fourchette de 200 à 600 clients plus fragiles actifs par agent actif comme la situation Sur la plupart des marchés, environ 80 optimale pour les prestataires de SFN, pour cent des agents sont actifs. Cela en fonction des conditions du marché. signifie que les clients souhaitant effectuer Une tâche importante de l’équipe de des transactions avec les 20 pour cent vente est de surveiller les données sur restants des agents seront probablement les agents et les clients, en contrôlant la incapables de le faire parce que le fonds croissance et la localisation des points de de caisse est insuffisant ou qu’un agent est vente des agents pour s’assurer qu’ils sont absent. Les agents peu performants doivent conformes à l’activité des clients. soit être amenés à un niveau acceptable ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 61 1.2_APPLICATION DE DONNÉES CAS 6 Zoona Zambie - Optimisation de la gestion des performances des agents Culture des données : Une approche intégrée axée sur les données des produits, services et rapports Zoona est le principal prestataire scénarios possibles d’emplacements cartographie les itinéraires les plus de SFN en Zambie. Il offre des d’agents afin d’identifier quelles sont populaires, en créant des zones où transactions de gré à gré via un les configurations qui maximisent les clients potentiels sont susceptibles réseau d’agents Zoona dédiés. la croissance des entreprises. Des de se trouver. Zoona cartographie Les services des agents comprennent facteurs tels que le nombre de clients également l’emplacement des l’inscription des clients, l’envoi et la desservis par jour par agent existant concurrents sur ces itinéraires. réception de paiements de transfert et les longueurs des files d’attente sont Cycle de vie des agents de fonds, la fourniture de dépôts utilisées pour déterminer la demande et de retraits en espèces sur les locale et le potentiel de croissance Un agent relativement nouveau sur jusqu’à ce que la saturation soit une route principale peut ne pas comptes et le versement de paiements être aussi productif qu’un agent groupés provenant de tiers, tels atteinte. Pour garantir la fiabilité, les expérimenté sur un marché animé, que les salaires et les paiements des scénarios modélisés sont recoupés en raison de l’emplacement et du pouvoirs publics aux personnes. avec des contributions de l’équipe fait que l’agent a développé une La culture d’entreprise de Zoona de vente sur le terrain qui dispose clientèle fidèle. Un service de SFN est axée sur les données et charge de connaissances locales sur la zone solide a besoin d’agents aux deux une équipe centralisée d’analystes et qui sait quels sont les points de endroits - et les objectifs fixés pour de données d’affiner constamment vente soumis à la plus forte pression. chaque agent doivent être réalistes la sophistication et l’efficacité de ses Dans les endroits clés, l’équipe et réalisables. Zoona analyse les services et opérations. utilise également Google Maps et données des agents afin de projeter des reconnaissances physiques le des attentes de performances futures La localisation des agents long des rues, en observant leur pour les segments des agents, par Zoona a mis au point un simulateur degré d’animation et en localisant exemple les segments urbain et en interne pour déterminer des emplacements stratégiques rural, en produisant des courbes de l’emplacement optimal des échoppes potentiels. Par exemple, des milliers « performances au fil du temps » des agents. L’approche utilise la de personnes peuvent arriver à pour chaque agent, jusqu’au niveau méthode de simulations de Monte un arrêt de bus, puis se disperser du quartier. Cela appuie de bons ICP Carlo20 pour tester des millions de dans toutes les directions ; Zoona de gestion d’agent. 20 Les simulations de Monte Carlo tirent des échantillons à partir d’une distribution de probabilité pour chaque variable afin de produire des milliers de résultats possibles. Les résultats sont analysés afin d’obtenir les probabilités de survenue de différents résultats. 62 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Gestion des liquidités Les agents ont besoin d’une source pratique de liquidités pour les services liés aux transactions, la proximité de banques ou de guichets automatiques bancaires (GAB) est donc prise en compte dans les scénarios de localisation. La difficulté à réapprovisionner le fonds de caisse peut également être due à une concentration excessive d’agents qui, collectivement, puisent de façon excessive dans les sources de fonds de caisse et sapent la valeur du réseau d’agent local. Les simulations de Zoona examinent les deux scénarios dans le cadre de l’optimisation. En outre, comprenant que le fonds de caisse d’un agent est un facteur clé de sa performance, Zoona expérimente une solution innovante pour recueillir les soldes des fonds de caisse en espèces et en argent électronique pour aider les agents à gérer plus efficacement leur fonds de caisse. Cela fournit aux agents un accès aux outils de gestion de la performance, qui sont développés à l’aide de la boite à outils de visualisation de gestion des données QlikView. Elle fournit à Zoona des données que les agents pourraient souhaiter ne pas signaler. Les analyses peuvent appuyer de nombreux aspects des opérations et du développement de produits : optimisation de placement d’agent, gestion des performances et outils qui créent des incitations pour une communication volontaire des données. Une culture d’entreprise axée sur les données est le moteur de l’intégration. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 63 1.2_APPLICATION DE DONNÉES Gestion du back office des agents des exigences réglementaires différentes Fixer • de nouveaux objectifs de L’équipe de back office des agents est (et sans besoin d’une gestion de fonds de performance et de nouvelles incitations responsable de toutes les tâches requises caisse). Par conséquent, les indicateurs clés • Soumettre les demandes et questions pour mettre en place de nouveaux agents, dont ils ont besoin sont semblables à ceux des agents sur le service directement à puis gérer leurs interactions continue des agents, mais avec différents processus l’équipe des opérations en matière de SFN. Souvent, cela inclut d’entreprise et objectifs. • Noter les emplacements potentiels de également d’obtenir les données requises nouveaux points de vente d’agent Optimisation de l’efficacité par l’équipe de vente (ci-dessus). Pour être des agents L’accès à ce type de données peut résulter efficaces, les membres de l’équipe ont besoin d’un grand nombre de données, notamment Les données peuvent être utilisées de façon sur une meilleure motivation et une des rapports standard et un accès aux plus efficace par des équipes de gestion meilleure réussite des agents, ainsi que données pour exécuter des rapports ad hoc des agents quand elles disposent d’un sur l’amélioration de la performance se penchant sur des questions spécifiques. accès mobile et en ligne à ces données. globale des activités de SFN. Des questions En plus de fournir des données sur l’équipe Certaines de ces tâches sont notamment importantes peuvent être abordées, telles de vente, ils doivent aussi mesurer le temps les suivantes : que : « Quel est le montant de fonds de que prennent leurs nombreux processus caisse de monnaie électronique dont les • Planifier la charge de travail agents ont besoin ?» Pour gérer les fonds d’entreprise afin de veiller à ce que leur équipe ait la capacité d’atteindre les objectifs • Vérifier l’aspect intérieur et extérieur de caisses en espèces et électronique, il est de niveaux de service internes. Ce qu’on des points de vente des agents lors des utile de déterminer quelles sont les périodes obtient en mesurant les problèmes soulevés visites de terrain. les plus actives de la journée, de la semaine par type et par volume, et la mesure du temps • Mettre à jour ou vérifier l’emplacement et du mois, et de fournir des conseils sur de résolution des problèmes, souvent par le leurs prévisions de besoin de fonds de et autres informations démographiques biais d’un système de gestion des incidents. caisse. Il est également utile que le système du point de vente ait un dispositif signalant que le fonds de Back office des partenaires • Montrer des statistiques de performances caisse d’un agent passe en dessous d’un commerciaux personnalisées à l’agent directement en niveau minimum, et envoyant un message arrivant Aux fins de la gestion du back office, d’alerte automatique à la personne chargée divers types de partenaires commerciaux • Montrer la commission reçue à ce jour et de la gestion du fonds de caisse de l’agent. hors agents peuvent être associés. Ceux- pour le mois Lors d’opérations plus sophistiquées, des ci comprennent les émetteurs de facture • Afficher les recettes obtenues des clients algorithmes peuvent être utilisés pour et autres PSP, les commerçants, les que l’agent dessert prédire de manière proactive la quantité organisations qui utilisent les SFN à des de fonds de caisse dont chaque agent aura • Leur permettre d’ajouter des photos à la fins de gestion d’entreprise, notamment besoin chaque jour et pour les informer base de données la paie et d’autres paiements groupés, et du solde de départ optimal, soit avant d’autres IF, notamment des banques et des • Compléter directement les mesures de l’ouverture du point de vente, soit après prestataires de SFN. L’équipe de back office l’enquête d’assurance qualité (AQ) de sa fermeture. Cela peut également être de gestion des partenaires commerciaux base sur les agents effectué pour le montant de liquidité que est responsable de tâches similaires dans le • Notifier que les informations de KYC l’agent devrait avoir à disposition pour cadre de la gestion des agents, mais avec sont en transit assurer les services de retrait. 64 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES CAS 7 FINCA RDC - Portrait d’un agent performant et application pratique des résultats Collecte des données : Ajustement du processus pour obtenir de meilleures indications et une mise en œuvre réussie Avec un taux de pénétration bancaire à FINCA RDC de choisir de bons marque du produit FINCA RDC. d’un peu moins de 11 pour cent, la agents dans des zones en expansion. Ces informations sont ensuite RDC a l’un des taux d’accès aux De plus, la disponibilité d’un réseau rassemblées dans une note de suivi. services financiers les plus faibles d’agents prospère que les clients • Données sur les transactions des d’Afrique. En 2011, l’institution de peuvent utiliser pour rembourser agents : Ces données sont des microfinance FINCA RDC a créé leurs prêts avec commodité favorise informations sur le volume et le son réseau d’agents, employant des la réduction du risque de portefeuille nombre de dépôts, de retraits et gérants de petites entreprises pour de FINCA RDC. d’opérations de transfert effectués qu’ils offrent les services bancaires par chaque agent. Le modèle prédictif a défini les de FINCA RDC. Le réseau d’agents « agents performants » en termes a augmenté rapidement, et lorsque La disponibilité des données de nombre, mais aussi de volume la collecte des données des agents a et la qualité des données ont de transactions. Les données du commencé en 2014, il représentait été les principaux défis dans le modèle linéaire généralisé (MLG) plus de 60 pour cent du total des développement du modèle de provenaient de trois sources transactions de FINCA RDC. En performance des agents. Les données principales : 2017, les transactions des agents numérisées sont exigées pour des avaient augmenté pour atteindre 76 • Formulaires d’inscription des agents : sources habituellement recueillies pour cent du total des transactions. Ceux-ci fournissent des informations sur papier, telles que l’inscription de La croissance se concentrait toutefois sur les données commerciales et l’agent et les formulaires de suivi. principalement dans la capitale du socio-démographiques du chef Les données manquantes doivent pays, Kinshasa, et dans l’une des d’entreprise. être réduites au minimum, tant plaques tournantes des échanges • Formulaires de suivi des agents : pour garantir des séries de données commerciaux du pays, Katanga. Des employés de FINCA RDC plus solides que pour permettre FINCA RDC a cherché à élargir le suivent régulièrement les agents, la fusion des séries de données en réseau dans les zones rurales et a donc en recueillant des informations sur faisant correspondre des champs développé un modèle prédictif pour la trésorerie et le fonds de caisse de métadonnées. Cela nécessite identifier les critères qui définissent électronique de l’agent, l’état de sa une normalisation des données un agent qui réussit. Les résultats boutique, des données d’opinion recueillies par différentes personnes, ont été intégrés dans des enquêtes de sur l’interaction des clients de qui peuvent utiliser différentes recrutement des agents qui ont permis l’agent et les affichages de la méthodes de collecte. Le manque de ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 65 1.2_APPLICATION DE DONNÉES données cohérentes peut conduire En 2016, le réseau d’agents avait une autre possibilité d’étude. Pour à une réduction significative de augmenté pour représenter 70 l’étude de suivi, FINCA RDC et l’échantillon, ce qui compromet pour cent du total des transactions. IFC utiliseront une méthodologie la précision et la performance de Le modèle a identifié la localisation d’ERC pour identifier la localisation prévision du modèle. comme le critère clé, révélant ainsi optimale des agents. Les agents qui réussissent en RDC sont identifiés par les critères statistiquement significatifs suivants : la situation géographique, le secteur de l’activité principale d’un agent, le sexe de l’agent, et s’ils réinvestissent leurs bénéfices. Il est avéré que les femmes agents, par exemple, font 16 pour cent plus de profit sur leurs activités d’agent que leurs homologues masculins ; la valeur des stocks de leur entreprise est 42 pour cent plus élevée. On a également découvert qu’elles réinvestissaient plus d’argent dans les stocks de leur entreprise, plutôt que de le garder sur un compte bancaire qui rapportait peu intérêt. Cela a débouché sur environ 5 pour cent de plus de valeur de transaction moyenne totale par mois. Ces résultats ont été mis en œuvre pour améliorer et rationaliser le processus de sélection d’agents, ce qui a finalement contribué à élargir le réseau à des zones rurales en intégrant des facteurs dans les enquêtes sur les agents et la stratégie de déploiement. La comparaison des données des profils des agents par rapport aux paramètres des agents peut mettre en évidence les principales caractéristiques qui conduisent à l’amélioration de leurs performances. L’intégration de ces apprentissages en matière de ciblage d’agents et de processus de gestion assure la pleine mobilisation des données au service de la gestion des performances. 66 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Cas d’utilisation : Gestion du erreurs qui se produisent lors du processus inclure la génération de pistes pour back office de saisie manuelle font que ces formulaires des campagnes de vente ou la gestion doivent passer par de multiples boucles multicanal, peuvent être utilisées pour Automatisation de processus de remaniement. Finalement, après être révéler des débouchés inexploités et Même si les prestataires de SFN consacrent passées par un processus de vérification en des risques dans le portefeuille. Une fois beaucoup d’efforts au développement plusieurs étapes, les informations clé sont identifiés, des notifications automatiques de l’automatisation frontale (services manuellement enregistrées dans le système peuvent être envoyées au personnel du bancaires mobile et en ligne), certains ont par le front ou le middle office, ce qui crée front office ou directement aux clients. encore du mal à développer des fonctions une charge de travail supplémentaire Par exemple, pour empêcher le d’arrière-plan fortement automatisées. pour le personnel et nuit à l’efficacité de désabonnement, les clients qui s’approchent Les tâches automatisées qui peuvent aider l’aménagement du temps. Ces formulaires de l’état d’inactivité peuvent recevoir les opérations de back office, telles que la doivent ensuite être stockés dans un des messages textuels ou des e-mails de souscription et la constitution de dossier entrepôt physique et conservés pendant réactivation. Les emprunteurs peuvent de prêts, le traitement et le rapprochement un certain temps. La rationalisation et la recevoir des notifications sur les paiements automatisés des transactions, ont une simplification du processus de collecte à venir ou des produits à meilleurs prix immense valeur. Les prestataires se de données par l’interface frontale avant disponibles pour le refinancement. dirigent maintenant vers l’automatisation et à travers un système de contrôle des Certaines fonctions nécessitant des robotique des processus simples et données intégré améliorent l’efficacité et interventions humaines, telles que l’analyse répétitifs, qui peuvent être réalisés à un bien réduit les couts de main-d’œuvre. Bien sûr, financière et commerciale et la gestion moindre cout et avec bien plus de précision pour enregistrer les données de manière des relations personnelles, complètent le par des machines que par des humains. fiable, l’architecture informatique doit être processus automatisé et en bénéficient. Selon AT Kearney, l’automatisation des suffisamment solide pour classer, vérifier et processus robotiques (RPA, Robotic stocker correctement les données. Surveillance des risques et de la Process Automation) rend les opérations conformité réglementaire 20 fois plus rapide que la moyenne des Le traitement des données peut être automatisé à presque toutes les étapes À la suite de la crise financière de 2008, humains et offrent des économies de couts de la relation client. L’établissement les organismes de réglementation de 25 à 50 pour cent à ceux qui l’adoptent.21 d’étapes de vérification standard peut nationaux ont continuellement durci la Différents domaines d’automatisation accélérer les ouvertures de comptes et les réglementation du secteur financier afin de peuvent généralement être regroupés modifications de comptes, et les décisions protéger les clients et le secteur en général. dans l’automatisation de l’enregistrement de crédit pour certains segments peuvent L’augmentation des exigences de fonds des données et du traitement de données. être déclenchées par des modèles bien propres, de liquidités et de transparence L’objectif principal de l’enregistrement structurés et testés. En outre, des cartes a placé un lourd fardeau sur le secteur des données réside dans la numérisation thermiques pratiques peuvent automatiser financier réglementé tout en créant un des flux de travail basés sur papier. Nous les décaissements, et des formulaires de avantage concurrentiel pour les acteurs observons que de nombreux prestataires demande et de commentaires automatisés non réglementés, tels que les prestataires utilisent encore des formulaires d’inscription peuvent numériser les fermetures de de technologie financière. En conséquence, papier pour recueillir des informations compte. Des analyses évoluées, décrites les banques doivent prévoir des couts d’ouverture de compte. Les nombreuses dans le chapitre précédent et pouvant de conformité dans leur budget pour se 21 ‘Robotic Process Automation : Fast, Accurate, Efficient’, A.T. Kearney, accédé le 3 avril 2017 https://www.atkearney.com/financial-institutions/ideas-insights/robotic-process-automation ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 67 1.2_APPLICATION DE DONNÉES conformer aux exigences réglementaires. d’exécuter des analyses de scénarios et des les risques opérationnels et financiers. La présentation de rapports réglementaires simulations de crises pour répondre aux De nouvelles interventions et nécessite la mise en commun de données exigences réglementaires. La conformité règlementations en matière de cyber provenant de divers systèmes, notamment réglementaire entraine des couts directs du sécurité exigeront des prestataires de SFN la comptabilité financière, le système de fait d’une hausse du cout du capital, ainsi que qu’ils développent et maintiennent des outils comptabilité, la trésorerie, le contrôle des couts indirects, tels que l’établissement visant à se protéger de menaces extérieures de la qualité des actifs et les bases de de processus d’établissement de rapports, et de potentielles activités criminelles. données de collectes, entre autres. Des l’aménagement de l’emploi du temps Le maintien et l’agrégation des données simulations régulières de crise nécessitent du personnel et, dans certains cas, les appropriées nécessaires pour assurer la une infrastructure informatique solide investissements dans les nouvelles prévention de la fraude et les modèles avec une importante capacité de stockage technologies. de risques opérationnels peuvent réduire et de traitement de grandes quantités de l’exposition des prestataires de SFN. données. En outre, la conformité à la KYC Prévention de la fraude La gestion continue des flux et le traitement exige des flux de données concrets pour Les tendances mondiales s’orientant vers des données en temps réel leur permet de une prise de décision en temps voulu et le Cloud computing, la gouvernance et la détecter les fraudes plus rapidement et en toute sécurité. Les données nécessaires protection des données deviennent de plus avec une plus grande précision, réduisant à la mesure et la surveillance du marché, en plus importantes. Les prestataires de ainsi les risques potentiels de pertes. du crédit, de la LBC et des risques de SFN doivent accorder plus d’attention au Par exemple, si les cartes de crédit ou de liquidité sont idéalement stockées dans comportement des clients en matière de débit d’un client sont utilisées depuis un un lieu central unique pour permettre à transactions. Ils doivent également être en point géographique inhabituel ou à une un prestataire de SFN d’avoir une image conformité avec la KYC afin de détecter les fréquence inhabituelle, les prestataires complète des risques de la totalité de activités frauduleuses potentielles- comme de SFN peuvent en alerter le client et son portefeuille. Ce lieu central unique le blanchiment d’argent et l’usurpation éventuellement bloquer le traitement de permet également au prestataire de SFN d’identité - tout en évitant ou en réduisant ces opérations suspectes. Suivi des données pour détecter les fraudes Lorsque les prestataires de SFN offrent des services de P2P, les prestataires peuvent utiliser divers outils pour déterminer si les montants de transactions sont versés frauduleusement sur le compte de quelqu’un d’autre pour éviter les frais. Au lieu d’utiliser leur propre compte et de payer les frais, les clients peuvent effectuer un transfert P2P payé à partir du compte de quelqu’un d’autre. La vitesse de transaction peut donner une indication de base ; si l’argent est déposé sur un compte, puis retiré à nouveau dans une période de temps très court, il y a de bonnes chances qu’il s’agisse d’un dépôt direct. Le lieu de la transaction donne une indication encore meilleure car si la localisation des agents qui effectuent le dépôt et le retrait est à une certaine distance, il est peu probable, voire impossible, que le client ait pu parcourir la distance entre ces points dans l’intervalle séparant les deux transactions. Il doit être possible de créer des alertes pour ce genre de comportement, et des agents qui effectuent un nombre exceptionnellement élevé de dépôts directs peuvent être suivis. Cela ne comptabilisera pas les transactions entre les clients vivant à proximité, donc de nombreux prestataires de SFN ont également recours aux achats anonymes effectués par des enquêteurs pour mieux comprendre les niveaux de dépôt direct. 68 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Cas d’utilisation : Gestion des La définition de modèles de « comportement manque d’agents, des limites de transaction interactions des utilisateurs normal » est un aspect fondamental de la restrictives et de courtes interruptions lors La gestion des clients dans tout le cycle gestion des risques. Les modèles d’activité de transactions. Il est donc important de de vie, l’encouragement à une utilisation qui s’écartent des normes convenues, recueillir des données statistiques sur les accrue et la gestion des nouveaux en particulier les données d’utilisation appels reçus, notamment les plaintes et comportements relèvent de la compétence des transactions et des services, doivent suggestions. Les façons de tirer parti de ce de l’équipe de marketing. Toutefois, il existe être signalés. Ces modèles doivent type de données sont illustrées dans le Cas aussi un aspect opérationnel à la gestion être examinés pour déterminer si le 8 ci-dessous. des clients qui relève principalement des comportement inhabituel était légitime, équipes de service à la clientèle, des risques ou s’il s’agit d’un cas de fraude potentielle. Le suivi du nombre d’appels à mesure que le et techniques. Ces équipes sont chargées de En plus du comportement des clients et service se développe permet de déterminer veiller à ce que l’interaction des utilisateurs des agents, il est également conseillé de le nombre de représentants nécessaires soit telle que conçue, en détectant et définir ce qu’est une « activité normale » au centre d’appel. Pour certains services réglant tous les problèmes. Elles sont quant aux interactions des employés dans à grande utilisation, seule une partie des également responsables de la gestion de le système. Par exemple, un employé appels passés arrivent effectivement à une l’interaction des utilisateurs pour les clients consulte-t-il effectivement davantage de professionnels et les utilisateurs internes. ligne de service clients. Dans ce cas, les dossiers de clients qu’un employé « normal tentatives d’appels par rapport aux appels » ayant la même fonction, ou accède-t- À cet égard, il est important de définir traités constituent un chiffre important, il au système en dehors de ses heures de l’utilisation et le comportement « normaux » car il indique soit un problème majeur, travail habituelles ? Cette activité anormale prévus du système de sorte que des soit une insuffisance du personnel. Les pourrait indiquer une activité frauduleuse. prévisions puissent être faites pour la problèmes de centre d’appels les plus planification technique et commerciale. Améliorations de l’efficacité du fréquemment rapportés sont les oublis Des mesures sont généralement définies service client de PIN, les téléphones ou cartes perdus, du haut vers le bas, telles que les objectifs Les équipes de service clients dans les les transactions envoyées aux mauvais commerciaux mensuels et les objectifs centres d’appels sont les employés les plus destinataires et la perte de codes de bons stratégiques. Cela dit, certains indicateurs proches du client des SFN au jour le jour. promotionnels. Le nombre d’appels qui de résultats doivent être recueillis « du De fait, ils peuvent signaler de manière peuvent être pris dépend de la vitesse du bas vers le haut » tels que les mesures de l’utilisation moyenne d’un service. Comme précoce toutes les questions importantes système de back office et la rapidité avec indiqué précédemment, l’utilisation susceptibles de survenir. Ils seront souvent laquelle il peut réagir pour résoudre le des moyennes peut être trompeuse, les premiers à apprendre une panne du problème. Alors que les couts des centres et le comportement peut devoir être système ou le comportement frauduleux d’appels sont généralement élevés, les décomposé en secteurs, puis regroupé d’un agent, un processus est donc données qu’ils fournissent doivent être en une « vue moyenne » de l’activité en nécessaire pour alerter l’équipe appropriée utilisées pour accélérer le processus de fonction de laquelle des projets peuvent d’un problème éventuel en fonction des informations (dont l’aspect raisonnable est résolution des problèmes et augmenter le être établis. Par exemple, l’équipe technique a besoin de connaitre aussi bien le nombre vérifié) reçues des clients. Ces équipes sont nombre d’appels que chaque représentant d’opérations par jour que les périodes qui également susceptibles d’entendre parler peut prendre. Ces données peuvent verront probablement une forte activité, de problèmes mineurs affectant le service également être utilisées pour améliorer pour qu’ils puissent s’assurer que le système qui empêchent les clients d’effectuer des l’expérience utilisateur afin que le client peut supporter les pics d’activité. transactions de façon optimale, tels que le fasse moins d’erreurs. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 69 1.2_APPLICATION DE DONNÉES CAS 8 Safaricom M-Pesa - Utilisation d’ICP pour améliorer le service clients et les produits Utilisation des analyses de données pour identifier les goulots d’étranglement opérationnels et prioriser des solutions M-Pesa au Kenya a été le pionnier rapidement éroder la confiance des données. Les historiques de données des SFN à grande échelle, avec 20,7 clients. Des indicateurs fondés sur d’appel des autocommutateurs de millions de clients, une base active des données ont permis à l’équipe de résolution des problèmes ont été sur trente jours de 16,6 millions,22 planifier et d’orienter les opérations examinés et il a été constaté ce et des recettes déclarées en 2016 de manière appropriée. qui suit : de 4,5 milliards d’USD.23 Lorsque Safaricom a lancé le service en 2007, Comme l’intérêt suscité par le service Durée de l’appel : La durée • il n’existait pas de modèles ou de était étonnamment élevé dès le début, moyenne des appels était de 4,5 meilleures pratiques ; tout a été le nombre d’appels au centre d’appels minutes, environ deux fois la durée conçu à partir de zéro. L’amélioration du service clients a été, dans la même du temps prévu au budget pour opérationnelle continue a été proportion, plus élevé que prévu, chaque appel. essentielle au fur et à mesure que le ce qui a entrainé un volume élevé • Questions clés pour une résolution service a été mis à l’échelle. d’appels sans réponse. Ce problème a rapide : Les deux types d’appel été à l’origine d’un ICP dont l’équipe clés à aborder pour l’optimisation L’intérêt suscité pour le service était du service clients avait besoin pour le émanaient de clients ayant oublié étonnamment élevé dès le début, avec résoudre et ramener la situation à un leur PIN et de clients qui envoient plus de 2 millions de clients lors de sa niveau acceptable. de l’argent au mauvais numéro de première année, battant les prévisions téléphone ; cela représentait 85 à de 500 pour cent. Cette demande Le problème a tout d’abord été 90 pour cent des appels de longue croissante a forcé une rapide mise à abordé en recrutant du personnel durée arrivant au centre d’appels. l’échelle et les opérations nécessaires supplémentaire, mais le recrutement pour anticiper de manière proactive en lui seul n’a pas permis de suivre le L’analyse a permis de réaliser deux les problèmes de mise à l’échelle rythme de l’augmentation du nombre choses. Tout d’abord, les goulots en matière de technologie et de de clients. Pour identifier les goulots d’étranglement ont été correctement processus d’entreprise, car une d’étranglement et hiérarchiser les identifiés, en passant des indications mauvaise expérience client pouvait solutions, l’équipe a analysé leurs clés aux opérations. D’autre part, 22 Richard Mureithi, « Safaricom announces results for the financial year 2016. » Hapa Kenya, 12 mai 2017, consulté le 3 avril 2017, http://www.hapakenya.com/2016/05/12/safaricom-announces-results-for-the-financial-year-2016/ 23 Chris Donkin, « M-Pesa continues to dominate Kenyan market. » Mobile World Live, 25 janvier 2017, consulté le 3 avril 2017, https://www.mobileworldlive.com/money/news-money/m-pesa-continues-to-dominate-kenyan-market/ 70 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES d’autres problèmes opérationnels ont été découverts, surtout la fréquence à laquelle les clients avaient envoyé de l’argent par erreur ou avaient oublié leur PIN. La gestion en fonction de l’ICP des appels sans réponse a donc apporté des bénéfices opérationnels plus généraux. En utilisant les résultats analytiques, les opérations ont mis en œuvre une stratégie de résolution. Tout d’abord, en dressant une typologie des problèmes longs à résoudre par rapport aux problèmes courts, les problèmes difficiles pouvaient être rapidement identifiés et rapidement passés à une équipe de back office. Cela a réduit les temps d’attente des clients et les goulets d’étranglement, permettant de traiter davantage de clients par jour. En second lieu, les opérations et les équipes de développement de produits ont travaillé pour réduire les délais pour tous les types d’appels. Pour ce faire, l’infrastructure technique et l’interface utilisateur ont été améliorées, atténuant ainsi les problèmes responsables des appels longs. Une série d’initiatives conjointes a réduit l’ICP de durée d’appel et la valeur de l’ICP d’appels sans réponse, les plaçant tous les deux à des niveaux acceptables malgré le nombre de clients qui continuait de croitre au-delà des niveaux prévus. La gestion par le biais d’ICP est un élément essentiel des opérations. L’analyse détaillée des données à l’origine des ICP peut permettre d’identifier les goulots d’étranglement opérationnels, et peut même révéler d’autres facteurs opérationnels qui poussent les indicateurs au-delà des seuils. Comprendre les données qui sont à l’origine d’un ICP peut permettre de mieux l’utiliser. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 71 1.2_APPLICATION DE DONNÉES Cas d’utilisation : Données sur les capacité de système supplémentaire sera Des services de SFN efficaces établissent opérations techniques nécessaire. Que le système soit externalisé une bonne communication entre les Par sa nature même, un service de SFN doit ou en développement interne, il est équipes commerciales et techniques. être disponible 24 heures sur 24, sept jours important que l’équipe technique surveille L’équipe commerciale doit discuter sur sept, et il est normalement conçu pour les niveaux de service et les tendances en de manière proactive de ses plans de traiter de grands volumes d’interactions termes de capacité, et prévoie des mesures marketing et des prévisions ainsi que toute du système, à la fois financières et non correctives. Les principales données activité concurrentielle afin de préparer normalement requises comprennent l’équipe technique à des changements de financières. Pour cette raison, le service la disponibilité du système, les temps volume potentiels. Des réunions régulières doit être surveillé de manière proactive d’arrêt prévus et imprévus, le volume des (au moins tous les trimestres) sont en prenant des mesures préventives pour transactions et la capacité, tant en cas de nécessaires pour examiner les dernières assurer la disponibilité continue du service. pic que permanente. prévisions de volumes en fonction des Les données de diagnostic de service sont résultats du trimestre précédent et de généralement utilisées pour effectuer Transactions et interactions l’activité de marketing prévue. Cela cette analyse. Les tableaux de bord de permet à l’équipe technique d’établir une performance technique doivent être mis à Une transaction est un planification en conséquence. L’équipe jour en temps réel pour montrer l’état de mouvement financier d’argent, technique doit, à son tour, conseiller tous santé du système. Ils doivent être surveillés en général l’acte de débiter les partenaires qui pourraient être touchés automatiquement et conçus pour alerter un compte et de créditer par un changement dans les prévisions. les fonctions et les personnes responsables un autre. Pour y arriver, Ceci est particulièrement pertinent pour si un problème potentiel est repéré. l’utilisateur doit interagir avec le système. les partenaires d’ORM, car il a existé Le concept de l’utilisation des données Ces interactions peuvent donner des plusieurs cas impossibles à gérer de besoins pour « comprendre une situation normale » indications, et sont fréquemment utilisées en en volume de SMS lors d’opérations de est utilisé pour détecter de manière développement de produits numériques pour promotion particulièrement réussies. proactive des défaillances dans différentes des smartphones et des services Web afin de De même, si des changements ou des couches du service et des solutions de permettre de mieux comprendre le client. révisions techniques sont prévus, le surveillance automatiques sont mises en Les interactions de SFN, même en utilisant marketing doit en être informé et éviter place pour détecter les cas de dépassement des téléphones de base, peuvent être des activités qui pourraient créer une des paramètres de seuil. Par exemple, mesurées et peuvent fournir des données pression supplémentaire sur le système à si un système de SFN traite normalement utiles sur l’expérience client pour un ce moment-là. un certain nombre de transactions par seconde (TPS) tous les jeudis soir, mais service. Par exemple, il est possible de Leçons tirées de la gestion des qu’un jeudi, le chiffre est beaucoup plus mesurer les interactions telles que les « tentatives abandonnées d’effectuer une opérations et des performances faible, cela signale qu’il existe probablement un problème qui nécessite d’être résolu. transaction financière » qui ont permis Documenter l’avantage que les de diagnostiquer ce qui empêchait alors ventes de temps de communication Les tendances peuvent être utilisées pour les clients d’effectuer ces opérations. représentent au niveau commercial : Les prédire des problèmes de performances Un autre exemple est le cas de services à la rapports peuvent induire en erreur lorsque tout en identifiant des incidents spécifiques ; clientèle qui interagissent avec le système les clients utilisent les SFN pour acheter de fait, l’équipe doit également tenir compte pour le compte d’un client, par exemple du temps de communication. En fonction des performances au fil du temps. L’analyse en réinitialisant un code PIN oublié. des tendances est essentielle pour planifier Ces interactions sont rarement mesurées, de l’activité principale du prestataire de les capacités, et des modèles d’utilisation mais elles peuvent également fournir SFN, la vente de temps de communication et de croissance du système donnent des des indications utiles pour améliorer les prépayé peut être soit une source de indices importants sur les moments où une opérations du service. revenus, soit une réduction des couts. 72 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Pour les organisations qui ne sont pas Se méfier des moyennes : Par nature, Regardez les tendances à plus des ORM, chaque vente de temps de les offres de SFN ont tendance à attirer les long terme et les résultats à court communication rapporte une petite personnes ayant des ressources limitées terme : indications beaucoup plus commission, car elles agissent en tant que qui n’ont pas accès à des banques et les intéressantes qu’un point de données isolé. personnes (et les entreprises) plus aisées qui distributeurs de temps de communication. Les changements doivent être compris interagissent avec eux. Cela conduit à des Ce revenu doit être considéré comme faisant dans la durée, car il peut exister un effet volumes très élevés de transactions de faible partie des revenus des SFN. Pour les ORM, saisonnier, par exemple un jour férié, valeur parallèlement à un petit nombre plutôt que des revenus, cette opération de transactions de relativement grande responsable d’un pic d’activité. Ce pic peut représente une réduction des couts ayant valeur. La visualisation des données peut être suivi d’un plongeon, puis un retour au un impact significatif car elle élimine les 2 à être très efficace pour identifier les cas où statu quo, ce qui est courant aux alentours 3 pour cent (habituels) des commissions et l’utilisation des moyennes est inappropriée. de Noël. Il peut également y avoir un des couts de distribution. Cependant, bien Par exemple, la figure 16 montre une courbe impact saisonnier ; par exemple, pendant des ORM n’attribuent pas ces économies de fréquence de distribution typique des la saison des récoltes, les agriculteurs de de couts à l’entreprise de SFN car elles valeurs de transaction pour un prestataire cultures de rente obtiennent la majorité de SFN, la majorité des transactions n’ont pas été prises en compte dans la ligne de leur revenu annuel et sont beaucoup étant de 20 USD. La valeur moyenne des budgétaire de temps de communication plus actifs financièrement par rapport transactions est pourtant de 86 USD, car un prépayé. Bien que cela puisse être correct à d’autres périodes de l’année. D’autres nombre relativement faible de transactions en termes comptables, pour évaluer avec de grande valeur biaise la moyenne. causes des changements à court terme précision la valeur des SFN pour l’entreprise, Ces moyennes peuvent conduire à une dans les performances peuvent être ces économies de couts doivent être vision erronée et artificiellement élevée dues à l’activité concurrentielle, les incluses dans les comptes de gestion interne de la richesse et de l’activité financière conditions météorologiques extrêmes et des SFN. « moyennes » du client. l’incertitude politique. 0.35 0.3 Valeur de la transaction = 20 USD 0.25 Fréquence 0.2 0.15 0.1 Valeur moyenne de la transaction = 86 USD 0.05 0 0 50 100 150 200 250 300 350 Valeur de la transaction (USD) Figure 16 : Graphique de fréquence des valeurs de transaction montrant que les moyennes peuvent conduire à de mauvaises conclusions ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 73 1.2_APPLICATION DE DONNÉES Prenez garde aux indicateurs flatteurs : et combien de temps cela a-t-il nécessité ? le cas où l’ORM fournit des sessions de Les indicateurs flatteurs peuvent donner Il est surprenant de voir combien peu données de services supplémentaires non une bonne impression sur papier, mais de SFN mesurent cette performance de structurées (USSD) avec un délai de temps ils peuvent donner une vision biaisée transaction de bout en bout compte tenu mort trop court ou une défaillance sous de la performance des entreprises. de son rôle central dans l’établissement forme de décrochage des USSD, de sorte que Ils sont faciles à manipuler et ne sont pas et le maintien de la confiance des clients, certains clients ne peuvent physiquement nécessairement corrélés aux données qui établissant ainsi une acceptation du SFN pas effectuer une transaction dans le comptent vraiment, comme l’engagement, et maintenant la réputation de l’entreprise. délai imparti. le cout d’acquisition et, en fin de compte, La figure 17 illustre le problème posé à les recettes et les profits. Un exemple un client consistant à payer une facture Il devrait être facile dans une relation typique d’indicateur flatteur de SFN est avec son téléphone. Dans ce cas trois prestataire-fournisseur de demander des le nombre de clients inscrits, plutôt que « propriétaires du système » sont impliqués : données qui montreront des informations de ceux qui sont actifs. De même pour une ORM fournissant la connectivité, le pertinentes, par exemple les décrochages l’indication du nombre total d’agents au SFN fournissant la transaction et l’émetteur des USSD ou les files d’attente des lieu du nombre d’agents actifs. Ce n’est de facture payé. transactions. Toutefois, le fait qu’il n’existe qu’en se concentrant sur les véritables ICP Chaque système renvoie ses propres pas d’accords directs ou complets de niveau et les indicateurs critiques qu’il est possible données sur l’efficacité, mais l’expérience de service (SLA), ce qui peut parfois rendre de bien comprendre la santé de l’entreprise. client peut être tout à fait différente s’il la compréhension précise de l’information Si une entreprise s’axe sur des indicateurs existe des retards de passation entre les impossible, est souvent un problème flatteurs, elle peut avoir une fausse idée de systèmes. Un autre exemple courant est essentiel pour fournir des SFN. sa réussite. Les données de niveau de service Tableau t1 t2 t3 t4 t5 doivent être pertinentes par rapport chronologique aux objectifs commerciaux : Chaque technique L’ORM envoie Le prestataire de Le système de Le prestataire L’ORM équipe opérationnelle rassemble une une demande SFN confirme facturation du de SFN envoie une profusion de données sur la façon dont de transaction les détails et service collectif exécute la confirmation le système fonctionne. Cependant, dans transmet les confirme que transaction de la le cadre de SFN complexes impliquant informations de la transaction transaction plusieurs partenaires, elles peuvent ne la transaction peut avoir lieu pas tenir compte de la performance du Tableau Temps = t1 + t2 + t3 + t4 + t5 service de bout en bout et de son effet chronologique sur l’expérience utilisateur. Pour un client, des clients l’indicateur de performance pertinent est la performance des transactions de bout en bout ; la transaction a-t-elle été achevée, Figure 17 : Heure de la transaction : Mesures du système par rapport à l’expérience client 74 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Filtrer le déluge de données : Chaque interaction avec un système de SFN peut générer un grand nombre de points de données. Certains d’entre eux sont d’ordre financier, et certains enregistrent quelle interface est utilisée, ou même combien de temps il faut à l’utilisateur pour se repérer dans l’expérience utilisateur. L’intensité des informations recueillies augmente considérablement à mesure que les systèmes ont recours à des interfaces utilisateur plus évoluées, telles que les smartphones. Cela peut conduire à une surcharge d’information et à des « défaillances de filtre », c’est-à-dire, pour résumer, voir les arbres qui cachent la forêt. Ceci, ainsi que les contraintes concernant la sécurisation des ressources nécessaires pour gérer ces nouveaux flux de données, est la raison pour laquelle si peu de ces informations sont utilisées par l’entreprise pour la prise de décision. Rassembler et corréler des informations externes avec des données internes peut conduire à une perte d’indications clés. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 75 1.2_APPLICATION DE DONNÉES CAS 9 M-Kopa Kenya - Modèles économiques innovants et stratégies axées sur les données Une culture d’entreprise fondée sur les données intègre les analyses dans toutes les opérations, tous les produits et tous les services Créée au Kenya en 2011, M-Kopa a atteint un indicateur de cote de crédit Gestion des capacités techniques commencé en tant que prestataire de de type « capacité de payer », évalué Une analyse de l’utilisation et du systèmes énergétiques domestiques à par leur achat initial de système et le comportement de remboursement l’énergie solaire, principalement pour remboursement ultérieur. M-Kopa est des clients montre que les utilisateurs l’éclairage et la recharge des petits maintenant également disponible en préfèrent acheter des crédits à l’avance objets comme les téléphones portables Ouganda, en Tanzanie et au Ghana. afin d’obtenir une alimentation et les radios. L’entreprise combine des électrique fiable pour les jours à venir. technologies de machine à machine, en M-Kopa utilise des données de manière En sachant quand les clients sont utilisant des cartes SIM intégrées avec proactive dans toute l’entreprise pour susceptibles de payer (et combien une solution de SFN de micropaiement, améliorer l’efficacité opérationnelle. de temps à l’avance), M-Kopa peut ce qui signifie que la technologie ne Ses bases de données amassent des prévoir les attentes et planifier en peut être suivie et mise à disposition informations sur les caractéristiques conséquence, en s’assurant que leurs que lorsque le paiement anticipé est démographiques des clients, le degré de clients ne seront pas affectés par des reçu. Les clients achètent les systèmes dépendance de l’appareil des clients et interruptions de service annoncées de M-Kopa en utilisant des « crédits » via M-Pesa qui pourraient empêcher ces le comportement de remboursement. le service d’argent mobile M-Pesa, puis paiements d’être effectués. Chaque unité solaire transmet payent pour les systèmes en utilisant automatiquement des informations Service clients M-Pesa jusqu’à ce que le solde soit d’utilisation des données et de entièrement payé et que le produit soit Les appareils M-Kopa communiquent acquis. Ces dernières années, l’entreprise diagnostic des systèmes à M-Kopa, en les données de la batterie quand s’est étendue à d’autres domaines, les informant quand, par exemple, les celle-ci est mise en service et l’analyse notamment la fourniture d’appareils lumières sont allumées. Tout cela peut des données permet au service clients ménagers et de prêts, en utilisant des être analysé pour améliorer la qualité de vérifier si les unités fonctionnent unités solaires appartenant à la clientèle du service, l’efficacité opérationnelle et comme prévu et permettent une comme garantie de refinancement. Ces la compréhension du comportement maintenance proactive et préventive produits sont offerts aux clients qui ont des clients. pouvant être effectuée à distance : 76 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Si un client se plaint qu’il ne • Gestion de l’équipe de vente Cibler les clients susceptibles de reçoit pas la quantité attendue L’équipe de vente sur le terrain vend générer des ventes supplémentaires d’électricité, les tableaux de bord des produits et services M-Kopa Le comportement de remboursement des batteries sont utilisés pour directement aux clients. Les des clients peut fournir bon nombre diagnostiquer le problème. Par d’informations sur la santé financière représentants des ventes utilisent exemple, si la batterie ne se charge et la solvabilité. Les données de une application sur smartphone pas complètement pendant les la batterie montrent à quel point pour archiver toutes leurs activités le client dépend d’un service heures de la journée. numériquement, en temps réel. pour l’éclairage, ce qui permet un En dépit de bons contrôles de • Cela permet une compréhension niveau de compréhension plus qualité lors de la fabrication, il détaillée de leur performance et une approfondi. Ces informations sont existe toujours des variations rapidité de réaction pour traiter ces utilisées pour identifier et cibler dans la performance des batteries activement les clients existants pour problèmes. Les mesures dynamiques lorsque les unités sont sur le les mises à niveau et les services de performances en ligne et les terrain, qui dépendent de facteurs supplémentaires. M-Kopa partage classements peuvent être ventilés par tels que les modèles d’utilisation ou également ces informations avec les les conditions environnementales. personne et sont à la disposition de bureaux de crédit pour permettre de M-Kopa a créé des algorithmes l’équipe de gestion des ventes et des fournir aux clients une notation du de maintenance prédictifs pour chefs d’équipe afin d’encourager risque de crédit. détecter les performances sous- l’amélioration des performances optimales d’une batterie, ce qui grâce à la ludification.24 L’application lui permet d’intervenir et de permet également aux membres de prendre des dispositions pour un l’équipe de suivre leur commission remplacement gratuit avant que la ainsi que tous bonus et incitations « panne » de batterie se produise. supplémentaires. Une culture d’entreprise axée sur les données est nécessaire pour intégrer des analyses et des rapports dans l’ensemble de l’entreprise. Cela permet de tirer parti de sources et d’analyses de données dans plusieurs domaines afin d’attirer de nouveaux clients, de gérer des équipes de vente, d’offrir un meilleur service clients et développer de nouveaux produits. 24 La ludification est l’application d’éléments de jeu et de principes de jeu dans des contextes hors-jeu. D’autres exemples dans le cadre des SFN peuvent être consultés dans des études sur le site Web du CGAP : https://www.cgap.org/blog/series/gamification-and-financial-services-poor/ ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 77 1.2_APPLICATION DE DONNÉES Interactions des systèmes de stockage : Combinaison des données pour aux informations sur les transactions Il y a seulement quelques années, lorsque ajouter des éléments de contexte : financières de SFN n’est pas simple. du lancement de nombreuses offres de La combinaison de données du prestataire La raison en est généralement qu’il n’existe SFN, la saisie et le stockage de données de SFN avec les données des partenaires pas d’élément commun de données reliant étaient relativement couteux et lourds, peut présenter de nombreux avantages les deux dossiers, et les horloges horodatant opérationnels. Par exemple, lorsqu’il l’événement sur les deux systèmes ne sont et donc des données qui n’étaient pas existe une collaboration avec un ORM, souvent pas parfaitement synchronisées. immédiatement nécessaires pour gérer il existe aussi des informations sur le lieu De fait, de nombreux systèmes n’effectuent une entreprise n’étaient pas conservées. où l’expéditeur et le destinataire étaient d’activités de combinaisons de données que La nouvelle technologie permet le stockage situés physiquement, la carte SIM utilisée, par exception, le plus souvent dans le cadre de données abondantes à moindre cout. le type de téléphone utilisé, les potentiels d’enquêtes sur la fraude ou au cas par cas. Bien que souvent ignorés, il existe également historiques d’appels et les habitudes de Le contexte supplémentaire fourni par les de nouveaux outils pour analyser des recharge des clients. Comme de nombreux données combinées peut toutefois ajouter données qui se trouvent sur des historiques marchés ont un strict mandat d’inscription des couches de valeur, en particulier dans de serveurs et permettent, avec les bons de la carte SIM, les informations de la KYC le cas d’une surveillance proactive des outils, d’établir une corrélation entre du client peuvent également être utilisées fraudes. La facilitation de l’association plusieurs sources de données pour fournir pour compléter et croiser les dossiers. des données pour qu’elles puissent être des informations plus intéressantes sur Si certains de ces paramètres ne sont pas de utilisées dans des activités opérationnelles les services. Il est fortement recommandé première importance pour les transactions, « normales » mérite d’être examinée, en ces données sont utiles pour déterminer que les prestataires de SFN recueillent et particulier pour les opérations de SFN plus les anomalies du système ; par exemple, stockent tout élément de données possible évoluées. si un client effectue habituellement des sur toutes les interactions du système, transactions à partir d’un téléphone même celles qui ont été refusées par le Tentatives échouées : Il est fréquent particulier, et que le téléphone a changé, passé. Bien que cela ne semble pas être que les prestataires de SFN conservent il se peut que la transaction soit frauduleuse. utile ou pertinent pour les opérations en les données associées à des transactions D’autres preuves peuvent être recueillies cours, elles pourraient bien représenter une réussies, lorsque l’activité demandée a été par des références croisées sur l’endroit où accomplie. Les transactions ayant échoué valeur à une date ultérieure pour effectuer la transaction a eu lieu grâce à l’historique peuvent toutefois fournir elles aussi des des analyses de données plus poussées ou des localisations habituelles du client. indications. Les raisons pour lesquelles une enquête sur une fraude. Il peut exister des difficultés à essayer des transactions particulières ont été Les principes de non-répudiation exigent de mettre en corrélation des données refusées peuvent indiquer des besoins très que ces modifications soient enregistrées provenant de différentes sources, ce qui spécifiques, tels que la nécessité de fournir en tant qu’événements supplémentaires, nécessite un examen au cours du processus des informations et une éducation ciblées, de conception de la base de données. une défaillance technique ou une lacune plutôt que de tenter de modifier des Par exemple, même lorsque l’ORM fait dans la conception de services qui doit enregistrements précédemment finalisés. partie de la même organisation que être modifiée pour offrir une expérience Par exemple, si une commission doit être le prestataire de SFN, le partage de utilisateur plus intuitive. récupérée auprès d’un agent, cela doit être données peut être un problème car les enregistré explicitement comme étant une deux systèmes ne sont pas conçus pour Pour effectuer ces analyses évoluées, activité distincte (mais liée), plutôt que de se fournir mutuellement des services tout élément d’information sur toutes les payer sans aucune mention un plus petit d’information. Essayer rétrospectivement interactions du système doit être recueilli montant, ou simplement modifier le fichier de lier les données de télécommunications et stocké, même si son utilité n’est pas de la commission à payer. d’une interaction du système client immédiatement évidente. 78 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Source unique de la vérité : Quand il peut se fier. Travailler sur ces détails fait du comportement et des caractéristiques existe plusieurs systèmes, il est courant partie d’un projet qui combine et compare passés des emprunteurs pour prédire d’avoir les mêmes données en double à les sources d’information ; il est également le comportement futur d’emprunteurs plusieurs endroits. Cela est souvent dû important de comprendre clairement si nouveaux et existants.25 L’émergence des au fait qu’il est difficile de combiner des un enregistrement est définitif ou s’il peut mégadonnées et les sources et formats sources de données de toute autre manière encore être mis à jour. Traiter de façon de ces données ont permis des approches avec l’infrastructure actuelle. Cette incorrecte un enregistrement non-définitif supplémentaires du processus de notation duplication des données peut entrainer comme définitif peut causer des ravages du risque de crédit. L’intégration de ces des problèmes concernant « la source dans l’analyse des données, inspirant sources de données alternatives conduit de vérité », autrement dit, des questions ainsi la méfiance quant à l’intégrité de à des modèles de notation du risque de sur la source de données à laquelle on la plateforme. crédit alternatifs. Cette section se penche peut se fier lorsque les informations sont sur la façon dont les données façonnent contradictoires. Tous les systèmes sont 1.2.3 Analyses et la notation du risque de crédit, et quels parfois sujets à des erreurs, et lorsqu’il types de données fonctionnent mieux existe un conflit sur les détails d’une applications : Notation pour différents besoins. Les relations transaction ou un débat pour savoir si les du risque de crédit fondamentales de notation du risque de fonds ont été transférés, il doit exister un La notation du risque de crédit peut être crédit sont présentées sous forme de ligne accord clair sur les données auxquelles on largement décrite comme étant l’étude chronologique dans la figure ci-dessous. Passé Présent Avenir Caractéristiques Caractéristiques Comportement de l’emprunteur de l’emprunteur en matière de remboursement de prêts Comportement en matière de remboursement de prêts Figure 18: Définition de la notation du risque de crédit selon une ligne chronologique 25 Schreiner, « Credit scoring for microfinance : Can it work? », Journal of Microfinance/ESR Review, Vol. 2.2 (2009) : 105-118 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 79 1.2_APPLICATION DE DONNÉES Voici les principaux points illustrés à la Un manuel complet peut être écrit sur la la même combinaison de caractéristiques figure 18 : notation du risque de crédit, et plusieurs d’emprunteurs étaient « mauvais ». textes approfondis et accessibles ont de 1. Passé : Les données (ou, en leur absence, Il est important de mener des analyses fait été publiés sur le sujet au cours de la l’expérience) sont étudiées pour tant sur les bons que sur les mauvais prêts. dernière décennie.26 Le CGAP a lui aussi comprendre quelles caractéristiques L’étude des relations de risque en matière publié récemment une introduction à la de l’emprunteur sont les plus de données de crédit consiste simplement notation du risque de crédit dans le cadre significativement liées au risque de à regarder le nombre de bons et de mauvais des services financiers numériques.27 Aux remboursement. Cette étude du passé prêts selon différentes caractéristiques fins de ce manuel, le reste de cette section éclaire le choix des facteurs et indique des de l’emprunteur. Plus il existe de mauvais pondérations dans la fiche d’évaluation. sur le crédit s’axe sur : prêts en pourcentage du total des prêts 2. Présent : La fiche d’évaluation (conçue à 1. La façon dont les données sont converties pour une caractéristique d’emprunteur partir des données sur les caractéristiques en notations de crédit donnée, plus le risque est élevé. passées d’un emprunteur) est utilisée 2. La façon dont les données sont utilisées pour évaluer les mêmes caractéristiques Le tableau croisé, ou tableau de corrélation, pour relever les défis d’évaluation du des nouveaux demandeurs de prêt. Le est un simple outil d’analyse qui peut crédit sur les marchés en développement résultat est un score numérique qui est être utilisé pour créer et gérer des fiches utilisé pour situer le demandeur dans un d’évaluation de crédit. Le tableau 4 Conception de fiches d’évaluation « groupe de risque » ou une fourchette ci-dessous indique le nombre de bons et Les fiches d’évaluations de crédit sont de notations correspondant à une mauvais selon les plages de valeurs pour constatation de taux de remboursement conçues en étudiant un échantillon de un exemple de champ de données d’ORM ; similaires. données sur des prêts antérieurs qui ont dans ce cas, il s’agit du temps écoulé depuis été classés comme « bons » ou « mauvais ». 3. Avenir : Le modèle suppose que les l’inscription au réseau mobile. Supposons Une définition courante des « mauvais » nouveaux candidats avec les mêmes que l’on s’attende à ce que les candidats prêts (ou prêts « de qualité inférieure ») est caractéristiques que les emprunteurs ayant une expérience plus longue sur le « 90 jours consécutifs ou plus d’arriérés de passés auront le même comportement réseau mobile représentent un plus faible de remboursement que ces emprunteurs paiement »28 mais pour la conception de risque (habituellement les antécédents du passé. Par conséquent, le taux fiches d’évaluation, un mauvais prêt doit plus longs, que ce soit en matière d’emploi, de situation de prêt non remboursé être décrit comme un prêt (avec le recul) d’activité, de résidence ou en tant que constaté dans le passé pour un groupe que les institutions financières choisissent clients de la banque, sont liés à un risque de risque donné est le taux de situation de ne pas accorder à l’avenir. Pour chaque plus faible). de prêt non remboursé prévu pour les nouveau demandeur de prêt, le modèle nouveaux emprunteurs dans ce même de notation calcule et compte quel groupe de risque. pourcentage des emprunteurs passés ayant 26 Voir par exemple : Siddiqi, « Credit risk scorecards: developing and implementing intelligent credit scoring », John Wiley and Sons, Vol. 3 (2012). Anderson, « The credit scoring toolkit: Theory and practice for retail credit risk management and decision automation », Oxford University Press, 2007 27 « An Introduction to Digital Credit: Resources to Plan a Deployment, » Consultative Group to Assist the Poor via Slide Share, 3 juin 2016, consulté le 3 avril 2017, http://www.slideshare.net/CGAP/an-introduction-to-digital-credit-resources-to-plan-a-deployment 28 Pour les SFN et les microprêteurs, la définition du « mauvais » prêt peut souvent correspondre à une période de défaillance beaucoup plus courte, par exemple 30 ou 60 jours consécutifs d’arriérés. La conception du produit (notamment les pénalités et les frais de retard) et le travail consacré au processus de collecte influenceront le seuil à partir duquel il vaut mieux éviter un client, considéré comme « mauvais ». 80 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Ligne <= 2 mois > 2 mois et > 1 an et > 2 ans et > 3 ans Total de la <= 1 an <= 2 ans <= 3 ans ligne A Bons 115 161 205 116 203 800 B Mauvais 48 48 50 24 30 200 C Taux de 29.4% 23.0% 19.8% 17.3% 12.7% 20.0% « mauvais » D Total 163 210 255 140 233 1,000 E % du total des 16.3% 21.0% 25.5% 14.0% 23.3% prêts Tableau 4 : Tableau croisé des prêts Le tableau 4 peut se lire comme suit : rapport au taux de « mauvais » de 20 pour et bien compris par la direction. Une cent (en moyenne) selon le temps écoulé autre approche de la conception de fiche Ligne A : Nombre de bons contrats dans le depuis l’inscription : d’évaluation est l’exploration de données, ou groupe (colonne) l’utilisation d’algorithmes d’apprentissage Ligne B : Nombre de mauvais contrats • Moins de 2 mois, le taux de « mauvais » automatisé plus complexes pour toutes les dans le groupe (colonne) est de 29 pour cent, une fois et demie la relations dans un ensemble de données, Ligne C : Nombre de mauvais contrats moyenne. qu’elles soient comprises par un analyste (ligne B)/Nombre total de contrats (ligne D) • Entre 1 an et 2 ans, le taux de « mauvais humain ou non. Bien qu’une approche Ligne D : Nombre total de contrats (ligne » est de 19,8 pour cent, ou un risque d’apprentissage automatique pur pourrait A + ligne B) moyen. entrainer une amélioration des prévisions Ligne E : Total des contrats dans le groupe • Plus de 3 ans, le taux de « mauvais » est dans certaines situations, il existe aussi (colonne) divisé par tous les contrats de 12,7 pour cent, un peu plus de la moitié des avantages difficiles à mesurer mais (1 000) du risque moyen. pratiques, pour la gestion des entreprises et des risques, à bien comprendre comment Pour effectuer l’analyse, l’étape suivante Dans la conception classique de fiches les notations sont calculées. consiste à rechercher des modèles d’évaluation de crédit, les analystes raisonnables et intuitifs. Par exemple, le recherchent des modèles simples, Des tableaux croisés ou une analyse taux de « mauvais » à la ligne C du tableau notamment la hausse ou la baisse similaire des prédicteurs simples est la clé 4 diminue clairement à mesure que le constante des taux de « mauvais », qui de voute des modèles de notation du risque temps écoulé depuis l’inscription au réseau sont commercialement raisonnables. de crédit.29 La création de tableaux croisés augmente. Cela correspond à l’attente Les fiches d’évaluation de crédit ainsi comme ceux illustrés dans l’exemple ci- initiale. Pour se représenter facilement conçues conviennent bien à une dessus est facile en utilisant un logiciel le risque de chaque groupe, il suffit utilisation opérationnelle en tant qu’outils de statistiques commercial ou le logiciel d’examiner son taux de « mauvais » par commerciaux qui sont à la fois transparents gratuit open-source « R ». 29 En fait, les coefficients de régression logistique peuvent être calculés directement à partir d’un tableau croisé pour une seule variable ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 81 1.2_APPLICATION DE DONNÉES Cas d’utilisation : Conception des d’évaluation favorise non seulement des de « mauvais » le plus élevé pour tous les fiches d’évaluation modèles simples, mais signifie également groupes (ici, il est de 30,9 pour cent pour Les points d’une fiche d’évaluation sont qu’un prestataire de SFN axé sur les les « 23 ans ou moins »), qui est ensuite des transcriptions des modèles de taux données doit d’abord se concentrer sur multiplié par 100 (pour obtenir des de «mauvais » observés dans des tableaux la saisie, le nettoyage et le stockage de nombres entiers plutôt que des nombres croisés. Bien qu’il existe de nombreuses données en plus grande quantité et de décimaux). Les résultats (indiqués en ligne méthodes mathématiques pouvant meilleure qualité. F) peuvent être utilisés comme points être utilisées pour concevoir des fiches dans une fiche d’évaluation statistique. Le tableau 5 ci-dessus est un autre tableau Dans un tel système de points, le groupe d’évaluation (voir chapitre 1.2.3), différentes méthodes donnent des résultats similaires. croisé, cette fois pour le facteur « âge ». le plus risqué recevra toujours 0 points et Ceci pour la simple raison que la puissance Comme le tableau précédent, les taux de le groupe au risque le plus faible (c.-à-d. le prédictive du modèle de notation statistique « mauvais » dans la ligne C représentent le groupe avec le taux de « mauvais » le plus ne provient pas du calcul mais de la solidité risque (le taux de « mauvais »), qui diminue bas) recevra le plus de points. des données elles-mêmes. Avec des à mesure que l’âge augmente. données suffisantes sur les caractéristiques Pour les fiches d’évaluations conçues en Différences des taux de « mauvais » utilisant une régression (voir chapitre 1.1), pertinentes de l’emprunteur, des méthodes simples produiront un bon modèle et des Une façon très simple de transformer des la transformation des coefficients de méthodes complexes peuvent produire un taux de « mauvais » en points de fiche régression en des points positifs nécessite modèle un peu meilleur. S’il n’existe pas de d’évaluation est de calculer les différences quelques étapes supplémentaires. Les bonnes données (ou trop peu de données), entre les taux de « mauvais ». Comme le calculs ne sont pas détaillés ici, mais les aucune méthode ne produira de bons montre la ligne G, le taux de « mauvais » résultats du classement sont très similaires, résultats. En vérité, la conception de fiches pour chaque groupe est soustrait du taux comme le montre la ligne H. Ligne 23 ans ou moins 24 à 30 ans 31 à 47 ans 48 ans ou plus Total A Bons 46 238 374 142 800 B Mauvais 20 74 82 23 200 C Taux de « mauvais » 30.9% 23.8% 18.0% 14.0% 20.0% D Total de la colonne 66 312 456 166 1,000 Pourcentage du E 6.6% 31.2% 45.6% 16.6% total des prêts F POINTS 0 7 13 17 Calcul G (0.309 - 0.309) = 0 (0.309 - 0.238) = 7 (0.309 - 0.18) = 13 (0.309 - 0.14) = 17 [multiplié par 100] H POINTS LOGIT 0 10 21 29 Table 5: Ci-dessus est un autre tableau croisé, cette fois pour le facteur « âge ». Comme le tableau précédent, les taux de « mauvais » dans la ligne C représentent le risque (le taux de « mauvais »), qui diminue à mesure que l’âge augmente. 82 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Les facteurs qui obtiennent le plus de points dans les fiches d’évaluation de crédit Plus les différences de taux de « mauvais » entre les groupes sont importantes, plus un facteur de risque reçoit de points dans une fiche d’évaluation. En utilisant la méthode simple des différences de taux de « mauvais » (décrite ci- dessus), on voit dans le tableau 6 ci-dessous que la « notation de crédit bureau » peut avoir un maximum de 39 points, tandis que la « situation familiale » peut avoir un maximum de huit points. Il existe en effet des différences beaucoup plus importantes entre les taux de « mauvais » les plus élevés et les plus bas pour les antécédents de crédit qu’il n’en existe pour la situation familiale. Notations de bureau de crédit < 590 590 - 670 671 - 720 > 720 Échantillon de taux de Groupe Points Points Points Points « mauvais » Taux de « mauvais » 39% 23% 13% 0% 20% POINTS 0 16 26 39 Situation familiale Échantillon de taux de Groupe Divorcé Célibataire Marié Veuf « mauvais » Taux de « mauvais » 25% 24% 19% 17% 20% POINTS 0 1 6 8 Tableau 6 : Exemples de l’importance des facteurs des fiches d’évaluation Puisque le classement des risques dans tous les algorithmes est souvent très similaire, de nombreux professionnels préfèrent, dans la pratique, utiliser des méthodes plus simples. L’auteur David Hand, spécialiste de la notation du risque de crédit, a souligné que « les méthodes simples produisent généralement des performances presque aussi bonnes que les méthodes plus sophistiquées, au point où la différence de performance peut être dépassée par d’autres sources d’incertitude qui ne sont en général pas prises en compte ».30 La pratique généralisée de longue date de régression logistique pour la notation du risque de crédit témoigne de la facilité avec laquelle ces modèles peuvent être présentés sous forme de fiche d’évaluation. Ces fiches d’évaluation sont bien comprises par la direction et peuvent être utilisées pour gérer de façon proactive les risques et les bénéfices des prêts. 30 David Hand, « Classifier technology and the illusion of progress », Statistical Science, Vol. 21.1 (2006) : 1-14. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 83 1.2_APPLICATION DE DONNÉES Fiche d’évaluation d’experts Quand il n’existe pas de données historiques, mais que le prestataire a une bonne compréhension des caractéristiques de l’emprunteur qui déterminent le risque dans le segment, une fiche d’évaluation d’experts peut réussir à établir raisonnablement un classement des risques que représentent des emprunteurs. Une fiche d’évaluation d’experts utilise des points pour classer les emprunteurs en fonction du risque, tout comme une fiche d’évaluation statistique le fait. La principale différence (et elle est de taille) est que sans données antérieures, notamment les données sur les situations de prêt non remboursé, il n’existe aucun moyen pour l’IF de savoir avec certitude si sa compréhension (ou son attente) des relations en matière de risque est correcte. Par exemple, si l’on sait que l’âge est un facteur de risque significatif pour les prêts à la consommation et que nous avons constaté (dans la pratique) que le risque diminue généralement avec l’âge, on pourrait créer des groupes d’âge semblables à ceux du tableau 5. Dans ce scénario, nous attribuons des points en utilisant un schéma simple où le groupe perçu comme le plus risqué obtient toujours zéro point et le groupe au risque le plus faible obtient toujours 20 points. Dans ce cas, une pondération de la fiche d’évaluation d’experts de la variable « âge » pourrait ressembler au tableau 7. Ces points ne sont pas si différents des points statistiques pour l’âge indiqués aux lignes F et H du tableau 5. 23 ans ou moins 24 à 30 ans 31 à 47 ans 48 ans ou plus POINTS 0 7 15 20 Tableau 7 : Points d’« experts » pour l’« âge » Tant que le classement des risques est correct pour chaque facteur de risque dans une fiche d’évaluation d’experts, la notation d’une fiche d’évaluation d’experts classera le risque des emprunteurs de la même façon qu’une fiche d’évaluation statistique le classe.31 Cela signifie que les fiches d’évaluations d’experts peuvent représenter un outil utile pour lancer un nouveau produit pour lequel il n’existe pas de données historiques. Elles sont aussi un bon moyen, pour les prestataires de SFN qui ont l’intention de se fonder sur des données, de récolter quelques fruits de la notation - notamment une meilleure efficacité et cohérence - tout en constituant une meilleure base de données. 31 Habituellement, en utilisant le seul jugement des experts, les prestataires spécifient de manière incorrecte la relation de classement des risques d’un ou plusieurs facteurs. Une fois que les données de performance (remboursement de prêt) sont recueillies, elles peuvent être utilisées pour corriger des relations mal définies, entrainant un meilleur classement des risques du nouveau modèle statistique. 84 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Choisir un ensemble de facteurs marchés. La tableau 8 présente quelques- la gestion des banques, et est compatible de risque uns de ces modèles ainsi que leurs modèles avec les cadres de gestion des risques tels de risque fréquemment observés. que les Accords de Bâle. Bien que les champs de données spécifiques disponibles pour la notation du risque de À mesure que chaque facteur prédictif Le « meilleur » ensemble de prédicteurs crédit varient considérablement selon est ajouté à un modèle multifactoriel, à variables simples est assemblé pour le produit, le segment et le prestataire, son classement des risques s’améliore. former un modèle à plusieurs variables. généralement, les données du modèle de Toutefois, après un nombre relativement Bien que cela puisse être fait à l’aide d’un notations doivent être : faible de bons indicateurs (habituellement algorithme pour maximiser la prévision, 10 à 20), l’amélioration apportée par une approche attrayante pour les • Très pertinentes chaque facteur supplémentaire diminue prestataires de SFN est de choisir une série Faciles • à recueillir de manière assez fortement. Même si nous choisissons de facteurs qui, ensemble, créent un profil délibérément des facteurs qui ne semblent systématique de risque complet pour l’emprunteur,31 pas fortement corrélés les uns aux autres, • Objectives et non auto déclarées conformément aux fameux cinq C du crédit en réalité, bon nombre de facteurs sont Certains types de données ont tendance à : capacité, capital, garantie (« collatéral »), corrélés dans une certaine mesure, ce qui être de bons prédicteurs de remboursement conditions, et caractère. Un tel modèle est provoque la baisse de l’apport des facteurs des prêts pour tous les segments et facile à comprendre pour les banquiers et supplémentaires. Type de données Facteur Relation de risque Achats Le risque diminue à mesure que le revenu disponible augmente Dépôts et chiffre d’affaires du compte Le risque diminue lorsque les dépôts et le chiffre d’affaires augmentent Comportementales Antécédents en matière de crédit Le risque diminue lorsque les antécédents positifs en matière de crédit augmentent Paiement de factures Le risque diminue selon la ponctualité des paiements de factures Temps passé à la résidence, dans l’emploi, La stabilité réduit les risques Historiques l’entreprise Ancienneté en tant que client Les clients ayant une plus longue relation représentent un risque plus faible Le risque diminue avec l'âge et augmente à nouveau autour de l'âge de la retraite Âge (principalement en raison des risques de santé) Situation familiale Les personnes mariées sont plus souvent installées et stables, ce qui réduit le risque Démogra-phiques Un nombre croissant de personnes à charge peut augmenter le risque (en particulier Nombre de personnes à charge pour les personnes seules), mais dans certaines cultures, au contraire, il diminue le risque (plus grand filet de sécurité) Propriété de la maison Les propriétaires sont moins risqués que les locataires Tableau 8 : Données qui sont souvent efficaces pour la notation du risque de crédit 32 Siddiqi, « Credit risk scorecards: developing and implementing intelligent credit scoring, » John Wiley and Sons, Vol. 3 (2012). ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 85 1.2_APPLICATION DE DONNÉES Lorsqu’une IF dispose de suffisamment de Cette section examine la façon dont les particulier en Afrique et en Asie - a créé des données, elle doit privilégier les points de données sont utilisées pour surmonter historiques numériques vérifiables par des données qui : quelques-unes des difficultés qui ont tiers de véritables modèles de paiement, longtemps été des obstacles à l’inclusion tels que les recharges et les paiements • Sont objectifs et peuvent être observés financière. Ce sont en particulier les d’argent mobile. Ces données, détenues directement, plutôt que suscités par le données numériques générées par les par les ORM, offrent un aperçu des flux demandeur téléphones portables, l’argent mobile et de trésorerie d’un utilisateur de SIM. Les • Prouvent des relations au risque de crédit terminaux de PDV et les caisses d’argent l’Internet qui permettent à des millions de qui confirment un jugement d’expert ou personnes qui n’ont jamais eu de comptes mobile peuvent également peindre un intuitif bancaires ou de prêts bancaires de se faire tableau un peu plus complet des flux de • Sont moins couteux à recueillir trésorerie pour les commerçants. connaitre par les IF formelles. • Peuvent être recueillis auprès de la plupart sinon de tous les demandeurs Les études de cas qui suivent enquêtent sur • N’opèrent pas de discriminations fondées la façon dont les ORM, les réseaux sociaux sur des facteurs que l’emprunteur ne et les données bancaires traditionnelles peut pas contrôler (c.-à-d. l’âge, le sexe, ont été utilisées pour lancer de l’apparence) ou qui sont potentiellement nouveaux produits, pour aider davantage source de division (c.-à-d. la religion, d’emprunteurs à devenir éligibles à des Lorsque vous savez combien l’origine ethnique, la langue) prêts formels et pour évaluer les petites entreprises, qui sont moins homogènes d’argent une personne ou Cas d’utilisation : Les nano-crédits société manipule de façon que les consommateurs individuels. Puisque les banques doivent déclarer les quotidienne, hebdomadaire et remboursements de nano-crédits aux Défi du crédit n˚ 1 : Vérification des bureaux de crédits et banques centrales, revenus et dépenses mensuelle, vous pouvez mieux les nano-crédits ont fait entrer des estimer quelle taille de prêt elle Un important défi du prêt de détail dans les millions de personnes qui ne bénéficiaient sera en mesure de rembourser. marchés en développement est l’obtention auparavant pas d’accès aux banques dans de données fiables sur les flux de trésorerie le secteur financier formel à travers le des nouveaux clients, pour les personnes monde, en établissant des antécédents Les deux cas suivants examinent comment de crédit qui sont un tremplin pour comme pour les entreprises. Les flux de les données numériques ont permis d’ouvrir ouvrir l’accès à d’autres types de produits trésorerie, ou les revenus restants après d’immenses marchés pour les nano-crédits de prêt. Cependant, certains craignent déduction des frais, sont la principale à la consommation. que les nano-crédits créent un cycle source de remboursement du prêt et d’endettement pour les personnes à faible donc un point central des modèles de revenu. Plusieurs millions de personnes prêts au détail. Les niveaux de revenu sont avec de mauvaises expériences en matière également utilisés pour déterminer quel de nano-crédits pourraient se retrouver montant de financement un individu peut sur la liste noire de leurs bureaux de se permettre. crédits locaux, ce qui confirme d’autant plus la nécessité d’une protection des La croissance de la téléphonie mobile consommateurs. et l’utilisation de l’argent mobile - en 86 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES CAS 10 M-Shwari lance un marché pour les nano-crédits Solutions de données pour évaluer la solvabilité des emprunteurs sans antécédents de crédit formels La Commercial Bank of Africa Modélisation de l’inconnu sur les classements des risques des (CBA) et l’opérateur de téléphonie La technologie de notation de risque emprunteurs. Voir l’encadré de mobile Safaricom ont été les premiers de crédit examine les caractéristiques rappel en 84. à reconnaitre la puissance du et le comportement de remboursement Une autre façon d’utiliser la notation téléphone mobile et des données de passés de l’emprunteur afin de prévoir de risque de crédit avec un nouveau l’argent mobile. le remboursement futur du prêt. produit est d’étudier un ensemble Qu’en est-il du cas où il n’existe pas de données client pertinentes, telles M-Shwari, le premier produit de comportement de remboursement que les données des ORM, en les d’épargne et de prêt numérique très passé ? Les ORM possèdent des comparant aux informations de prospère, est bien connu des adeptes données détaillées sur les téléphones remboursement de prêt, telles que : des entreprises de technologie mobiles de leurs clients et, dans de financière et de l’inclusion financière. nombreux cas, de l’utilisation de • Antécédents généraux en matière l’argent mobile, mais déterminer de crédit ou rapport de bureau : Il a accordé de petites limites de comment ces données peuvent être Cela ne fonctionne que pour les crédit sur les téléphones mobiles utilisées pour prédire la capacité et clients qui ont un dossier auprès appelées nano-crédits à des millions la volonté de rembourser un prêt du bureau. d’emprunteurs, en les faisant ainsi sans données sur le paiement des entrer dans le secteur financier • Produits de crédit similaires : Un obligations passées est moins clair. formel. Des produits similaires autre produit de crédit suffisamment Par définition, il n’existe pas de similaire pour être pertinent par ont depuis été lancés dans d’autres données antérieures spécifiques à rapport au nouveau produit peut régions d’Afrique, et une nouvelle un produit qui est nouveau. Une être utilisé comme référence. Bien concurrence s’est entassée sur façon d’utiliser encore la notation que le remboursement passé de ce le marché au Kenya. L’histoire produit puisse être représentatif de risque de crédit avec un nouveau de M-Shwari est également une produit est d’utiliser le jugement et ou non des remboursements excellente étude d’un exemple les connaissances sur le sujet d’un futurs du nouveau produit, il peut d’utilisation de données de façon expert pour concevoir une « fiche représenter une approximation créative pour faire entrer un nouveau d’évaluation d’expert », un outil qui acceptable, ou « indirecte », à des produit sur le marché. oriente les décisions de prêt fondé fins de modélisation initiale. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 87 1.2_APPLICATION DE DONNÉES La première fiche d’évaluation de Jahzi représenteraient moins de rapidement possible en utilisant le M-Shwari a été conçue à partir de risques pour le produit de prêt plus comportement de remboursement données Safaricom et de l’historique important. du produit M-Shwari lui-même. de remboursement des clients qui Certains comportements prédictifs avaient utilisé ses produits de crédit Le premier modèle de notation de de l’utilisation du crédit de temps de temps de communication Okoa risque de crédit M-Shwari développé de communication ne se traduisent Jahazi.33 Les deux produits étaient avec les données d’Okoa Jahazi,34 pas directement en utilisation de nettement différents, comme le accompagné de politiques de limites M-Shwari, et des changements montre Tableau 9 ci-dessous. prudentes et de processus d’entreprise appropriés au modèle en fonction bien conçus, a permis le lancement du Le produit M-Shwari a offert aux des données d’utilisation réelle du produit, qui est rapidement devenu un emprunteurs plus d’argent, de produit M-Shwari ont réduit les immense succès. souplesse d’utilisation et de temps prêts non productifs de 2 pour cent. pour rembourser. L’hypothèse était La CBA s’attendait à ce que la fiche M-Shwari continue à mettre à jour sa que ceux qui avaient utilisé avec d’évaluation fondée sur les données fiche d’évaluation périodiquement en succès les très modestes prêts Okao d’Okoa Jahazi soit reconçue le plus fonction des nouvelles informations. Produit Okao Jahzi M-Shwari Montant Le chiffre le plus bas entre le temps de 100 à 10 000 shillings kenyans communication dépensé au cours des 7 derniers jours, ou 100 shillings kenyans Objectif Utilisé uniquement pour le temps de Utilisé à toute fin communication Condition de remboursement 72 heures 30 jours Tableau 9 : Okao Jahzi et la comparaison des produits M-Shwari Le lancement et la conception réussis de M-Shwari montrent qu’il existe des façons d’utiliser des solutions de notation fondées sur les données pour des segments entièrement nouveaux. Il renforce également le bien- fondé général de la notation de risque de crédit qui veut qu’une fiche d’évaluation fasse l’objet d’un travail permanent. Peu importe le degré d’efficacité d’une fiche d’évaluation quant aux données de conception, elle doit être suivie et gérée en utilisant des rapports standards et être affinée à chaque fois qu’il existe des changements importants des risques de marché ou des types de clients qui demandent le produit. 33 Cook et McKay, « How M-Shwari works: The story so far », Groupe consultatif d’assistance aux plus pauvres et Financial Sector Deepening 34 Mathias, « What You Might Not Know, » Abacus, 18 septembre 2012, consulté le 3 avril 2017, https://abacus.co.ke/okoa-jahazi-what-you-might-not-know/ 88 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Le produit de nano-crédit M-Shwari a réussi grâce à la confluence en temps voulu de : • L’accès aux données des ORM : La CBA avait un avantage du premier entrant en raison de son partenariat solide avec Safaricom. Aujourd’hui, Safaricom vend ses données d’ORM à toutes les banques du Kenya. • Un produit bien conçu : Les produits modestes à court terme correspondent mieux à la notation de risque de crédit, en particulier pour les nouveaux produits. Le retour d’information rapide sur la performance de remboursement de la population cible permet la modification du modèle en temps voulu et contrôle le risque. • De bons systèmes et les bonnes personnes : L’équipe de direction de M-Shwari est modeste et flexible, se composant d’une série unique de compétences de gestion et de compétences techniques, ainsi que de systèmes assurant une mise en œuvre sans heurts. Mobilisation • des ressources extérieures : Financial Sector Deepening (FSD) Kenya a soutenu la CBA avec une expertise de modélisation des risques essentielle pour développer le premier modèle de notation et transférer des compétences à l’équipe de M-Shwari. Alors que l’histoire de la réussite de M-Shwari est source d’inspiration, il existe de nombreux prestataires de SFN qui souhaiteraient entrer dans la sphère du nano-crédit, mais ils pourraient être confrontés à des difficultés. Ces prestataires de SFN peuvent ne pas avoir de relations avec les ORM ou ne pas avoir la capacité interne requise pour concevoir de l’épargne numérique, des produits de prêts et des modèles de notation. Le cas suivant décrit comment les fournisseurs facilitent l’entrée des prestataires de SFN sur le marché de masse des nano-crédits. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 89 1.2_APPLICATION DE DONNÉES CAS 11 Tiaxa, l’approche de nano-crédits clé en main Développement de produits et de services de données par le biais de services d’abonnement externalisés Reconnaissant que de nombreuses Tiaxa réunit les IF et les ORM et situation de prêt non remboursé, IF sur les marchés en développement forme des partenariats à trois dans ce qui est divulgué aux emprunteurs ne disposent pas des ressources lesquels : dans les conditions générales du nécessaires pour aborder le marché produit. Leur modèle économique de • Les ORM fournissent les données partenariat à long terme fonctionne des SFN en n’utilisant que des qui définissent leurs modèles de à des conditions qui varient, de ressources internes, Tiaxa propose décision de crédit l’intéressement aux bénéfices à des ses NanoCredits™ brevetés dans le cadre d’une solution « clé en main » • Les IF fournissent les licences de modèles de frais par transaction. qui comprend les éléments suivants : prêt (et la réglementation du secteur financier formel) et le financement Données qui déterminent les modèles • Conception de produit nécessaires de notation de Tiaxa • Acquisition de clients (fondée Bien que les ensembles de données • Tiaxa fournit la solution de produit sur des modèles de notation des ORM varient selon les pays de nano-crédit de bout en bout propriétaires) et les marchés, les ensembles de • Gestion du risque de crédit de En plus de fournir les modèles données qui informent les modèles portefeuille de conception et de notation des propriétaires de Tiaxa comprennent produits fondés sur les données des habituellement une combinaison des Déploiement de matériel et de • ORM, dans la plupart des cas, Tiaxa types de données suivantes : logiciels assume et gère le risque de crédit • Gestion du service jour et nuit du portefeuille. Le risque de perte Facilité • de financement du est géré en débitant directement les portefeuille (sur certains marchés comptes des ORM des emprunteurs africains) pour résoudre le problème de 90 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Utilisation du GSM Paie, paiements Virements Informations de Paiements des Dépôt en espèces réguliers Bancaires la KYC services collectifs • Fréquence, montants • Paie, subventions • Fréquence et valeur • Nom complet • Indicateur de flux de • Informations sur les des recharges trésorerie flux de trésorerie • Flux de trésorerie, • Réception ou envoi ? • Type de compte • Informations sur la besoins en crédit • Connaissances • Date d’inscription financières consommation GSM • Situation quant à la KYC • Date de naissance, région Tableau 10 : Types de données informant les modèles propriétaires de Tiaxa Tiaxa utilise une série de méthodes pour chaque engagement. Tiaxa a utilisateurs finaux. Aujourdhui, la d’apprentissage automatique pour maintenant plus de 60 installations, société traite plus de 12 millions de réduire des centaines de prédicteurs avec 28 clients, répartis dans 20 pays, nano-crédits par jour dans le monde potentiels en un modèle optimal. en 11 groupes d’ORM, qui, entre entier, principalement sous forme de Des modèles personnalisés sont conçus eux, représentent plus d’1,5 milliard prêts de temps de communication. À mesure que le paysage d’analyse des données évolue, des fournisseurs tiers doivent développer des solutions clé en main qui puisent dans les sources de données internes et apportent de la valeur aux produits existants. Les entreprises qui ne parviennent pas à investir dans l’analyse de données personnalisée ou qui préfèrent une approche attentiste peuvent être en mesure de tirer parti des services d’abonnement à l’avenir en exportant les données à des fournisseurs externes. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 91 1.2_APPLICATION DE DONNÉES Pour les IF, le choix entre travailler avec prestataires de SFN pour recueillir des Ces sources de données en ligne non des fournisseurs ou directement avec données sur de nouveaux candidats est traditionnelles peuvent être et sont les opérateurs mobiles pour atteindre le de leur demander de fournir directement utilisées pour offrir des services de segment des nano-crédits ne peut être les informations. Ces demandes peuvent vérification d’identité et des notations de fait qu’en tenant compte des conditions crédit. L’histoire de l’entreprise d’analyse prendre la forme de : et des ressources disponibles sur le de réseau social Lenddo fournit davantage marché. Certains des avantages et des • Formulaires de demande d’éléments de contexte et une indication inconvénients de chaque approche sont de la façon dont les données des réseaux • Enquêtes présentés ci-dessous. sociaux peuvent ajouter de la valeur dans • « Autorisations » pour accéder aux le processus de crédit. Cas d’utilisation : Les données données des appareils : Cela peut inclure alternatives des autorisations pour accéder au Les sources de données alternatives sont contenu des médias, journaux d’appels, prometteuses en matière de vérification contacts, communications personnelles, d’identité et d’évaluation des risques informations de localisation ou profils de de base. Un autre moyen utilisé par les réseaux sociaux en ligne Approche Opportunités. Défis Travailler avec les données des • Contrôle total des produits Besoin de compétences internes en matière de : ORM • Potentiellement plus rentable • Développement de produits • Modélisation des risques Besoin de systèmes et de logiciels pour gérer les produits de SFN Travail avec un fournisseur • Fournit le savoir-faire en matière de produit, de • Dépendance du fournisseur modélisation et de systèmes • Les détails du modèle peuvent ne pas être communiqués • Prend les décisions de prêt • Compétences techniques non transférées • A des solutions logicielles prêtes à l’emploi Tableau 11 : Travailler avec des ORM ou des fournisseurs : Opportunités et défis 92 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES CAS 12 Lenddo exploite les données de réseaux sociaux pour vérifier l’identité et établir des profils de risque Utilisation de techniques analytiques évoluées et de sources de données alternatives pour les nouveaux produits Les co-fondateurs de Lenddo, Jeffrey services bancaires – et moins de 10 demandeur sont consultées, extraites Stewart et Richard Eldridge, ont pour cent d’entre eux les utilisaient- et notées, puis détruites (plutôt à l’origine eu l’idée de ce service ils étaient « invisibles » pour les IF que stockées) par Lenddo. Pour un dans le secteur de l’externalisation formelles et incapables d’obtenir un candidat typique, son téléphone des processus d’entreprise aux crédit. En développant leur idée, les peut contenir des milliers de points Philippines en 2010. Ils ont été fondateurs de Lenddo ont tout de de données parlantes quant à son surpris par le nombre d’employés qui suite remarqué que leurs employés comportement personnel : leur demandaient régulièrement des étaient des utilisateurs fervents de la avances de salaire et se demandaient technologie et présents sur les réseaux • Trois degrés de connexions sociales pourquoi ces jeunes personnes sociaux. Ces plateformes génèrent de • Activité (photos et vidéos affichées) brillantes, avec un emploi stable, ne grandes quantités de données, dont • Membres de groupes parvenaient pas à obtenir de prêts l’analyse statistique qu’ils pensaient auprès d’IF. obtenir pourrait aider à prédire la Intérêts • et communications solvabilité d’un individu. (messages, e-mails et tweets) Le défi particulier aux Philippines était que le pays n’avait ni bureau Les demandeurs de prêt de Lenddo Plus de 50 éléments à travers tous de crédit, ni numéros d’identification donnent l’autorisation d’accéder aux les profils de réseaux sociaux nationaux. Si les personnes données stockées sur leur téléphone fournissent 12 000 points de données n’utilisaient pas de comptes ou de mobile. Les données brutes du par utilisateur moyen : Sur les cinq réseaux sociaux : 7 900 communications de messages totales et + • 250 connexions de premier degré et + • 250 connexions de premier degré et + • 800 connexions de deuxième degré et + • 5 200 messages Facebook et +, 1 100 « j’aime » sur Facebook et + • 2 700 connexions de troisième degré et + • 400 mises à jour de statut Facebook et +, 600 commentaires • 372 photos, 18 vidéos, 13 groupes, 27 intérêts, 88 liens, 18 tweets Facebook et + • 250 e-mails et + Tableau 12 : Moyennes de points de données de réseaux sociaux par utilisateur moyen ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 93 1.2_APPLICATION DE DONNÉES Utilisation des données de prêt numériques, pour lesquels La plateforme d’ARS de Lenddo a été La confirmation de l’identité il n’y a pas de contact personnel utilisée pour fournir une vérification d’un emprunteur est un élément lors du processus de souscription. d’identité en temps réel en quelques important pour accorder un crédit Un exemple de la collaboration de secondes en fonction du nom, de la Lenddo avec le plus grand ORM aux date de naissance et de l’employeur. aux candidats sans antécédents de Philippines est présenté ci-dessous. Cette amélioration de l’expérience crédit. L’application pour tablettes de client a réduit les fraudes et les erreurs Lenddo demande aux demandeurs de Lenddo a travaillé avec un grand potentielles causées par l’intervention prêt de remplir un court formulaire ORM pour augmenter la part des humaine, et a réduit le cout total du numérique leur demandant leur forfaits post payés qu’elle pouvait processus de vérification. nom, date de naissance, numéro de offrir à ses 40 millions d’abonnés téléphone principal, adresse e-mail En plus de ses modèles de vérification aux services prépayés (90 pour cent principale, école et employeur. Les d’identité, Lenddo utilise une gamme du total des abonnés). L’admissibilité demandeurs sont ensuite invités à de techniques d’apprentissage au forfait post payé dépendait de la automatique pour cartographier intégrer Lenddo en se connectant réussite de la vérification d’identité, les réseaux sociaux et regrouper les et en donnant des autorisations à et le processus de vérification existant demandeurs selon leurs modèles de Facebook. Les modèles de Lenddo de Telco exigeait que les clients comportement (d’utilisation). Le utilisent ces informations pour aillent dans un magasin et présentent résultat final est un LenddoScore™ vérifier l’identité des clients en moins leur pièce d’identité, qui était ensuite qui peut être utilisé immédiatement de 15 secondes. La vérification numérisée et envoyée à un bureau par les IF pour présélectionner d’identité peut considérablement central pour vérification. Le temps les demandeurs ou pour remplir réduire le risque de fraude, qui est moyen pour achever le processus de et compléter les propres fiches beaucoup plus élevé pour les produits vérification était de 11 jours. d’évaluation de crédit d’une IF. Ces algorithmes convertissent un nombre initialement grand de points de données bruts par client en un nombre gérable de caractéristiques et des comportements des emprunteurs avec des relations connues en termes de remboursement de prêts. 94 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Cas d’utilisation : La notation de systématisé leur saisie, analyse et stockage. de grande taille qui développent et risque de crédit pour les petites Dans le meilleur des cas, un logiciel de LOS entretiennent des modèles, notamment entreprises facilite la saisie numérique de données des modèles distincts pour le soutien traditionnelles pour favoriser l’analyse à la décision de demande, la gestion Les exemples examinés jusqu’à présent ont des données, notamment la conception (comportementale) du portefeuille en cours mis l’accent sur les produits numériques de fiches d’évaluation de crédit. À mesure et le provisionnement. En tant que première destinés aux consommateurs et aux que la chaine de valeur et les paiements de étape de développement de modèles commerçants du marché de masse. Le flux chaine d’approvisionnement se numérisent, internes, les IF peuvent choisir d’utiliser des de données comportementales créées dans il est possible de tirer parti de ces données consultants externes pour mettre sur pied les canaux numériques a naturellement pour effectuer des prévisions de flux de les premiers développements et renforcer généré le plus d’enthousiasme en termes trésorerie et constituer des notations les capacités avec du personnel interne par de possibilités d’analyse de données. de crédit. la suite. Cependant, la plupart des IF ont aussi des possibilités étendues de faire un meilleur De nombreux prestataires de SFN ont des Méthodologies de notation de données, des analystes de données, et usage des données en matière d’analyse risque de crédit des spécialistes informatiques en interne de crédit et de gestion des risques des Les IF ont plusieurs options pour utiliser capables de gérer leurs propres systèmes produits traditionnels et hors ligne qui les données qu’ils recueillent déjà pour de notation. Ces équipes ont toutefois comprennent, mais sans s’y limiter : modéliser le risque de crédit. Trois des tendance à manquer d’expérience en • Les prêts aux consommateurs solutions les plus courantes sont de conception de fiches d’évaluation de crédit. développer des fiches d’évaluation de crédit De bons projets d’analyse de données • Les cartes de crédit propriétaires, grâce à une expertise interne, exigent un savoir d’expert pour réussir. • Les prêts et crédits-bails pour les micros, ou en travaillant avec des consultants Une aide externalisée peut permettre au petites, et moyennes entreprises (MPME) externes, ou en externalisant la notation transfert de connaissances de constituer • Les prêts et crédits-bails pour les petits de risque de crédit à un fournisseur tiers. une expertise en interne dans le cadre de agriculteurs l’appui au projet. Lorsqu’ils travaillent avec Développer des fiches d’évaluation des consultants externes, les prestataires • La chaine de valeur et le financement de de crédit propriétaires de SFN doivent veiller à ce que les outils la chaine d’approvisionnement. Les banques sur les principaux marchés et les compétences nécessaires soient Pour ces produits, les IF recueillent de façon financiers (par exemple l’Afrique du Sud, transférés aux équipes internes de sorte classique une profusion de données, mais l’Amérique du Nord, l’Europe continentale que les fiches d’évaluation puissent être n’ont pas nécessairement numérisé ou et Singapour) emploient des équipes gérées et contrôlées à l’avenir. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 95 1.2_APPLICATION DE DONNÉES Examen plus approfondi des fiches d’évaluations propriétaires Externaliser la notation Un récent projet d’IFC avec une banque en Asie illustre la façon dont le de risque de crédit à un processus peut fonctionner : fournisseur 1. La banque a partagé ses données de portefeuille passées avec le consultant. La plupart des fournisseurs offrent 2. Le consultant a préparé les données pour une analyse par le logiciel libre un développement de modèle de statistiques « R ». personnalisé à l’aide de données de 3. La banque a convoqué un groupe de travail sur la notation de risque de bureau (si elles sont disponibles), des crédit pour qu’il travaille avec le consultant. Dans le cadre d’un atelier, le propres données de la banque, ainsi consultant et le groupe de travail ont analysé et sélectionné des facteurs que des données tierces telles que les de risque pour les fiches d’évaluation de prêts aux consommateurs et données de CDR. Normalement, les micro entreprises. fournisseurs proposent également 4. La banque a recruté un nouvel analyste pour prendre en charge les fiches un logiciel de déploiement de fiche d’évaluation (et l’analyste a également participé aux ateliers « R »). d’évaluation et s’occupent de la 5. Le groupe de travail de notation de risque de crédit et le consultant ont maintenance des modèles pour l’IF. passé en revue les forces et les faiblesses des modèles qui en découlaient La collaboration avec des fournisseurs pour harmoniser les stratégies d’utilisation avec les objectifs commerciaux de notation de risque de crédit et l’appétit pour le risque de la banque. externalise l’expertise en matière de 6. Avec les conseils initiaux du consultant, la banque et son fournisseur de notation et les plateformes logicielles, logiciel local ont développé une plateforme logicielle pour déployer la apportant souvent ainsi de nouvelles fiche d’évaluation. données qui seraient autrement 7. Le consultant a fourni une assistance à distance en matière de suivi et de inaccessibles. Elle apporte également gestion de la fiche d’évaluation. une expérience internationale et une Les avantages et les inconvénients de ces arrangements comprennent : crédibilité immédiate à la solution de notation. Avantages : Inconvénients : Voici un exemple de la collaboration • La Banque acquiert les compétences nécessaires • Cela exige un engagement actif des cadres pour s’approprier les modèles supérieurs et juniors de First Access avec une banque en • La Banque a un contrôle total sur ses fiches • Cela nécessite une formation du personnel Afrique de l’Est sur le segment des d’évaluation ou l’intégration de spécialistes de l’analyse de prêts aux petites entreprises, un Les fiches d’évaluation • sont entièrement données et de la modélisation des risques segment pour lequel les données transparentes • Cela nécessite un logiciel de déploiement d’ORM seules ne suffisent pas pour supplémentaire, tel qu’un LOS avec une évaluer en intégralité le risque de fonctionnalité de notation crédit du demandeur. Le développement en interne signifie des • exigences de maintenance à long terme Tableau 13 : Les avantages et inconvénients des tableaux de bord propriétaires 96 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES CAS 13 First Access : La notation de risque de crédit avec un fournisseur de service complet Externaliser l’expertise en matière de données et travailler avec des partenaires extérieurs Plusieurs IF s’intéressent à la travaillé largement avec Vodacom processus pour tous les demandeurs notation de risque de crédit pour Tanzanie, tirant parti de ses données qui frappaient à sa porte. accroitre la cohérence et l’efficacité d’ORM pour développer un outil de l’évaluation du crédit pour les d’auto-décision pour les prestataires First Access a étudié les historiques petits prêts. Cependant, de moins de SFN qui dessert des clients à faible de données de portefeuille de la en moins d’IF sur les marchés en revenu sans antécédents de crédit banque pour le segment et a créé un développement ont les compétences formels. Depuis lors, elle a étendu sa algorithme de notation n’utilisant en interne pour développer et présence à la RDC, au Malawi, au que les informations disponibles déployer efficacement des fiches Nigeria, à l’Ouganda et à la Zambie, au moment de chaque demande de d’évaluations sans aide extérieure. en concentrant son travail sur les prêt - sans inclure d’autres données solutions de notation pour le segment normalement recueillies lors de visites Comme mentionné précédemment, des micros et petites entreprises. chronophages sur le site de l’entreprise une collaboration avec des du demandeur, une caractéristique fournisseurs de notation de risque First Access a collaboré avec une banque en Afrique de l’Est pour courante d’un processus de de crédit externes externalise développer une fiche d’évaluation souscription de microcrédit. Selon l’expertise en matière de notation et les plateformes logicielles, et apporte pour son activité de (micro) prêts les souhaits de la banque, le modèle également souvent une expérience aux petites entreprises, en se a classé les demandeurs en cinq internationale et une crédibilité consacrant essentiellement aux segments de risque. immédiate à la solution de notation. prêts allant jusqu’à 3 000 USD. La banque prenait en moyenne six jours Un « test à l’aveugle » de tous les First Access est l’un des nombreux pour évaluer les demandes de prêt, microcrédits arrivés à échéance fournisseurs de notation de risque et en plus de longs délais d’attente, décaissés au cours des six derniers de crédit, mais surtout l’un des ses PNP étaient en augmentation. mois a indiqué que les notations rares à mettre l’accent sur les défis Comme beaucoup de banques sur les avaient classé les emprunteurs particuliers auxquels sont confrontés marchés émergents, elle n’avait aucun en fonction du risque, comme les marchés pionniers. Fondée en outil pour la sélection ou la notation l’indiquent les taux de « mauvais » Juillet 2012, la société a d’abord des clients et a donc utilisé un dans le tableau 14 ci-dessous. Segment de risque A B C D E PAR (Portefeuille à risque) 1.00% 3.53% 9.97% 22.42% 26.78% Tableau 14: Classements des emprunteurs de microcrédit en fonction du risque ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 97 1.2_APPLICATION DE DONNÉES En utilisant l’algorithme de notation, élargit l’utilisation de l’algorithme produits de prêt. First Access est en chaque demandeur pouvait être pour effectuer davantage train d’élaborer de nouveaux outils immédiatement noté et affecté à l’un d’approbations et de rejets de prêt le pour sa plateforme afin d’offrir aux des segments de risque. La banque a même jour pour les clients réguliers IF plus de contrôle et de transparence ajusté sa procédure d’évaluation de et les nouveaux clients. Les groupes à pour gérer leurs règles de décision, crédit pour offrir une approbation le service accéléré A et B ont augmenté calcul de notation et seuils de risque, jour même pour ses clients fidèles dans l’efficacité de l’institution en matière avec une surveillance permanente les segments A et B, qui représentaient de souscription de micro-prêts de 18 des performances de l’algorithme. 22 pour cent des demandeurs de pour cent, et les deux groupes ont Ces fiches d’évaluation d’analyse prêts. Le délai d’approbation de ce dépassé les bons résultats de test à des performances peuvent permettre groupe de clients a été réduit d’une l’aveugle, avec un PAR combiné de aux IF de mieux gérer le risque en moyenne de six jours à un jour, ce qui 1,26 pour cent au lieu des 3 pour réponse aux évolutions du marché. a amélioré l’expérience client ainsi cent attendus. que l’efficacité et la satisfaction du Voici certains avantages et La plateforme logicielle First Access inconvénients de l’externalisation de personnel de la banque. permet aux IF de configurer et de gérer la notation de risque de crédit à un Étant donné que les résultats de leurs propres algorithmes de notation fournisseur : l’algorithme ont validé en pratique le personnalisés et d’utiliser leurs test à l’aveugle d’origine, la banque propres données sur leur clientèle et Avantages : Inconvénients : L’accès à des compétences de modélisation de classe mondiale et à • • La banque n’est pas propriétaire du modèle et ne connait habituellement pas l’expérience internationale le calcul de la notation • La fourniture d’un logiciel de déploiement • Les couts permanents d’utilisation du modèle et le développement • Le délai nécessaire potentiellement plus court pour concevoir et mettre en intermittent des modèles œuvre une fiche d’évaluation • Les modèles de tarification pour le développement de notation peuvent ne • La gestion et le suivi de la fiche d’évaluation et du logiciel pas être liés à la souscription des risques Tableau 15 : Les avantages et inconvénients de la sous-traitance de la notation crédit Une approche externalisée pour le développement de produits de données fournit des solutions rapides et un savoir-faire de bon niveau, mais elle peut aussi signifier des risques de maintenance à long terme, des problèmes de propriété intellectuelle et une exigence que la portée de la conception des projets soit définie en détail dès le départ afin d’assurer des livrables utiles. 98 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Accessibilité et le respect de la en profils de clients utilisables et vendables. vie privée Les préoccupations concernant le respect Il existe deux principaux obstacles à de la vie privée ont limité la disponibilité l’utilisation des nouvelles formes de de certaines données, et il n’existe aucune données numériques : l’accessibilité et le garantie que, par exemple, les données respect de la vie privée. Pour bénéficier de des réseaux sociaux restent une source nouvelles sources de données numériques, de données accessible pour les modèles les PSF doivent avoir accès à ces données de crédit à l’avenir. Facebook a déjà pris dans un format qui puisse être analysé. des mesures pour limiter la quantité de Deux des principales façons d’accéder à ces données que les services tiers peuvent tirer données sont soit d’acheter les données, des profils des utilisateurs,35 et les données soit de collaborer avec le fournisseur. qu’elle rend accessibles par l’intermédiaire Certains ORM, tels que Safaricom au de son API ne peuvent être juridiquement Kenya, vendent des champs de données utilisées que pour la vérification d’identité. agrégés prétraités tels que les dépenses Aux États-Unis, la FTC, qui surveille moyennes mensuelles ou l’utilisation des les règles des données sur le crédit et appels directement aux PSF. Certains les consommateurs, a indiqué que les fournisseurs traitent également de grands réseaux sociaux risquent d’être soumis à la ensembles de données brutes provenant réglementation des agences d’évaluation des ORM, des réseaux sociaux et des des consommateurs si leurs données sont données des appareils et les convertissent utilisées comme critères pour des prêts.36 35 Seetharaman et Dwoskin, « Facebook’s Restrictions on User Data Cast a Long Shadow, » Wall Street Journal, 21 septembre 2015 36 « Facebook Settles FTC Charges That It Deceived Consumers By Failing To Keep Privacy Promises, » Site des actualités de la Federal Trade Commission, 29 novembre 2011, consulté le 3 avril 2017, https://www.ftc.gov/news-events/press-releases/2011/11/facebook-settles-ftc-charges-it-deceived-consumers-failing-keep/ ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 99 nées Ap PARTIE 2 on s de plic d e od e h do Cadres de projets de donnees et m es d at ées ét nn ion s Analy Chapitre 2.1: Gestion d’un projet de données proj G e s de s ce et ti o n ur do d ’u n ss o nn Re L’Anneau des données ées La gestion de tout projet est complexe et nécessite les bons ingrédients ; une intuition commerciale, l’expérience, des compétences techniques, un travail d’équipe et une capacité à gérer des événements imprévus détermineront la réussite. Il n’existe pas de recette miracle. Cela dit, il existe des moyens d’atténuer les risques et de maximiser les résultats en tirant parti des cadres organisationnels de planification et en appliquant de bonnes pratiques éprouvées. C’est également le cas pour un projet de données. Cette section présente les éléments fondamentaux nécessaires pour planifier un projet de données bien géré à l’aide d’un cadre visuel appelé l’Anneau des données. Les composantes organisationnelles du cadre s’appuient sur les meilleures pratiques du secteur, en identifiant les exigences en ressources générales et les étapes du processus qui sont courantes dans la plupart des projets de données. Il a des points communs avec le Processus de norme interprofessionnelle pour l’exploration de données (CRISP-DM), une approche de processus d’analyse de données qui est devenu célèbre après sa sortie en 1996 et a été largement utilisée au début des années 2000.37 Son accent mis sur l’exploration de données et les outils informatiques courants il y a deux décennies a entrainé une diminution considérable de l’utilisation de la méthode avec l’avènement des mégadonnées et des techniques de science des données contemporaines. Le site Web d’origine du CRISP- DM a été fermé vers 2014, laissant derrière lui une absence de norme sectorielle spécifique pour les projets de données d’aujourd’hui. Le cadre d’Anneau des données tire parti des concepts issus des méthodes éprouvées du secteur, avec une approche modernisée correspondant aux technologies et aux besoins des équipes de sciences des données d’aujourd’hui. Il a été développé par Christian Racca 37 Processus de norme interprofessionnelle pour l’exploration de données. Dans Wikipedia, l’encyclopédie libre, consulté le 3 avril 2017, https://en.wikipedia.org/wiki/Cross_Industry_Standard_Process_for_Data_Mining/ 100 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES et Leonardo Camiciotti38 comme outil L’approche de l’Anneau des données de planification pour aider à déterminer s’appuie sur l’atténuation des risques et les éléments fondamentaux du projet et l’amélioration continue ; il est conçu pour réfléchir de façon structurée aux exigences éviter les démarrages défectueux, assurer en ressources du projet de données et leurs une focalisation sur les objectifs et éviter relations. En collaboration avec les auteurs les scénarios les plus défavorables. Il peut d’origine et Soren Heitmann, L’Anneau des être utilisé comme guide permanent données et l’outil associé, La Matrice de pour définir et affiner les objectifs. Cela l’Anneau des données, ont fait l’objet d’une permet de garder la phase d’exécution adaptation supplémentaire pour ce manuel. sous contrôle et fournit des résultats de la L’idée principale est de fournir un outil qui meilleure manière possible. Le processus de soutient les chefs de projet tout le long du réflexion est circulaire, en demandant aux processus. Ci-dessous figure une liste des gestionnaires de réexaminer des questions manières dont l’outil doit être utilisé : de planification fondamentale lors de • Liste de vérification : Une liste de chaque itération, et en affinant, réglant vérification ou « liste d’achats », qui et produisant des résultats. Lorsque des permet d’analyser la présence (et les problèmes surviennent, l’idée est d’inciter lacunes connexes) des ingrédients les gestionnaires à faire le tour de la nécessaires pour entreprendre un question, en considérant chaque quadrant processus fondé sur les données de l’anneau comme une source de solution • Outil descriptif : L’Anneau des données potentielle. est un cadre puissant pour expliquer le processus fondé sur les données (il peut Le schéma de l’Anneau des données est être présenté sous forme de rapport assez complexe, car il représente l’ensemble interne, de présentation publique ou de fondamental des éléments à prendre en publication scientifique) compte pour planifier un projet complet. • Miroir de retour d’information Les chefs de projet peuvent envisager continu : En partant de la définition d’imprimer le schéma comme référence des objectifs et en terminant par les visuelle unique pour la conception d’un résultats, chaque cycle d’itération fournit projet de données. Dans les sections un retour d’information permettant suivantes, chacune de ces structures d’affiner le processus et de réévaluer sa détaillées sera décomposée étape par étape conception et traitée. La section conclut en parcourant • Outil d’orientation : Pour préserver un cas d’utilisation pour illustrer comment l’orientation du projet sur les objectifs tout l’Anneau des données peut aussi être utilisé en surveillant des cibles claires comme outil de planification. 38 Camiciotti et Christian « Creare valore con i BIG DATA ». Anneau des données adapté pour le manuel sur les SFN, Edizioni LSWR (2015) : http://dataring.eu/ ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 101 2.1_GESTION D’UN PROJET DE DONNÉES Structures et conception Outils et compétences simplement, davantage de données. Prenez Les éléments supérieurs de l’Anneau par exemple un modèle de notation de Cinq éléments structurels risque de crédit. Les données numériques sont axés sur l’évaluation des ressources sont saisies : l’âge, le revenu et l’historique L’Anneau des données montre l’objectif « pratiques » et « humaines » nécessaires à des taux de défaut, par exemple. Les au centre, entouré de quatre quadrants. la mise en œuvre d’un projet de données : résultats sont des notations de crédit, soit Il dispose de cinq éléments structurels : • Ressources pratiques : comprennent davantage de données numériques. Le Objectif, Outils, Compétences, Processus et les données elles-mêmes, les outils processus consiste à entrer des données Valeur. Les quatre quadrants se subdivisent logiciels, le matériel de traitement et de pour en sortir des données. stockage en 10 composantes : Données, Infrastructure, • Ressources humaines : comprennent En fait, ce principe d’entrée et de sortie Informatique, Science des données, Activité, de données est applicable en permanence les compétences, l’expertise dans le Planification, Exécution, Interprétation, dans tout le projet de données. Il peut être domaine et les ressources humaines au Ajustement, et Mise en œuvre. Un plan de appliqué à chaque exploration analytique sens classique pour l’exécution projet doit viser à intégrer ces composantes intermédiaire et test d’hypothèse, au-delà et comprendre leurs interconnexions de manière Processus et valeur des simples descriptions des conditions de approfondie. L’approche organisationnelle départ et de fin. Le processus circulaire de Les éléments inférieurs de l’Anneau sont l’Anneau des données illustre de manière de l’Anneau permet aux chefs de projet de axés sur la mise en œuvre et la production similaire une approche itérative qui vise définir des ressources et de formuler ces de résultat, alors que ces dernières se à affiner, au fur et à mesure des cycles, relations ; chaque composante est fournie composent de trois activités concrètes : la compréhension des phénomènes avec un ensemble de questions de cadre 1. Planification de l’exécution du projet par le prisme de l’analyse des données. d’orientation, qui sont visuellement alignées 2. Génération et manipulation des données Ceci permet une description des causes à la perpendiculaire de la composante. - la phase d’exécution (données entrantes) et des effets Ces questions de cadre d’orientation (données sortantes), et l’identification 3. Interprétation et réglage des résultats constituent une liste de vérification de la de comportements et de modèles pour mettre en œuvre l’objectif du projet émergents non évidents. Les cinq éléments planification des ressources graphiques. et en extraire la valeur organisationnels de l’Anneau des données Objectif : Élément central Conception circulaire sont conçus pour planifier et atteindre un équilibre entre la spécificité et la flexibilité La définition d’objectifs clairs est le Un élément central de l’Anneau des pendant tout le cycle de vie du projet de fondement de tout projet. Mais p résoudre données est sa conception circulaire. Elle données. souligne l’idée d’une amélioration continue un problème par une solution axée sur et celle d’une optimisation itérative. Ces En pratique, la planification du projet les données, sans objectifs quantitatifs et concepts sont particulièrement essentiels doit tenir compte de l’élément de chaque mesurables, présente un fort risque d’échec pour les projets de données ; ce sont des anneau sous forme de séquence, en itérant pour l’ensemble du processus d’analyse éléments établis de conception et de pour suivre le plan général. L’approche des données. Cela se traduit par l’ajout planification de projets correspondant à circulaire vise à définir les étapes d’une faible valeur ou peut entrainer des de bonnes pratiques. Ceci parce que le nécessaires pour parvenir à un processus interprétations trompeuses. résultat de tout projet de données est, tout minimum viable. C’est-à-dire quand les 102 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES L’Anneau des données données peuvent être introduites dans le système, être analysées et produire des e résultats satisfaisants, puis répétées sans iell e ue rivé tor endommager le système ; par exemple, avec Fram id e p sec s un ensemble de données actualisé quelques jur vi iq Pi i se la pe ewo mois plus tard qui comprend de nouveaux s Sto ert ec de li n ne es e rks ai Exp ts ct c né clients. Une fois établi, le projet peut ensuite de m ka on pe hu d do g p s es itérer au prochain niveau pour fournir un es e as Re nn Inform d nc re atiq n é & ctu io ie produit minimum viable (MVP). Il s’agit du es ue at Sc ru is Ac ast Co al ce f r AJUSTEMENT m su n produit de données le plus élémentaire. ss ibi In m Vi tio lité CO n ica MP mu er m É ci Co s Form S Un produit de données est un modèle, un ée IL al ats nn TE Sc T algorithme ou une procédure qui prend les Do 2 OU ien NC 1 données et réintègre de manière fiable les ce ES des résultats dans l’environnement par le biais OPÉRATIONS données UTILISATION OBJECTIF(S) d’un processus automatisé. En d’autres termes, ses résultats de sortie sont intégrés dans un contexte opérationnel plus Mise général sans calcul manuel. C’est ce qui e Compar nœ ai son constitue un produit de données en dehors US 4 n 3 uv VA d’une analyse particulière. Un produit de io EU Ind SS re E at icat L OC R eur données peut être simple-par exemple ic s& if Aj PR Bu défi an us em dg niti ons une visualisation de tableau de bord Pl es t en et né t RÉSULTATS io n Pa & on Int ut r ca interactif- mais il existe aussi des produits sd s erp xéc te len de su ré E n ar dr ier ré e es tatio ia de données extrêmement complexes, où Go t n En oc t/ ex s r uv les notations de crédit sont intégrées à des ée p te er & r nn na na e ur lis processus semi-automatisés de prise de do n t at uc ce io de r décision en matière de prêt, influençant St n de e sd rti ainsi une nouvelle génération de clients So on né avec des données réinjectées dans le es modèle de notation de risque de crédit pour orienter de nouvelles décisions de prêt. Le fait que les produits de données Figure 19 : l’Anneau des données, un outil de planification visuelle pour les projets soient consommateurs de leurs propres de données résultats confirme leur principe circulaire. Le stock de données augmente à chaque itération. Cela met également l’accent sur l’orientation organisationnelle de l’Anneau des données, avec l’objectif placé au centre, qui oriente vers le choix de données à analyser et permet de savoir si le moment est venu ou non de cesser d’itérer et de juger que l’objectif a été atteint. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 103 2.1_GESTION D’UN PROJET DE DONNÉES l’équipe de science des données de « jouer aux nuances du problème stratégique ; » avec les données. Cela dit, il doit être fait ajustez l’un ou l’autre en conséquence. de manière structurée, grâce à des tests Cela contribue à décomposer de grands d’hypothèses exploratoires, en imitant la problèmes en des problèmes plus distincts, méthode scientifique (voir le chapitre 1.1, pour avoir l’objectif clair de résoudre un Méthode scientifique). problème clair. Commencez petit. Pour les L’atteinte de l’objectif signale l’achèvement Énoncé de problème stratégique nouveaux projets de données, du projet. Avec une approche itérative, il L’idée de « résumer le problème avant l’objectif recommandé est un MPV. est particulièrement important de savoir la solution » contribue à orienter cette Il s’agit d’un objectif fondamental à quoi un projet achevé ressemble pour approche et permet d’indiquer aux parties et modeste, créé pour tester si éviter de se retrouver piégé dans la boucle prenantes où est la pierre d’achoppement d’affinement. L’établissement d’indicateurs et qui a ce problème. Une fois que l’on a un concept de produit axé sur les et de définitions satisfaisants permet réfléchi au problème, il devient simple de données est digne d’attention. d’orienter le projet sur un chemin et émet formuler la solution. Voici deux exemples de Une fois atteint, les chefs de projet un signal d’avertissement si le projet problèmes stratégiques en matière de SFN : peuvent prendre en compte les commence à s’égarer. Comme pour la gestion opérationnelle, le projet doit à la fois • Problème : Les clients existants ont de mêmes concepts que l’Anneau surveiller et évaluer ses ICP pendant tout le faibles taux d’activité du service d’argent des données afin de développer processus itératif, en veillant à ce que ces mobile l’échelle du MVP pour en faire un points de référence continuent de servir le • Problème : Les clients potentiels prototype. projet de la meilleure manière possible. sont exclus de l’accès aux produits de microcrédit Définition de l’objectif Énoncé d’objectif OBJECTIF(S) L’objectif est une solution proposée axée sur les données à un problème stratégique Dans le cadre d’un projet de données, L’établissement des objectifs est la première afin de produire de la valeur. Les besoins l’objectif est de fournir un processus étape de la planification du projet. Le projet opérationnels du projet sont exprimés par axé sur les données et un produit avec doit savoir où il va pour savoir à quel moment les éléments structurels et les questions certaines spécifications. C’est ce qui définit il a atteint son but. Dans une certaine d’orientation de l’Anneau des données. le chemin du projet. Il est également mesure, une approche fondée sur le hasard Cela se traduit par des besoins précis en important de savoir si le chemin est bon ; en analyse des données, en particulier ressources, compétences humaines et en d’autres termes, si le produit repose lorsqu’il s’agit de structures, de processus processus concrets, qui sont tous orientés sur une hypothèse raisonnable des raisons et d’organisations complexes, pourrait par les énoncés de problèmes que le projet pour lesquelles cela fonctionne et les conduire à des découvertes inattendues cherche à résoudre. Il est probable que résultats sont fiables. Un énoncé d’objectif et à des trajectoires non planifiées. la déclaration d’objectif et l’énoncé de a deux parties : la spécification du produit La découverte est en effet un facteur problème seront définis l’un par rapport à et son hypothèse stratégique. Voici deux important pour les projets de données, l’autre : vérifiez que l’objectif visé apportera propositions de solutions par rapport aux menant à une exploration et permettant à la solution recherchée ; réfléchissez énoncés des problèmes précédents : 104 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES • Solution proposée : un modèle viable Encadrer l’objectif en termes d’échelle fiable, cette hypothèse axée sur les objectifs minimum de prévision de segmentation contribue à définir à la fois les besoins apporte au produit de données de la des clients pour identifier les utilisateurs en ressources et la façon dont les crédibilité et de la fiabilité. Une hypothèse actifs à forte propension à augmenter les composantes générales du projet doivent similaire pourrait être formulée pour un taux d’activité bien se combiner. Une validation de modèle de notation de risque de crédit • Solution proposée : un algorithme de principe de MVP pourrait être livrée sur afin de tester par exemple l’hypothèse notation de risque de crédit des clients au un seul ordinateur portable dans quelques suivante : les clients ayant de petits niveau de la production pour l’émission semaines. En comparaison, l’échelle de réseaux sociaux ont des taux de défaut automatisée de microcrédit niveau de production pourrait nécessiter de remboursement des prêts plus élevés. des serveurs de données spéciaux, des La formulation d’une hypothèse ne se limite Processus et spécification experts pour assurer leur maintenance et nullement aux projets de données fondés de produit une supervision juridique pour garantir sur des algorithmes. Un tableau de bord Comme décrit ci-dessus, les deux produits la sécurité des données. Néanmoins, de visualisation correspond également à de données illustrés représentent un la production d’un MVP nécessite des une hypothèse sur les relations entre les modèle de prévision de segmentation des ressources pratiques et humaines données que l’on cherche à visualiser. Une clients et un algorithme de notation de (c.-à-d. l’infrastructure et les personnes), telle hypothèse peut ne pas être testée risque de crédit des clients. Ceux-ci sont organisées selon un processus minimum statistiquement par des algorithmes, mais viable. Cela signifie qu’il faut définir des rôles la fiabilité de la visualisation implique spécifiés par leur échelle, ce qui permet organisationnels ainsi que des relations de que ces relations soient cohérentes et de décrire la « taille » du projet, ou la façon gestion et de rapports clairs. Il s’agit de valables au fil du temps. Pour cette raison, dont il s’intègre dans des systèmes plus la manière dont une solution axée sur les la visualisation continuera à raconter une généraux. données pour un problème stratégique est histoire significative ou à orienter une prise L’échelle peut être envisagée selon la rendue opérationnelle, la manière dont les de décision utile. progression suivante : défis techniques sont identifiés et résolus, et la manière de s’assurer que le produit Le principe de « recherche reproductible » • Processus : données d’entrée qui concret offre une valeur stratégique. est devenu important chez les scientifiques produisent des données de résultats de des données. La recherche reproductible manière fiable par le biais d’un processus Hypothèse décrit des approches transparentes et automatisé Ce que ces produits de données parviennent reproductibles de l’analyse et la façon • MVP : un concept et un processus de à accomplir est fonction d’une hypothèse dont des résultats sont obtenus dans produit dont les résultats mettent en sous-jacente qui n’est implicite que dans la première étape de mise à l’échelle évidence une valeur essentielle ces deux exemples. L’identification des du « processus ». En principe, il s’agit de utilisateurs actifs à forte propension repose permettre une validation indépendante • Prototype : concept de produit avec une sur une hypothèse opérationnelle ; il existe des résultats, qui peut être pertinente à mise en œuvre, une facilité d’utilisation une corrélation entre les variables qui des fins réglementaires ou d’audit. C’est et une fiabilité de base définissent ces segments de clientèle et pourquoi la première étape de l’itération • Produit : un concept qui a fait ses les taux d’activité. Par exemple, les clients lors de l’utilisation de l’Anneau des données preuves avec une mise en œuvre fiable ayant un temps de communication vocale consiste à formuler un processus minimum et une proposition de valeur qui a fait ses élevé ont des taux d’activité plus élevés. viable ; il fait en sorte que le projet obtienne preuves Il s’agit d’une hypothèse statistiquement des résultats fiables sur lesquels repose la • Production : un produit systématiquement vérifiable et, en fin de compte, il incombe valeur essentielle du produit. Ce processus mis en œuvre et livré aux utilisateurs ou aux à l’équipe de science des données de le prend également en charge les produits clients démontrer. Si la corrélation est forte et de données pour voir immédiatement ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 105 2.1_GESTION D’UN PROJET DE DONNÉES si et quand les hypothèses deviennent une exploration sans fin peut permettre problème stratégique sous-jacent peut ne peu fiables, ce qui peut inciter à réajuster une analyse biaisée ou des résultats forcés pas être défini avec précision, ou lorsque les modèles afin d’assurer une fiabilité pour livrer quelque chose. la solution pour atteindre l’objectif proposé continue. présente une incohérence logique, telle Atténuation : Savoir ce que le projet qu’un lien commercial ou stratégique ténu Risques et atténuations vise à accomplir. Si l’équipe veut faire avec le problème qu’elle est censée résoudre. des objectifs quelque chose, mais ne sait pas par L’établissement d’objectifs de projet en où commencer, elle doit engager Atténuation : Définissez des objectifs termes d’hypothèses formulées, testées et des spécialistes des opérations de clairs et précis en intégrant une affinées contribue à atténuer les risques données pour examiner les données pertinence commerciale dans chacune courants en matière de projets de données. et contribuer à mettre en évidence des composantes de l’hypothèse Les risques d’une mauvaise définition des les types d’indications pertinentes problème-produit. Assurez-vous qu’ils objectifs sont les suivants : qu’elles pourraient fournir à l’entreprise. peuvent être affinés par une approche L’objectif du projet est généralement itérative et révisez-les au fur et à Risque : Ne pas poursuivre validé par la mesure des résultats, mais il mesure que le projet progresse. De plus, les objectifs est important de remarquer que les tests assurez-vous que les objectifs sont Le risque principal est l’absence de d’hypothèses se révèlent souvent faux. pertinents en permanence à mesure motivation et d’objectif stratégiques du C’est une bonne chose. Ou on itère et que la stratégie commerciale évolue projet, ou la non définition de véritables on réussit, ou on accepte que l’indication de manière indépendante. Prévoyez un objectifs. En d’autres termes, ce risque ne fonctionne pas et on retourne à la degré d’exploration et de souplesse dans inclut les motivations pour faire quelque phase de conception. C’est une meilleure l’exécution du projet. L’établissement chose de significatif avec les données situation que d’avoir un résultat bon de limites exploratoires est essentiel, pour des raisons d’attrait, dans le but ou intéressant fondé sur de mauvaises car elles permettent d’éviter que les d’utiliser des termes populaires à la mode données. projets s’égarent, tout en permettant parce que les concurrents le font ou une latitude de découverte. Cela est simplement parce qu’ils sonnent comme Risque : Manque d’orientation également soutenu par les unités scientifiquement ou technologiquement Les projets sans véritables objectifs de mesure et les cibles associées solides- alors que les motivations n’ont pas comprennent aussi les projets trop spécifiques, ou ICP, tant pour les objectifs de contrepartie axée sur la valeur. Cette généraux, mal définis ou excessivement intermédiaires que pour l’atteinte de approche pourrait conduire à des résultats souples et changeants. L’objectif définit l’objectif global. inutilisables ou à des dilapidations de l’orientation et décrit ce qui sera réalisé. budgets car elle représente une occasion Le manque de clarté peut amener les Risque : Non axé sur les données manquée de tirer parti de l’analyse pour équipes à se distraire ou à analyser des L’économiste de renom Roland Coase a fournir des résultats axés sur les objectifs questions auxiliaires, débouchant ainsi sur déclaré : « si vous torturez les données qui sont pertinents pour l’organisation. des résultats auxiliaires. En prenant cela en assez longtemps, elles vont avouer ». Le Pour ceux qui sont particulièrement compte, une certaine souplesse doit exister risque oblige les données à révéler ce à motivés pour faire quelque chose, il n’est pour un affinement itératif des objectifs et quoi on s’attend pour tenter de valider pas rare d’embarquer des ressources pour permettre d’explorer et de capitaliser les connaissances, les comportements externes qui sont simplement chargées de sur une heureuse découverte. Le manque ou l’organisation souhaités. Passer à une découvrir quelque chose d’intéressant. Le d’orientation peut également résulter approche fondée sur les données signifie risque est d’obtenir des résultats qui non d’une incompatibilité entre le problème être prêt à observer les faits concrets à seulement sont inutilisables, mais faux, car et la solution. C’est à ce moment-là que le mesure qu’ils émergent de l’analyse des 106 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES données. En d’autres termes, l’analyse de Quadrant 1 : OUTILS doivent être stockées, décrites de manière projets, de processus ou de procédures par appropriée et rendues accessibles. Cela des données peut conduire à des résultats nécessite qu’une infrastructure technique qui ne correspondent pas aux croyances, appropriée soit mise en place pour gérer aux réflexions ou à la stratégie actuelles, les données, leur accessibilité et leur obligeant ainsi une organisation à opérer calcul. Cela permet également d’accéder un changement profond. à l’analyse complète du système et aux modèles très attrayants qui peuvent Atténuation : S’inspirer de la méthode générer de la valeur. Le premier quadrant scientifique pour définir des objectifs de de l’Anneau des données demande aux projet assortis de délais et appuyés par chefs de projet de réfléchir à leurs données des hypothèses qui sont rigoureusement et à l’infrastructure technique nécessaire testées. Assurez-vous que la stratégie pour les analyser selon deux composantes : d’exécution utilise le concept de les données et l’infrastructure. recherche reproductible pour mieux permettre la possibilité de répétition et Outils : Données la validation indépendante des résultats. Figure 20 : Anneau des données Les données sont les contributions (et les De plus, assurez-vous que les promoteurs Quadrant 1 : OUTILS résultantes) fondamentales d’un projet de projets comprennent parfaitement Le monde et ses phénomènes dynamiques de données. Les questions d’orientation que la découverte de modèles précieux peuvent être observés et fragmentés en de l’Anneau des données sont regroupées n’est pas garantie. données. Autrement dit, les données sont en deux principes : l’accessibilité et le Risque : Manque de pragmatisme des échantillons de la réalité, enregistrés sous format. Ce sont des éléments essentiels Les objectifs doivent être réalistes quant forme de mesures et stockés sous forme de qui affectent profondément les besoins en aux ressources du projet et aux attentes de ressources et les décisions en matière de valeurs. En outre, les systèmes complexes son promoteur, par exemple concernant processus. donnent une fausse impression d’un savoir les compétences, l’infrastructure ou le approfondi, intégré dans le comportement Tout d’abord, il faut savoir comment les budget appropriés. collectif des différentes composantes du données sont décrites, leurs propriétés, et système. Les composants pris isolément si elles représentent des nombres, du texte, Atténuation : Assurez-vous que peuvent ne rien révéler, mais des modèles des images ou du son. Il faut savoir aussi si l’échelle du produit fait partie intégrante de l’énoncé de l’objectif. Cela contribue apparaissent lorsqu’on observe l’ensemble elles sont structurées ou non structurées. à délimiter le projet et à pousser les du système. Les données doivent également être chefs de projet à faire correspondre les compréhensibles pour les êtres humains et La révolution des données a permis une ressources et les exigences. En outre, doivent exister dans un format numérisé et augmentation exponentielle du volume, utilisable par une machine. Ces paramètres assurez-vous qu’un spécialiste des de la vitesse et de la variété des données de base sont pertinents pour les données technologies de l’information et de la communication (TIC) effectue une numériques. Cette disponibilité accrue de toutes tailles et formes. Ce sont là évaluation informatique technique de de données numériques permet une plus des facteurs critiques pour déterminer la la conception du projet afin de veiller grande précision de la compréhension meilleure infrastructure technique à utiliser à l’existence d’un pragmatisme entre des processus, des activités et de leurs pour le projet. Voir le chapitre 1 pour une l’objectif du projet et les outils techniques interrelations. Pour tirer des connaissances discussion plus détaillée sur les formats de acquis pour l’atteindre. et de la valeur de leur analyse, les données données. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 107 2.1_GESTION D’UN PROJET DE DONNÉES Récemment, le concept de mégadonnées Les questions de cadrage suivantes processus axé sur les données, cette phase a pris une grande importance. Il s’agit d’un permettent d’identifier les sources de de préparation sera d’une longueur variable, concept utile, mais sa prépondérance a données et de définir leur étendue en ce qui signifie des couts de projet variables. également créé des opinions erronées. fonction des besoins en ressources du Une planification inadéquate des données En particulier la croyance que la simple projet. Si les systèmes de données internes initiales peut entrainer un gonflement des disponibilité d’une grande quantité de ne saisissent pas ce qui est supposé, cela couts au bout du compte ; des révisions données peut accroitre les connaissances oblige la planification des ressources du pourraient signifier le besoin de choisir une ou fournir de meilleures solutions à un autre infrastructure informatique ou des projet à effectuer des changements en problème. C’est parfois vrai. Et parfois, ce capacités d’équipe différentes. identifiant les nouvelles ressources de n’est pas le cas. Bien que les mégadonnées données requises : Accessibilité aux données puissent fournir des résultats, il est également vrai que les « petites » données • Quelles données sont produites ou Les données doivent être consultées pour peuvent réussir à atteindre les objectifs collectées par le biais d’activités de base ? être utilisées. Cela peut sembler évident, du projet. Il est important pour le chef de mais cette question est complexe et doit • Comment ces données sont-elles être prise en compte dès le début de projet de s’assurer que les bonnes données produites (par exemple, quels produits, chaque processus axé sur les données afin (et suffisantes) sont disponibles pour la services, points de contact) ? de s’assurer que les résultats sont atteints tâche et que les bons outils sont en place. • Les données sont-elles stockées et dans le temps et le budget impartis - ou La définition de « méga » est en constante organisées ou passent-elles par le que des résultats sont même possibles. Le évolution, donc insister sur le terme lui- processus ? respect de la vie privée du client, la demande même profite rarement à un projet. L’aspect et l’octroi d’autorisations d’utilisation de • Les données se présentent-elles sous le plus utile du concept de mégadonnées données, et la définition de la propriété et de une forme lisible par une machine et est de comprendre que plus un ensemble l’intérêt légal une fois que les autorisations prêtes à être analysées ? de données est important, plus il faudra d’accès aux données sont accordées, sont • Les données sont-elles propres, ou des facteurs qui complexifient l’accessibilité de temps pour l’analyser. Dans cet esprit, existe-t-il des irrégularités, des valeurs des données, nuisent à son uniformité dans un ensemble de données plus important manquantes ou corrompues ou des tous les environnements réglementaires exige également des capacités d’équipes erreurs ? et font l’objet de préoccupations éthiques. techniques plus spécifiques et une • Les données disponibles sont-elles L’accessibilité des données peut être infrastructure technique plus complexe, statistiquement représentatives pour évaluée selon trois facteurs : plus sophistiquée ou plus couteuse pour la gérer. L’aspect « méga » des données peut permettre des tests d’hypothèses ? Juridique également être lié à l’échelle d’un objectif ; • Quelle est la relation entre la taille des Des réglementations pourraient empêcher on peut parvenir à un MVP avec un simple données et les besoins en matière de une analyse fondée sur les données instantané des données, alors la production performance ? excellente et bien conçue d’être réalisée peut s’attendre à traiter des données dans son intégralité. Cela interromprait le transactionnelles continues à grande Ces questions montrent bien le travail processus à une phase intermédiaire, il est vitesse. Il s’agit là d’un élément important nécessaire dans la phase initiale pour donc essentiel de connaitre les contraintes du processus de conception du projet ; le réussir à acquérir, nettoyer et préparer le ou juridiques dès le départ. fait d’avoir des téraoctets de transmission les ensembles de données pour une analyse de données en continu ne signifie pas pour ultérieure. En fonction de la quantité de La propriété des données doit être définie, autant que l’objectif d’un projet est atteint. contrôle disponible dans l’ensemble du en identifiant qui a la permission de les 108 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES analyser pour en tirer des indications. Si pour fonctionner ensemble, tout comme Alors que les facteurs technologiques des accords de propriété intellectuelle l’établissement d’un flux de travail visant à pourraient offrir une solution - bien que sont en place, ils doivent couvrir les mélanger des produits Apple et Microsoft. parfois complexe ou inefficace-, les facteurs travaux existants et dérivés. Si l’analyse Cela peut entrainer des couts et des stratégiques sont encore souvent définis est une étude collaborative, des accords inefficacités, et peut créer des problèmes pour s’assurer délibérément que l’accès de publication doivent être mis en place, supplémentaires à résoudre si l’on tente n’est possible que selon les spécifications notamment sur la clarté de ce qui constitue d’opérer des harmonisations forcées. du propriétaire des données, ou peut-être une information exclusive et ce qui peut que l’accès est totalement refusé. Les données numériques sont requises être rendu public. pour les analyser à l’échelle et la vitesse Format des données L’utilisation éthique des informations d’une machine. Il peut exister des Les données numériques peuvent être peut également apporter des contraintes exceptions à la règle, avec différentes représentées sous de nombreuses formes juridiques. Les données concernant les nuances, et l’IA repousse ces limites. différentes et un format de données décrit personnes, les groupes ou les organisations les paramètres de données compris par des La compatibilité est nécessaire entre le doivent être traitées avec attention, en humains (c’est-à-dire les textes, les images, format de données et la technologie utilisée prenant la sécurité comme première les vidéos, les données biométriques). pour les gérer. Même si les ensembles de priorité. Les règles de confidentialité des Souvent, le format est indiqué par le suffixe données sont numérisés, ils peuvent être données peuvent également influencer de trois ou quatre lettres à la fin d’un fichier isolés et inaccessibles en raison de choix la façon dont les données peuvent être informatique. Le format peut également technologiques incompatibles réalisés transférées ou non de leur propriétaire indiquer plus généralement des structures par différents services d’une même à l’analyste, par exemple en sachant si et des bases de données de stockage, par société, d’un même gouvernement ou elles peuvent être envoyées par voie exemple : Oracle, MongoDB et JSON (voir d’une même organisation. Des systèmes électronique ou par stockage physique. En obsolètes pourraient parfois être en place, le chapitre 1.1, Définition des données). outre, les règlementations peuvent stipuler ce qui pourrait également empêcher des procédures concernant les données les interactions avec des solutions, des Il existe de nombreux formats de données, quittant les frontières nationales, celles qui langages et des protocoles modernes. notamment selon les approches de sont acheminées via des tiers ou stockées La quantité d’effort pour harmoniser stockage et de traitement. Le format de sur des serveurs situés dans des pays l’infrastructure technologique pourrait être données est fortement déterminé par le particuliers. une barrière non négligeable du point de contexte commercial ou organisationnel vue du cout pour le temps consacré. et, en particulier, par les personnes Technologique responsables de la gestion de la création, Des obstacles peuvent se dresser si le Stratégique du stockage et du traitement des données. format de données n’est pas aligné avec Les parties prenantes pourraient chercher Pour les chefs de projet, le fait d’identifier la technologie choisie pour le traitement à préserver un avantage concurrentiel en les problèmes de fragmentation de format et et l’analyse des données. Pour prendre un interdisant l’accès à leur actif de données. d’incompatibilité est essentiel pour définir exemple simple, un algorithme de TLN Cela prend généralement forme d’une des l’harmonisation des données nécessaire à ne peut pas être appliqué de manière trois façons suivantes : en nécessitant du des projets bien conçus. Comprendre les significative à des données sous forme matériel ou un logiciel spécial pour lire valeurs enregistrées dans un ensemble d’images. De façon plus pratique, les bases les formats de données propriétaires ; en de données, ainsi que des métadonnées de données sont généralement optimisées contrôlant la manière dont les données plus générales d’un ensemble de données, pour des types spécifiques de données ; et peuvent être utilisées ; ou en exigeant permet aux chefs de projet de planifier certaines technologies ne sont pas conçues des redevances de licence particulières. correctement. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 109 2.1_GESTION D’UN PROJET DE DONNÉES Une valeur de point de données se rapporte colonne de nombres sans titre. Ces chiffres Comprendre comment les ensembles au contenu intrinsèque d’un enregistrement sont-ils liés à des valeurs de transaction, de données sont connectés via des de données. Ce contenu peut être exprimé peut-être les heures où les opérations ont métadonnées est un élément clé de la sous forme numérique, temporelle ou eu lieu ? Si le projet cherche à visualiser des conception de projet et de l’identification textuelle, appelée type de données. Pour volumes sur une carte, la localisation de des lacunes et des possibilités d’analyse. l’analyse de données, le facteur crucial est l’agent devient également une exigence de Les métadonnées permettent d’identifier que ces valeurs sous-jacentes ne soient données ; le processus de calcul doit être les domaines dans lesquels les données pas affectées par des erreurs ou des biais en mesure de demander à l’ensemble de supplémentaires peuvent être nécessaires systématiques dus à des petits problèmes données de fournir toutes les valeurs de pour atteindre les objectifs du projet, et la d’infrastructure ou humains. Généralement, localisation. Si la catégorie des localisations façon de lier de nouveaux ensembles de les chefs de projet ne tiennent pas compte ne se compose pas de métadonnées données en cas de besoin. Les métadonnées de la façon dont les données sont recueillies définies, le processus ne sera pas alors permettent d’identifier des possibilités ou si la méthode de mesure est bien définie. en mesure de trouver de coordonnées d’optimisation là où des ensembles de Il est utile de comprendre comment ces GPS à tracer. La solution pourrait être données supplémentaires pourraient déjà mesures sous-jacentes sont effectuées simple, disons, en ajoutant un titre exister ; l’obtention sous licence de données et de s’assurer qu’il existe un transfert « localisation » à cette colonne sans titre. tierces peut combler les lacunes et des approprié des connaissances entre les De cette façon, les équipes de projet métadonnées dérivées ou synthétiques propriétaires de données et les analystes de peuvent ajouter des informations pourraient être créées pour contribuer données quant aux principaux problèmes contextualisées aux ensembles de à adapter les ensembles de données du de mesure. À titre d’exemple pratique, si données et fournir des descriptions plus projet au contexte. Pour les chefs de projet, un système a été interrompu pendant une détaillées des données (par exemple des il est important de savoir le moment mise à jour informatique, cette mise à jour métadonnées) que le processus d’analyse et l’endroit où les métadonnées sont se traduira par une baisse spectaculaire peut alors questionner et utiliser. En ce sens, susceptibles d’exister. Si elles ne font pas des transactions. Les analystes doivent les métadonnées ne sont tout simplement partie des ensembles de données de départ, être conscients de ces informations pour qu’un nouvel ensemble de données. Les il peut être préférable de demander aux interpréter correctement l’anomalie. Les métadonnées sont particulières car elles propriétaires de données ces informations, anomalies des valeurs de données influent sont intrinsèquement liées à l’ensemble plutôt que de les adapter au contexte dans grandement sur le processus de nettoyage de données sous-jacent, qui permet à ce le cadre du travail sur le projet. des données et la planification de projets processus de questions-réponse d’avoir connexe. lieu. Il ne s’agit que d’un exemple ; les Outils : Infrastructure métadonnées ont plus de valeur que de Comme expliqué précédemment, les Les métadonnées sont des « données sur simples titres de colonnes. Même dans données sont la contribution (et la les données », qui comprennent toutes les Excel, les métadonnées existent à propos de résultante) fondamentale d’un projet informations de base supplémentaires qui la feuille de calcul en cours de constitution, de données. On appelle infrastructure enrichissent un ensemble de données et le par exemple, la taille du fichier, la date de l’endroit où les données vont et sortent rendent plus compréhensible. Les colonnes création et l’auteur sont tous des exemples physiquement. Les données sont des de titre dans une feuille Excel sont des de métadonnées. Ces métadonnées sous- informations numériques qui doivent être métadonnées (les titres sont eux-mêmes jacentes permettent la recherche et le acquises, stockées, traitées et calculées à des données textuelles qui décrivent tri de fichiers, par exemple, le système l’aide d’outils informatiques s’exécutant sur les valeurs dans les lignes suivantes). d’exploitation peut demander tous les des ordinateurs virtuels ou physiques. Par exemple, imaginez un ensemble de fichiers modifiés de la semaine précédente. données avec les titres, « nom de l’agent » Les réponses sont obtenues via les L’infrastructure technologique doit être et « volume des transactions, » suivis d’une métadonnées du fichier. adaptée aux objectifs qui se posent en en 110 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES termes de volume, de variété et de vitesse des Stockage Hortonworks, Cloudera. Voir le chapitre données. Les ressources de l’infrastructure Un système de base de données ou de 2.2.3, Base de données technologique). déterminent la facilité d’utilisation des fichiers est appelé stockage, c’est-à-dire Il convient de noter qu’un projet données et influent fortement sur la l’élément de l’infrastructure destiné à peut intégrer plusieurs Frameworks. « puissance » et l’efficacité des algorithmes L’utilisation d’un Framework reconnu est stocker des données. Le stockage affecte scientifiques et des modèles mathématiques recommandée, car cela évite la nécessité la façon dont les données sont enregistrées de programmer des outils communs à appliqués. L’infrastructure générique axée et récupérées et ces processus d’entrée et partir de zéro, ce qui peut représenter sur les données est constituée de ces de sortie sont essentiels à la conception d’énormes économies en temps et en éléments fondamentaux : d’un système performant. Il faut du temps couts. Le compromis est que l’approche pour écrire des données sur un disque, et du projet doit s’adapter à la manière qu’a Pipeline de données quand une requête arrive, il faut du temps le Framework de résoudre l’ensemble des Le pipeline de données est une chaine pour rechercher la réponse et l’envoyer à problèmes pour lesquels il a été conçu, fonctionnelle d’équipement matériel ou l’étape suivante du pipeline de données. ce qui peut ou ne peut pas parfaitement Les bons outils de base de données sont de logiciels où chaque élément reçoit répondre aux besoins précis du projet. Et souvent orientés par la nature des données des données d’entrée, les traite, puis les un mauvais choix de Framework risque elles-mêmes, leur format et leur structure. transmet à l’élément suivant. Il représente de mal adapter son approche en termes En outre, la façon dont les données sont la manière dont les données sont de solutions face aux problèmes du projet, utilisées joue un rôle dans le stockage ; téléchargées dans le processus analytique ; créant ainsi de l’inefficacité. un système d’archivage vise à compresser le pipeline de données comprend le un maximum de données dans un volume Les Frameworks sont généralement conçus processus de téléchargement, des outils aussi peu couteux que possible, alors à partir de spécifications matérielles, et pour calculer les chiffres, la façon dont les qu’une base de données transactionnelle ils s’exécutent en fin de compte sur des chiffres sont téléchargés, et comment ils garantit la rapidité et la fiabilité de sorte ordinateurs qui font les calculs pour le sont ensuite introduits dans un processus que les clients n’aient pas à attendre. projet de données. Alors que la puissance opérationnel. Par exemple, ce pipeline Les cadres guident également le choix des de calcul brute est également un élément permet l’intégration technique d’un produit bases de données en fournissant des outils critique de l’infrastructure du projet, il est de données dans des systèmes d’entreprise intégrés optimisés pour des solutions et préférable de planifier le premier pipeline plus généraux. Le pipeline doit être prévu des conceptions de stockage spécifiques. de données, les besoins de stockage et les pour assurer un processus fiable qui avale Frameworks nécessaires pour répondre Frameworks des données brutes et produit des résultats aux besoins du projet. Les spécifications utilisables. Le projet doit veiller à ce qu’un Un Framework est un ensemble de informatiques adéquates ont tendance à se solution conçu pour un groupe de mettre en place par la suite. La conception schéma ou un diagramme de flux soit écrit problèmes. Techniquement, il s’agit d’un et la gestion de l’infrastructure ne relèvent pour décrire la mise en œuvre fonctionnelle ensemble de bibliothèques prédéfinies généralement pas du rôle des chefs de du pipeline. Le téléchargement initial dans et d’outils communs pour permettre projet, mais ils doivent néanmoins s’assurer le pipeline marque généralement le début d’écrire du code et des programmes plus que des capacités et des ressources opérationnel d’un projet de données, en rapidement et facilement. Dans le domaine soient disponibles pour répondre aux commençant par le processus d’extraction- des mégadonnées, celles-ci comprennent besoins du projet. C’est la raison pour transformation-chargement (ETL) des des plateformes qui recueillent des outils, laquelle une évaluation informatique est données. L’ETL est un plan procédural, dans des bibliothèques et des fonctionnalités spécifiquement indiquée dans le cadre de le cadre de la gouvernance des données afin de simplifier la gestion des données la gestion des risques et de la définition du projet, qui sera traité de manière plus et les processus de manipulation (par d’objectifs pragmatiques. Compter sur des approfondie plus tard. exemple, Apache Spark, Apache Hadoop, équipes informatiques internes ou s’assurer ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 111 2.1_GESTION D’UN PROJET DE DONNÉES d’une capacité pertinente de l’équipe du Les projets fondés sur les données ont d’une seule compétence, cela nécessite projet de données sont des éléments besoin de scientifiques des données. Cela généralement une équipe interdisciplinaire essentiels pour permettre d’évaluer les dit, « scientifique des données » est un d’experts techniques qui interagissent exigences d’infrastructure et les besoins titre relativement vague et général, qui est fortement avec toutes les unités – une techniques, notamment l’évolutivité, encore à définir avec précision. Pendant ce seule personne ou un groupe – qui la tolérance aux pannes, la distribution temps, le secteur et les médias ont fait un gèrent les données, de l’acquisition à la ou l’isolement de l’environnement. Ces battage médiatique sur les mégadonnées, visualisation. termes techniques sont utiles pour une l’apprentissage automatique et toute infrastructure informatique d’entreprise une série de technologies, tout en créant Les équipes sont dynamiques et à grande échelle ; les objectifs de MVP une prise de conscience plus générale sur travaillent en collaboration, et il est peuvent être obtenus avec beaucoup l’immense valeur potentielle des données. difficile de suivre le rythme de l’innovation moins. Même les petits projets de données Cela a créé une pression incitant à investir et du développement de nouveaux sont susceptibles d’impliquer l’architecture dans ces ressources afin de faire face à ensembles de compétences, de l’expertise de l’entreprise dans le pipeline de données. la concurrence. Il est essentiel pour le émergente et de l’hyperspécialisation Les données dont un projet a besoin gestionnaire de projet axé sur les données qui va s’accentuant. L’externalisation des puiseront certainement dans les systèmes d’être conscient que des ensembles très capacités peut permettre d’atteindre le de l’entreprise ; l’étendue de cet état spécifiques de compétences et d’expérience dynamisme nécessaire et les ensembles de fait doit être bien déterminée, et ses technique sont nécessaires pour établir de compétence adéquats. Vous pouvez conséquences planifiées et coordonnées les exigences d’un projet de données. Ils également conserver ou constituer une avec les équipes informatiques. doivent être conscients d’une manière équipe fondamentale de généralistes de la toute aussi cruciale que bon nombre de ces science des données qui peut contribuer à domaines d’expertise se forment de façon assurer une collaboration réussie au sein Quadrant 2 : dynamique parallèlement à l’évolution de toute une équipe multidisciplinaire de COMPÉTENCES rapide de la technologie. Le deuxième spécialistes des données et des opérations quadrant de l’Anneau des données commerciales. demande aux chefs de projet de réfléchir aux ressources humaines nécessaires pour Une culture d’ouverture, scientifique et réaliser le projet selon trois composantes : axée sur les données est nécessaire. Une l’informatique, la science des données et approche scientifique appropriée et une l’entreprise. culture des données doivent être partagées au sein de l’équipe et, idéalement, dans L’équipe toute l’entreprise. Parce qu’une fixation Le montage de la bonne formule d’objectifs réussie repose sur l’imitation d’ensembles de compétences est un défi de la méthode scientifique et des tests pour les chefs de projets de données en d’hypothèses exploratoires, l’équipe raison de l’évolution dynamique de la de scientifiques des données doit être technologie, des ensembles de données menée par un sens de la curiosité et de de tailles de plus en plus importantes et l’exploration. Le chef de projet doit veiller à des compétences requises pour tirer de la ce que la curiosité soit dirigée et maintenue valeur de ces ressources. sur la cible. Un scientifique des données représente Les questions d’encadrement suivantes Figure 21 : Quadrant 2 de l’Anneau généralement une équipe de personnes aideront les chefs de projet à identifier les des données : COMPÉTENCES qui traitent des données. Au-delà ressources et les besoins : 112 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES • Qui est responsable de la gestion des Compétences : Informatique Certaines infrastructures d’entreprises données dans l’entreprise ? De quelle Les données sont des éléments et exigences de certification pourraient façon ? nécessiter des choix différents de codage d’information numériques qui doivent être • Existe-t-il des collaborations en cours acquises, stockées, traitées et gérées par tels que Scala, Java ou C ++. Cela peut avec des instituts de recherche ou des des outils informatiques, des langages de être un problème pour l’échelle d’un organismes qualifiés pour réaliser les programmation et de script, et des bases de objectif ; au-delà du prototypage et de activités de science des données ? données. Par conséquent, les compétences la mise en œuvre dans la production, des • Quels sont les canaux de recrutement doivent rassembler des connaissances sur solutions de programmation au niveau existants concernant les professionnels les éléments suivants : de l’entreprise seront toujours requises, spécialisés dans les données ? ainsi que les compétences nécessaires Informatique en Cloud pour la mise en œuvre. Cela signifie aussi • Comment la culture de données est- elle promue dans l’entreprise, et qui est Lorsque les données sources sont probablement qu’un remaniement de impliqué ? « méga » ou immenses, les outils normaux code, ou une traduction entre les langages de programmation et les ressources informatiques, peuvent être nécessaires, • En quoi la collaboration multidisciplinaire informatiques locales, telles que les ainsi que des interactions fortes entre est-elle favorisée dans la planification et ordinateurs personnels, deviennent l’équipe de données et l’informatique et les l’exécution du projet ? rapidement insuffisantes. Les solutions employés de l’ingénierie. • Comment la validité scientifique est-elle « en nuage » sont une réponse pratique et assurée dans le choix des algorithmes Bases de données et stockage efficace à ce problème, mais elles signifient et des représentations de données des données la maitrise de connaissances essentielles mathématiques (modélisation) ? Une sur les systèmes de virtualisation, en Le chapitre 1 traite des données structurées personne qualifiée s’assure-t-elle que les mettant à l’échelle les paradigmes et ou non structurées. Un projet de données résultats sont vrais ? la programmation de Frameworks peut puiser dans les deux, qui sont traitées • Qui garantit que les bonnes pratiques (voir le chapitre 2.2.3, Base de données respectivement par des bases de données sont en vigueur et que les algorithmes technologique). relationnelles et des bases de données sont programmés de manière efficace ? non relationnelles. L’utilisation de ces • Existe-t-il une collaboration ouverte entre Langages des scripts outils nécessite différents ensembles de l’équipe spécialisée dans les données et compétences. Les données provenant de Travailler avec une infrastructure d’autres unités opérationnelles ? bases de données transactionnelles de informatique signifie coder. Python ou R sont souvent les meilleures options l’entreprise sont susceptibles de provenir Une équipe complète et hautement interdisciplinaire est difficile à mettre sur pour obtenir rapidement des prototypes de bases de données relationnelles. De plus pied, et la plupart des entreprises n’auront et explorer des modèles de données. Ce en plus, même les données internes, telles probablement pas toute l’étendue des sont des choix probables pour un objectif que les informations biométriques ou de compétences pertinentes pour tirer parti de MVP et le développement de projets la KYC, peuvent être stockées par les deux de la demande. La compréhension de ces à un stade précoce. Les deux langages de solutions, selon la méthode de collecte. Un lacunes est généralement la première script sont devenus quasi incontournables algorithme de notation de risque de crédit étape pour être conscient du plein potentiel en tant qu’outils de science de données, qui vise toutefois à utiliser les données et de la planification des investissements et l’équipe doit idéalement être capable des réseaux sociaux est susceptible de dans l’externalisation, qui sont considérés de programmer dans les deux langages puiser dans des données non structurées comme une partie intégrante de la (voir le chapitre 2.2.3, Base de données provenant de sources de données non planification de processus. technologique). relationnelles. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 113 2.1_GESTION D’UN PROJET DE DONNÉES Contrôle de version et Curiosité et esprit scientifique Conception et visualisation collaboration L’attitude et les compétences Cela nécessite un ensemble de Des outils de résolution de problèmes de comportementales sont des facteurs compétences multidisciplinaires en termes versions sont cruciaux pour l’organisation essentiels à la réussite d’une équipe de de besoins techniques et commerciaux. de l’évolution du code, de la maintenance et Sur le plan technique, la visualisation de science des données. Les personnes qui du travail d’équipe et sont donc essentiels données ne doit pas exclusivement être cherchent à explorer, fouiller, agréger, pour une bonne planification du projet. considérée comme la dernière partie du intégrer - et donc identifier des modèles et projet visant à embellir les résultats. Elle est Compétences : Sciences des données les connexions - obtiendront de meilleurs utile pendante toute l’exploration et tout le résultats. En d’autres termes, certaines Outils scientifiques prototypage, et est bien intégrée à certains « compétences de piratage » représentent stades périodiques du projet, ce qui en Différents contextes nécessiteront un une valeur ajoutée pour l’équipe de science dosage spécifique en fonction des besoins fait un ensemble de compétences de base des données ; autrement dit, l’équipe permettant aux scientifiques des données du projet, mais les éléments suivants font doit posséder une approche mentale de d’identifier des modèles. partie des grands domaines universitaires résolution de problèmes et une motivation auxquels les projets de données sont interne pour trouver des modèles grâce à Compétences : Activité susceptibles de devoir faire appel : une analyse méthodique. La définition d’objectifs est essentiellement • Un bagage solide en statistiques : liée à la fourniture de résultats utilisé pour les tests d’hypothèses et la De plus, la validation scientifique est commercialement pertinents et à la validation des modèles essentielle pour un projet de données, comparaison par rapport aux paramètres • Théorie des réseaux : une discipline et les scientifiques des données doivent et ICP appropriés. Savoir comment faire le qui utilise des nœuds et des liens pour avoir un esprit scientifique. Autrement lien entre ces indicateurs et l’exécution du représenter mathématiquement des dit, une approche méthodique pour projet est l’objet même de la réalisation du réseaux complexes ; essentiel pour toute poser et répondre à des questions et projet. Cela nécessite que l’équipe du projet donnée de réseau social ou cartographie une volonté de tester et de valider les ait une solide connaissance des affaires. Un de transactions de type P2P résultats. Chose importante, les membres point de vue commercial clair est essentiel • Apprentissage automatique : une de l’équipe doivent puiser leur motivation pour l’interprétation des résultats et, au discipline qui utilise des algorithmes bout du compte, pour utiliser et mettre en dans les résultats et être ouverts à toute pour tirer des enseignements de œuvre le projet pour créer de la valeur. En interprétation qu’offre une solide analyse comportements de données sans règle matière de compétences, le message clé des données, même si les résultats générale prédéfinie explicite ; la plupart est qu’un « agent du carrefour » doit jouer peuvent contredire les attentes initiales. des projets qui offrent un modèle ou un les rôles d’intermédiaire entre les données, Conformément à la méthode scientifique, algorithme les spécialistes techniques, la gestion des cette approche doit se concrétiser sous affaires et la stratégie afin de traduire les • Les sciences humaines, le TLN, la science forme de compétences comportementales, indications tirées des données pour les non de la complexité et l’apprentissage en profondeur sont aussi des compétences par exemple faire des observations, trouver techniciens ; le rôle de cet intermédiaire souhaitables qui pourraient jouer un des questions intéressantes, formuler des est aussi de reformuler les besoins des rôle clé dans des domaines spécifiques hypothèses et développer des prédictions entreprises sous forme d’algorithmes d’intérêt testables. et de solutions techniques pour les 114 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES communiquer à l’équipe. Une expertise locaux. Cela peut présenter des risques appelée opérations de données, qui incarne si les lois changent, tout en présentant l’essence de ce rôle, se développe de plus des opportunités en collaborant pour en plus. construire un environnement favorable. Respect de la vie privée et En termes d’ensembles de compétences, aspects juridiques les membres de l’équipe du projet doivent tous avoir une certaine conscience A l’exception des cas où des ensembles juridique de base. Cela permet d’identifier de données sont publiés sous licence libre les problèmes potentiels et de mettre - permettant explicitement l’utilisation, en place un dialogue constructif avec les le remaniement et la modification - par juristes responsables. Des connaissances exemple en utilisant des initiatives de juridiques sont particulièrement utiles données ouvertes, les questions liées à la lors de la sécurisation des consultants vie privée, à la propriété des données et aux externes et de la vérification que les droits d’utilisation à des fins spécifiques ne accords de non-divulgation (NDA) sont sont pas négligeables (voir les obstacles complets, respectent la réglementation, et juridiques auxquels les données sont peuvent être maintenus. Tant d’un point confrontées - dans Accessibilité des de vue interne qu’externe, les données données à la page 108). Des juristes peuvent également être une source de d’entreprise doivent être consultés pour fraude. Les cas de fraude sont de plus en s’assurer que toutes les préoccupations plus sophistiqués sur le plan technique des parties prenantes sont dûment et axés sur les données. Même si une prises en compte. Cela dit, les problèmes équipe de science des données cherche de mégadonnées et de confidentialité des compétences de pirates informatiques représentent un terrain nouveau, et pour équilibrer les compétences, il ne faut la législation visant à réglementer pas que de vrais pirates soient présents l’approche des données est encore en dans ses rangs. Il est essentiel que cours de développement. De nombreuses toute l’équipe soit bien au courant des sociétés développent aujourd’hui leurs considérations juridiques et responsables, activités fondées sur les données en tirant à la fois juridiquement et moralement, de parti des lacunes juridiques des droits leur respect. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 115 2.1_GESTION D’UN PROJET DE DONNÉES Leçons du secteur : Rendre anonymes des données Confidentialité des données et protection des consommateurs : L’anonymisation des données des utilisateurs est nécessaire et difficile En 2006, America Online (AOL), un recherches étaient les siennes. En Netflix, une société de films et prestataire de services Internet, a rendu termes de relations publiques, ce fut un de médias en ligne, a parrainé et publiques 20 millions de requêtes de désastre pour AOL. eu recours à la communauté des recherche pour étude. Les personnes internautes pour financer un concours avaient été rendues anonymes par Une autre violation de données a fait les mettant au défi les scientifiques des un nombre aléatoire. Dans un article titres de la presse en 2014 lorsque Vijay Pandurangan, un ingénieur en logiciel, données d’améliorer de 10 pour cent du New York Times, les journalistes Michael Barbaro et Tom Zeller a identifié 173 millions de dossiers de son algorithme interne de prévision décrivent comment le numéro de client chauffeurs de taxi publiés par la ville des notations des films par les clients. 4417749 a été identifié et par la suite de New York pour une initiative de L’une des équipes a pu identifier les interrogé pour leur article. Alors que données ouvertes. Les données ont été habitudes de visionnage de films des l’utilisateur 4417749 était anonyme, cryptées en utilisant une technique qui utilisateurs cryptés pour le concours. ses recherches ne l’étaient pas. rend mathématiquement impossible En recoupant les données avec Il s’agissait d’une internaute l’opération d’une ingénierie inverse sur l’Internet Movie Database (IMDB), passionnée, utilisant des termes de la valeur chiffrée. L’ensemble de données qui fournit une plateforme de réseaux recherche permettant de l’identifier : ne comportait aucune information sociaux pour que les utilisateurs « doigts engourdis », « hommes de recherche comme Arnold, mais célibataires dans la soixantaine », puissent noter les films et écrire leurs les numéros d’immatriculation des propres critiques, les utilisateurs ont « chien qui urine partout ». taxis cryptés avaient une structure été identifiés par les modèles de séries Les recherches incluaient des noms publiquement connue : numéro, lettre, de personnes et d’autres informations de films notés de façon identique spécifiques, notamment « paysagistes numéro, numéro (par exemple, 5H32). dans les ensembles de données à Lilburn, Géorgie, États-Unis Pandurangan a calculé qu’il n’y avait publics d’IMDB et cryptés de Netflix. d’Amérique ». Aucune recherche isolée que 23 millions de combinaisons, donc il a simplement soumis toutes Netflix a conclu des arrangements à ne permet d’identifier quelqu’un, mais l’amiable pour des procès intentés pour un détective ou un journaliste, il les entrées possibles à l’algorithme de chiffrement jusqu’à ce qu’il produise les par les utilisateurs identifiés et a fait est facile d’identifier les femmes dans la soixantaine avec des chiens mal résultats correspondants. Compte tenu l’objet d’enquêtes sur la vie privée élevés et des petits jardins agréables de la puissance de calcul actuelle, il a des consommateurs lancées par le à Lilburn, Géorgie. Thelma Arnold pu identifier des millions de chauffeurs gouvernement des États-Unis. a été retrouvée et a affirmé que les de taxi en seulement deux heures. Rendre anonymes de façon correcte des données est très difficile, car il existe de nombreuses façons de reconstituer les informations. Dans ces exemples, utiliser des références croisées de ressources publiques (Netflix), la force brute et des ordinateurs puissants (taxis de New York), et les techniques de détective à l’ancienne (AOL) ont conduit à des violations de la vie privée. Si des données sont publiées pour des projets de données ouvertes, de recherche ou autres, un grand soin est nécessaire pour éviter les risques d’identification et leurs graves conséquences juridiques et en termes de relations publiques. 116 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Sciences humaines et données qui utilisent des approches automatisées, Quadrant 3 : il existe des risques importants qu’un Le croisement des compétences en projet de données puisse fournir des PROCESSUS données et des sciences humaines est un résultats qui ont l’air fantastiques mais qui, nouveau domaine d’activité de recherche à l’insu de ses concepteurs, sont le produit et un ensemble de compétences clé pour d’une mauvaise veille économique. Par les équipes de projet. La motivation des conséquent, le dialogue permanent avec entreprises pour un projet de données se les experts du secteur doit faire partie résume généralement aux clients, qu’il se intégrante de la conception du projet. rapporte à une augmentation de l’activité, à de nouveaux produits ou à de nouvelles Communications caractéristiques démographiques. Pour Les données racontent une histoire. interagir avec les clients, il faut savoir En réalité, des chiffres précis peuvent quelque chose sur eux. Les compétences en raconter quelques-unes des histoires les sciences humaines des données permettent plus intéressantes d’une manière concise. d’interpréter les résultats à travers un Les liens entre les communications regard qui cherche à comprendre ce que les d’entreprise et les équipes de projet sont utilisateurs font ou ne font pas et pourquoi ; Figure 22 : Quadrant 3 de l’Anneau des un élément important pour l’utilisation ainsi, les équipes sont en mesure de mieux des résultats du projet – tout comme le données : PROCESSUS identifier les modèles de données utiles et fait d’être en mesure de les mettre en d’affiner des modèles autour de variables œuvre de la bonne façon, en harmonie Dans les sections précédentes, nous nous qui représentent les normes sociales et les avec la stratégie de communication. sommes intéressés à la moitié supérieure de activités des clients. Il existe aussi une forte relation de l’Anneau des données, en nous concentrant communication avec la visualisation des sur les exigences pratiques (infrastructure, Expertise sectorielle données et la conception, en particulier données et outils) et les exigences humaines L’expérience dans le domaine, la pour les projets en relation directe avec (savoir-faire et compétences). Dans cette connaissance du marché et l’expertise le public. La visualisation des données section, nous passons à la moitié inférieure sectorielle sont tous des termes qui est importante pour la communication de l’Anneau des données, qui porte sur le décrivent la relation essentielle entre les des résultats intermédiaires et finaux. résultats du projet et la valeur commerciale. processus de conception et de réalisation S’assurer de disposer des compétences de En l’absence d’expertise sectorielle, d’un projet de données. conception visuelle est aussi important de mauvaises données peuvent être que les compétences techniques pour Reconnaissant que les entreprises ou les analysées, des modèles très précis peuvent tracer les graphiques, rendre les résultats institutions disposent d’approches qui leur tester des hypothèses erronées, ou des interactifs ou les offrir au public sur des variables statistiquement significatives qui sont propres, basées sur une combinaison sites Web. Pour de nombreux projets de n’ont aucun lien avec des ICP commerciaux données, la visualisation est un livrable d’histoire de l’organisation, de culture pourraient être choisies. Alors que de fondamental, comme pour les tableaux d’entreprise, de normes en matière d’ICP nombreux modèles d’apprentissage de bord et de nombreux objectifs du et de règles de gestion des données, les automatique produisent des « boites projet visant spécifiquement à orienter la pratiques suivantes sont considérées noires » ou des cadres d’infrastructure communication de l’entreprise. comme des bonnes pratiques générales ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 117 2.1_GESTION D’UN PROJET DE DONNÉES pour permettre la réalisation de projets les projets de suivi ou les analyses dérivées par type de produit, afin de montrer les fondés sur des données et leurs livrables. qui se fondent sur des données pré- tendances, les pics, les creux et les lacunes. agrégées nettoyées. Livré tôt dans le processus d’exécution, Les projets de données doivent définir leurs le rapport d’inventaire des données est livrables, résultats de la Planification et de Questionnaires et outils l’occasion de discuter des risques potentiels l’Exécution du projet. Ces résultats sont des de collecte du projet liés aux données sous-jacentes, intermédiaires entre le Processus et le bloc Les projets qui nécessitent une collecte de ainsi que des stratégies de rectification du suivant qui vise à les convertir en valeur données primaires, à la fois quantitatives cap et de la nécessité d’affiner les données commerciale. La liste suivante précise et qualitatives, peuvent exiger l’utilisation ou d’en acquérir de nouvelles. Il s’avère huit éléments communs à de nombreux ou le développement d’outils de collecte particulièrement utile pour indiquer les projets de données. Le cas échéant, ces de données, tels que des instruments exigences de nettoyage des données et éléments doivent figurer dans le calendrier de sondage, des questionnaires, des de s’efforcer de régler les anomalies de de livraison d’un projet, ou être spécifiés données d’identification de localisation, manière statistiquement non biaisée. dans les termes de référence relatifs à la des rapports photographiques, ou capacité externalisée. encore des discussions de groupes ou Dictionnaire de données des entretiens. Ces instruments doivent Ensemble(s) de données Le dictionnaire de données consolide les être livrés, parallèlement aux données informations provenant de toutes les Les ensembles de données sont toutes recueillies, ainsi que les textes dans toutes sources de données. Il s’agit d’un recueil les données recueillies ou analysées. les langues utilisées, et leurs traductions de la description de tous les éléments En fonction de la taille, de la méthode de et transcriptions. Ces informations sont de données, comme les tableaux. Cette collecte et de la nature des données, le nécessaires pour permettre des enquêtes description inclut généralement le nom du format de l’ensemble ou des ensembles de suivi ou des questions sur la cohérence champ de données, son type, son format, sa de données peut varier. Ceux-ci doivent chronologique, et fournissent également tous être documentés, en fournissant taille, la définition du champ et, si possible, les documents d’audit ou de vérification des informations sur leur emplacement un exemple de ces données. Les champs nécessaires si des questions sont soulevées - par exemple sur un réseau ou dans de données qui constituent un ensemble quant aux méthodes de collecte de données un nuage - et comment y accéder. Les doivent lister toutes les valeurs possibles. à un stade ultérieur. saisies brutes doivent être « nettoyées », Par exemple, si un ensemble de données de un processus abordé dans la section sur Rapport d’inventaire de données transaction comporte une colonne appelée l’exécution ci-dessous. Les ensembles de Il s’agit d’un rapport incluant une synthèse « produit » qui indique si une transaction données nettoyés doivent être considérés des données utilisées pour l’analyse. Ce était un rechargement, une transaction comme des livrables spécifiques, tout rapport inclut le type, la taille et la date pair à pair ou un retrait en espèces, alors comme les méthodes scriptées ou les des fichiers. Il doit inclure des discussions le dictionnaire énumérera toutes les étapes méthodologiques utilisées pour sur les anomalies ou lacunes majeures valeurs du produit et décrira leurs codes nettoyer les données. Enfin, les ensembles observées dans les données, et évaluer respectifs observés dans les données, telles de données et les méthodes agrégés si les anomalies sont susceptibles d’être que TUP, P2P et COT respectivement. pourraient également être considérés statistiquement biaisées pour présenter Pour les données qui ne sont pas dans un comme des livrables spécifiques. Ceux-ci des risques d’interprétation. Il peut ensemble discret, comme de l’argent, alors sont nécessaires pour aider les promoteurs inclure des graphiques qui représentant une fourchette de valeurs min-max est de projets à voir ce qui a été fait aux les principaux points de données pour généralement indiquée, ainsi que son unité données et éventuellement à détecter les les principaux segments, comme les d’indicateur, comme le type de devise. erreurs. En outre, ceux-ci viennent appuyer transactions dans le temps, désagrégées Les relations avec d’autres ensembles de 118 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES données doivent également être spécifiées, du projet. Les résultats exploratoires Livrables analytiques : Résultats, le cas échéant. Par exemple, le champ de viennent généralement appuyer les algorithmes, listes blanches et données du numéro de compte d’un client livrables intermédiaires ou les évaluations visualisations peut être présent dans les ensembles de des étapes du projet. Ces résultats peuvent Il s’agit des véritables résultats du projet. Un données de transactions de produits, ainsi également être synthétisés pour faciliter la projet de segmentation de clientèle peut que dans les ensembles de données de la formulation de l’état et de la progression inclure une liste blanche des clients à cibler KYC. La spécification de ce lien permet du projet en mettant en évidence les et les scores de propension associés, ainsi de comprendre comment les données questions actuellement à l’étude ainsi que que des informations de géolocalisation peuvent être fusionnées, ou d’identifier les questions qui ont déjà été traitées. Un possibles pour informer une campagne dans quels domaines des exigences de journal de bord des initiatives à l’étude et de marketing. Un algorithme de notation métadonnées supplémentaires peuvent des principales constatations se révèle utile de risque de crédit fournit des ensembles être nécessaires pour faciliter une telle à cet égard. de résultats pour les utilisateurs spécifiés fusion. Le dictionnaire de données est dans les ensembles de données de contrôle généralement fourni parallèlement au Graphiques de validation et de traitement et le code du modèle lui- rapport d’inventaire de données, en du modèle et indicateurs de même, ou une visualisation incluant des appui à une discussion sur la conception performance scripts pour tracer les KPI et les animer, stratégique d’un projet, l’évaluation des Pour les projets de données fondés sur des et les scripts Web ou autres éléments risques ou les exigences de données pour une interface utilisateur. Chaque modèles, il s’agit d’une liste de graphiques supplémentaires dans les premiers temps projet disposera de son propre ensemble présentant les indicateurs de performance du projet. de livrables nuancés. Ceux-ci doivent être les plus pertinentes du modèle prédictif. Voir le chapitre 2.2.4 : Indicateurs des définis dans le cadre de la conception du Analyses exploratoires et journal modèles de données pour une liste des processus du projet. de bord 10 meilleurs indicateurs et définitions Il s’agit d’un ensemble de courbes, de Rapport d’analyse final et de la performance. Ces graphiques et discussion sur le coût-bénéfice de graphiques ou de données sous forme indicateurs seront utilisés pour évaluer la mise en œuvre de tableaux récapitulant les principales l’efficacité et la fiabilité du modèle. Les caractéristiques d’une étude spécifique Il s’agit du rapport final présentant les tableaux de validation peuvent inclure ou d’un test d’hypothèse. Toutes les résultats des analyses, qui répond aux statistiques descriptives des données les graphiques de gains et de lift, et les questions et se réfère aux objectifs fixés peuvent également être incluses, par indicateurs de performance dépendront du et convenus au début du projet. Celui- exemple les moyennes, médianes ou projet particulier. Ces indicateurs peuvent ci doit être fourni conjointement aux écarts types. La partie analyse exploratoire par exemple inclure le test Kolmogorov- livrables analytiques. En plus de discuter de l’identification des tendances et Smirnov (KS), la courbe de fonction de la méthodologie, du processus, des des modèles découverts dans les d’efficacité du récepteur (ROC, Receiver conclusions et des solutions aux défis données est nécessaire pour affiner les Operating Characteristic) ou le coefficient clés, le rapport final doit formuler la hypothèses analytiques, contextualiser de Gini. Ces informations sont nécessaires proposition de valeur fondamentale des les métadonnées ou identifier les pour évaluer les étapes de réalisation livrables analytiques. Cela peut inclure : « caractéristiques » utilisées dans un modèle. des objectifs. L’approbation du modèle à les gains d’efficacité et les économies de L’analyse exploratoire est effectuée dans le des fins de production ou de répétition à coûts découlant d’un meilleur marketing cadre de l’exécution initiale du projet, et elle l’étape suivante doit devrait se fonder sur fondé sur les données ; les prévisions se poursuit souvent jusqu’à l’achèvement ces indicateurs. d’augmentation des opportunités de prêt ; ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 119 2.1_GESTION D’UN PROJET DE DONNÉES ou les gains de productivité découlant des Par exemple : rejeter une hypothèse nulle croire que s’ils le réajustent différemment, la tableaux de bord. Le rapport final doit être à un niveau de confiance de 90 pour cent ; fois suivante ils pourront atteindre 85 pour examiné à la lumière de la stratégie de mise atteindre un taux d’exactitude du modèle de cent. D’autres pensent pouvoir ajouter de en œuvre du projet, afin de réfléchir au 85 pour cent ; ou un temps de réponse sur nouvelles données clients pour améliorer le coût-bénéfice de la proposition de valeur une décision de notation de risque de crédit modèle. Cette situation fluide ne contribue dans les livrables analytiques et aux besoins inférieure à deux secondes. La définition pas à l’estimation des budgets, mais les chefs en ressources pour les mettre en œuvre à préalable des indicateurs évite les risques de projet doivent utiliser les paramètres du l’échelle attendue dans le cadre du projet. liés à la post-validation lorsque, en raison de budget comme instruments pour adapter seuils vagues, les chefs de projet fournissent leur travail, leur engagement et leur espace Processus : Planification des résultats « satisfaisants ». Cela vise en vue de tester différentes hypothèses. Les considérations suivantes sont souvent à tenter de justifier l’investissement, Les investissements initiaux doivent particulièrement pertinentes en matière ou pire encore, affirmé des résultats à comprendre ce processus exploratoire et de planification de projets de données et l’encontre des convictions, en insistant sur itératif et les risques qui y sont associés. pour aider à définir le champ des livrables le fait qu’ils devraient fonctionner. Voir le Le concept d’échelle du produit contribue chapitre 2.2.3: Indicateurs pour l’évaluation intermédiaires et finaux. également à atténuer ce risque ; commencez des modèles de données, qui fournit une petit, et développez en répétant. Cela risque Points de comparaison liste des 10 meilleurs indicateurs utilisés dans de provoquer des inefficiences en termes les projets de modélisation de données. Les Au cours de la planification de la phase d’échelle et de retravailler le code, mais indicateurs liés à l’expérience utilisateur sont d’exécution, il est essentiel de comprendre permet également d’atténuer les risques également importants, mais doivent être qui d’autre a rencontré un problème budgétaires, tels que l’achat de nouveaux propres au contexte du projet. Par exemple, similaire et comment il a pu être abordé ordinateurs pour ensuite constater que lorsque vous évaluez le temps d’attente et résolu. La littérature scientifique est l’hypothèse ne tient pas. acceptable avant qu’un utilisateur obtienne une véritable mine d’informations et les une décision automatisée de notation de limites entre la recherche et l’application La planification du calendrier est associée risque de crédit, le plus vite est le mieux. opérationnelle se chevauchent souvent à des considérations similaires à celles de Cependant, un ICP doit être préalablement dans le domaine des données. Du point la planification budgétaire. Encore une défini pour permettre à l’équipe du projet de de vue de la gestion de projet, l’évaluation fois, le compromis consiste à consacrer livrer un produit bien adapté. comparative consiste à analyser les suffisamment d’espace à l’exploration et entreprises concurrentes et leurs activités Budget et calendrier à la recherche en restant centrés sur les dans le domaine des données, en veillant à La planification et le contrôle de gestion objectifs et les indicateurs. Une technique ce que le projet soit aligné sur les pratiques doivent tenir compte de l’état d’ouverture de gestion de projet tirée de l’industrie du et les opérations internes de l’entreprise. quasi permanent des projets de données. logiciel, appelée « méthode agile », est utile Autrement dit, ne réinventez pas la roue. Les objectifs et les cibles montrent un dans les projets de données. Cette approche point final, mais jusqu’à ce qu’il soit atteint, se penche sur la progression du projet par Indicateurs et ICP le biais de cycles endogènes dans lesquels un projet de données consiste souvent en Les indicateurs sont les paramètres des modifications constantes basées sur la production est une chose mesurable et qui actionnent l’exécution du projet l’amélioration de la compréhension et de la vérifiable. Cela contribue à intégrer une et déterminent si celui-ci est réussi. définition des problèmes. Certains peuvent exploration dans un cycle spécifique. 120 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Partenariats, externalisation et scripts et les codes informatiques écrits • Cryptage : Les informations sensibles appel à la contribution collective pour procéder à l’analyse, et même les ou d’identification doivent être cryptées, ensembles de données intermédiaires, les brouillées ou rendues anonymes et rester Cette question est particulièrement agrégats et les segmentations qui viennent dans le pipeline de données complet. importante du point de vue des ressources alimenter d’autres processus. du projet. Poser des questions sur la • Autorisations : L’accès aux ensembles conception de projet quant aux exigences Gestion des données de données doit être défini de manière et à leur suffisance contribue à identifier Il s’agit de la façon dont les données sont très précise selon les rôles au sein de les lacunes que les chefs de projet pourront utilisées, à quel moment et qui y a accès. l’équipe, ou par point d’accès (c.-à-d. combler. Surtout, cela ne se limite pas aux La planification de la gestion des données à partir des pare-feux d’entreprise, par ressources humaines. L’informatique en doit tenir compte de la politique générale opposition aux réseaux externes). nuage est un outil informatique externalisé. de l’entreprise, des exigences juridiques et • Sécurité : Les ensembles de données Même les données peuvent venir de des politiques de communication. L’objet placés dans l’environnement d’ l’extérieur, que ce soit en octroyant la du plan est de permettre l’accès aux « expérimentation » du projet doivent licence aux fournisseurs ou en établissant données à l’équipe du projet et à ceux qui interviennent dans la livraison, tout en disposer de leur propre système de sécurité des partenariats qui permettent d’y accéder. L’appel à contribution collective est une préservant l’équilibre en termes d’exigences ou pare-feu, ainsi que d’une capacité à technique émergente visant à solliciter de confidentialité des données et de authentifier les accès privilégiés. des équipes de données complètes en leur sécurité. Le plan de gestion des données • Connexion : L’accès et l’utilisation donnant des limites exploratoires très larges, est généralement affecté par l’échelle du doivent faire l’objet d’un historique et généralement dans le but de fournir une projet, les projets plus importants étant pouvoir être vérifiés, et activés pour créativité pure et des solutions innovantes susceptibles de comporter davantage permettre l’analyse et l’établissement de à un problème fixe, pour une prime fixe. de risques que des projets plus petits. rapports. On citera pour exemple Kaggle, qui est Un défi majeur réside dans le fait que un pionnier de premier plan en matière l’approche fondée sur la science des • Réglementation : Le plan doit s’assurer d’expertise en science des données en données bénéficie d’un accès à autant que les exigences réglementaires crowd-sourcing ; ou le service « Mechanical de données que possible afin de relier les sont respectées, et des accords de Turk » d’Amazon pour les petites tâches ou ensembles de données et d’explorer les confidentialité ou des contrats juridiques enquêtes en crowd-sourcing. modèles qui en découlent. Mais en même doivent être en place pour couvrir toutes temps, plus de données et plus d’accès les parties prenantes du projet. Les droits Un élément important à considérer est présentent également davantage de et la confidentialité des clients doivent la propriété intellectuelle. Les droits risques. La gestion des données de projet également être protégés. doivent être spécifiés dans les accords doit également spécifier le plan d’ETL. contractuels. Ceci inclut la propriété Cela englobe également le transport ou la Processus : Exécution intellectuelle existante ainsi que la planification des mouvements physiques ou numériques, qui doivent tenir compte Tout comme l’Anneau des données propriété intellectuelle créée dans le cadre du projet. Prenez en compte l’intégralité du transit dans des environnements représente un processus cyclique, la de la phase de processus et d’exécution le politiques ou réglementaires, par exemple phase d’exécution de nombreux projets long du pipeline de données. La propriété d’une entreprise en Afrique à un fournisseur de données tend à constituer une sorte intellectuelle englobe plus que les résultats d’analyse externalisé en Europe. Le plan de boucle dans la boucle. Ce qu’on appelle livrables finaux ; elle comprend les doit tenir compte des principes suivants : généralement l’ « analyse de données » ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 121 2.1_GESTION D’UN PROJET DE DONNÉES constitue en réalité davantage un ensemble utiliser un cadre de processus analytique Nettoyer, explorer et enrichir les d’étapes progressives et itératives. C’est spécifique, ou dont les projets peuvent être données un parcours d’exploration et de validation mieux desservis par une approche donnée, C’est à cette étape que l’équipe chargée de d’hypothèses jusqu’à ce qu’un résultat peuvent facilement intégrer ces cadres dans la science des données commence vraiment réponde aux indicateurs cibles définis. la spécification de conception de projet à travailler. La probabilité qu’un ensemble d’Anneau des données ici, dans la phase de données réponde parfaitement aux La phase d’exécution ressemble beaucoup d’exécution. Les étapes suivantes sont besoins de l’étude est faible. Les données aux cadres établis pour l’analyse des données, également fournies comme un processus devront être nettoyées, ce qui consiste à : tels que le CRISP-DM ou autres adaptations.39 général d’exécution d’analyse des données Les gestionnaires de projet qui préfèrent à utiliser à titre de bonne pratique. a. Traiter : Convertir les données à un format commun, compatible avec les outils de traitement. b. Comprendre : Vérifier les métadonnées et la documentation disponibles pour PROCESSUS savoir ce que sont les données. Exécution c. Valider : Identifier les erreurs, les champs vides et les mesures anormales. d. Fusionner : Intégrer les descriptions S AT LT Élaboration d’une hypothèse S numériques (lisibles par machine) des U RÉ VALEUR événements effectués manuellement par des personnes pendant le processus de collecte de données afin de fournir une explication claire de tous les Nettoyage, exploration, événements. enrichissement des données Validation de l’hypothèse ? e. Combiner : Enrichir les données par d’autres données, qu’elles proviennent de la même société, du domaine public ou d’ailleurs. f. Procéder à une analyse exploratoire : Utilisation d’outils de science des Utiliser des techniques de visualisation Compréhension des résultats données de données pour explorer partiellement les données et les modèles. g. Itérer : Itérer jusqu’à ce que les erreurs soient comptabilisées et qu’un processus soit en place pour passer efficacement des données brutes à des données Figure 23 : Processus d’exécution de l’Anneau des données opérationnelles. C’est le processus minimum pour assurer la viabilité. 39 Les méthodes de processus d’analyse de données connexes comprennent, par exemple : « Knowledge Discovery in Databases Process » (KDD Process) d’Usama Fayyad ; « Sample, Explore, Modify, Model, Assess » (SEMMA) du SAS Institute; « Analytics Solutions Unified Method for Data Mining/Predictive Analytics » (ASUM-DM) d’IBM; « Data Science Team Process » (DSTP) de Microsoft 122 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Utiliser les outils de la science (c.-à-d. incluant un contrôle des erreurs La phase d’exécution d’un projet est ce des données arithmétiques ou erreurs de codage). qui va permettre de tester le processus C’est là que les spécialistes des données La résultante de tout calcul ou processus de conception et l’approche du projet, appliquent leur expertise. L’apprentissage analytique, grand ou petit, produira : en insistant pour une révision lorsque automatique, l’exploration de données, survient un imprévu. Le cadre de l’Anneau • des résultats inutilisables (ou incorrects) des données peut également contribuer à l’apprentissage profond, le TLN, la science des réseaux, les statistiques ou • des résultats insignifiants ou déjà connus résoudre les problèmes d’exécution pour (habituellement) une combinaison de • des résultats utilisables qui viennent identifier des solutions ; ses concepts ne ce qui précède sont appliqués. Lors de alimenter les étapes suivantes se limitent pas à la planification initiale. La l’élaboration de projets de données incluant trame de l’Anneau des données (discutée • des résultats inattendus (à étudier des modèles prédictifs, il est nécessaire de au point 2.1 : Application) est conçue dans avec un nouveau pipeline, de nouvelles mettre en place une stratégie de validation cette intention, pour fournir un modèle données ou une nouvelle approche) de modèle avant l’exécution du modèle. pouvant être constamment mis à jour pour Cela permet de tester statistiquement les La conception du projet doit reconnaitre refléter le statut du projet au cours de son hypothèses du projet. Dans la pratique, ces résultats possibles et être prête à exécution. l’ensemble de données qui pilote le modèle traiter chaque cas. Hormis les résultats Évaluation des indicateurs et doit être segmenté en un ensemble inutilisables, toutes les autres catégories étapes suivantes « témoin » et un ensemble « traitement » de résultats mériteront probablement par le biais d’une sélection aléatoire. Une un travail de présentation ou de rapport Ce n’est que par une définition initiale segmentation de 20 pour cent à 80 pour afin de les rendre compréhensible à quantitative et précise des objectifs et des cent constitue une approche courante et d’autres, et notamment aux membres indicateurs du projet que l’efficacité du basique. Le modèle est testé sur l’ensemble de l’équipe interne, aux gestionnaires, projet peut être jugée. Si les résultats ne « traitement ». Ensuite, le modèle peut aux clients et au public en général. Cela sont pas satisfaisants, le processus doit fonctionner sur l’ensemble témoin, et signifie habituellement un résumé écrit, un recommencer. Cette étape d’évaluation les valeurs prédites du modèle peuvent tableau, un graphique ou une animation, et d’itération est toujours critique, être comparées aux valeurs connues de ces supports permettant de présenter et mais présente des considérations l’ensemble témoin. C’est ainsi que les d’expliquer les résultats. Les experts en supplémentaires en cas de recours à taux de précision sont calculés et qu’une visualisation de données jouent un rôle des entreprises extérieures. Les livrables hypothèse peut être testée. essentiel dans ce processus, car il n’est peuvent être jugés inadéquats malgré la pas simplement question d’enjoliver les qualité du travail. La responsabilisation Compréhension, interprétation et des résultats livrés doit être convenue à résultats. La tâche difficile consiste à créer représentation des résultats l’avance, de même que le degré de marge des couches convaincantes, interactives et L’interprétation des résultats fera l’objet visuelles pour ajouter de manière succincte de manœuvre pour continuer à itérer d’une discussion plus approfondie dans des éléments au récit plus général du projet pour obtenir des résultats satisfaisants. la section suivante en termes d’apport qui doit constituer un énoncé du problème Exactement comme le rôle qu’ils jouent de Valeur commerciale. Mais du point de du projet en lui-même. dans la première étape, la définition des vue du processus, la compréhension des hypothèses, de cette boucle d’exécution, résultats se concentre sur la concordance La phase d’exécution est également les gestionnaires de projets de données entre les résultats obtenus et le produit l’occasion de réévaluer les plans du projet, jouent à nouveau un rôle clé pour s’assurer attendu de l’exécution du processus ; en remarquant à nouveau qu’il vaut que les scientifiques restent concentrés sur l’objectif est également de s’assurer qu’ils mieux que les projets de données soient les principaux objectifs et renforcent les sont valides sur le plan informatique réalisés en utilisant une approche itérative. itérations futures. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 123 2.1_GESTION D’UN PROJET DE DONNÉES Quadrant 4 : VALEUR des tableaux de bord, des modèles prédictifs Valeur : Ajustement ou des leviers de prise de décision fondés Comprendre les résultats n’est que la sur les données, des outils d’automatisation tâche initiale. Les connaissances dérivées et, dans l’idéal, des idées commerciales des données doivent être transformées en puissantes. En d’autres termes, un projet actions concrètes qui se manifestent par de données se termine rarement par des des outils, des modèles et des algorithmes. recommandations. Il tend plutôt à délivrer En raison de l’approche itérative et des modules à mettre en œuvre. exploratoire d’un projet de données, la première fois qu’un résultat final est atteint, Valeur : Interprétation il sera invariablement d’allure grossière et La première étape suivant l’étape devra faire l’objet d’un ajustement pour d’exécution se concentre sur la en faire un outil opérationnel optimisé. compréhension de la proposition de valeur L’ajustement s’axe sur trois domaines : inhérente aux résultats et ce qui peut Entrée de données être nécessaire pour affiner ces résultats Figure 24 : Quadrant 4 de l’Anneau des ou leurs processus sous-jacents afin de Le choix et la qualité des données données : VALEUR réaliser l’objectif. Un nombre peut tout d’entrée peuvent déterminer de manière dire ou ne rien dire, selon l’interprétation décisive l’efficacité des algorithmes La valeur est la dernière partie de l’Anneau que l’on en fait. Comprendre les résultats utilisés pour effectuer l’analyse. Envisagez des données ou, sur le plan de la conception, l’apprentissage automatique, où les le point de départ des itérations futures ne consiste pas en une explication algorithmes développent une attitude afin d’ajouter ou de mettre en œuvre des simple des phénomènes. Il s’agit plutôt d’apprentissage après une phase de éléments ou développer la conception. de placer les résultats dans le contexte formation utilisant un sous-ensemble de Cette étape explique comment les résultats commercial et d’embrasser la complexité données. Par conséquent, en travaillant de l’exécution du processus sont en des opérations réelles. Cela nécessite avec les données, les opérations définitive transformés en « informations », également une approche transparente et apprennent progressivement à recueillir puis en « connaissances et valeurs » qui collaborative, pour discuter des résultats de meilleures données. L’amélioration peuvent être mises en œuvre. avec tous les acteurs du projet, afin de des données brutes et la réduction des déterminer ce qu’ils veulent dire sous tous Cette composante de création de valeur anomalies, des méthodes de collecte, des les angles. En gardant à l’esprit le rôle des des résultats est généralement l’une des saisies manuelles et des erreurs de collecte opérations de données (voir Compétences différences substantielles entre un projet entraineront des résultats ajustés avec plus commerciales), il n’est pas rare que les de précision au fil du temps. d’analyse de données traditionnel ou un projet de veille technologique et un spécialistes des données aient du mal à processus analytique avancé, en particulier expliquer la pertinence opérationnelle Infrastructure, compétences et dans la sphère des métadonnées. En effet, des résultats aux gestionnaires. Si une processus les livrables du projet sont rarement définis constatation importante est faite, sa valeur Après les premières itérations en termes de rapports écrits, du moins pas doit être communiquée avec succès à la d’exécution, on disposera d’une meilleure exclusivement. Les livrables des projets de direction, qui peut prendre sur une mesure compréhension de l’efficacité de l’équipe données se caractérisent généralement par à son sujet. allouée au projet, des processus de gestion 124 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES des données, ainsi que des outils logiciels Valeur : Mise en œuvre Ces descriptions peuvent orienter la et matériels disponibles. En outre, on stratégie de mise en œuvre, en formulant disposera d’une meilleure compréhension Stratégie de mise en œuvre ce à quoi ressemble le cas d’utilisation. de la manière dont l’ensemble de Pour avoir un impact réel, la stratégie de C’est également un élément important l’organisation du projet fonctionne. Les mise en œuvre doit être conçue dès le pour assurer l’adhésion de la direction. Par inefficacités seront révélées et, comme exemple, si le cas d’utilisation envisage une début, dans le cadre de la définition des nous l’avons déjà mentionné, tous les automatisation complète, les questions objectifs. Ce point doit être présent à l’esprit domaines du projet peuvent servir de conceptuelles du projet doivent demander tout au long du processus. Évitez le risque que l’infrastructure et les ressources soient sources de solutions potentielles. De d’obtenir d’excellentes données qui ne suffisantes pour mettre en œuvre un manière générale, l’ajustement a pour objet peuvent pas être utilisées dans la pratique. algorithme entièrement automatisé. Si un que toutes les composantes fonctionnent Un aspect essentiel de la stratégie de mise investissement dans un nouveau centre de mieux en mieux ensemble. Cela se fait en œuvre est de s’assurer de l’adhésion de données est nécessaire pour exécuter par le biais d’une meilleure organisation de de la direction. On peut supposer que l’algorithme et fournir des décisions de l’équipe, d’une communication plus forte, l’attribution de ressources offre un certain crédit juste-à-temps, il pourrait être difficile de compétences accrues de l’équipe, et par d’obtenir l’adhésion requise pour s’assurer niveau d’engagement. Cela dit, parce que la technologie, qu’il s’agisse de meilleures que les résultats du projet sont utilisés, alors les parties prenantes ont été assurées que méthodes, d’une puissance informatique qu’une stratégie de cas d’utilisation basée les processus exploratoires ne produisent accrue, ou une combinaison de tout ce qui sur un petit projet pilote mis en œuvre avec pas de résultats garantis, la stratégie de précède. les ressources existantes pourra constituer mise en œuvre doit assurer un soutien un cas plus facile. Sortie de données continu et une forte communication autour des résultats intermédiaires. Cout-bénéfice Enfin, les données de sortie doivent être examinées. Il est important que les résultats La proposition de valeur anticipée doit Les types d’analyses, tels qu’ils sont décrits de sortie ne soient pas biaisés ou affectés être formulée dans la conception initiale. au chapitre 1.1, peuvent également être par des erreurs (humaines ou autres), une Au début, cela peut l’être en termes pertinents pour réfléchir à la manière dont mauvaise intégration entre différentes généraux, par exemple un gain d’efficacité, les résultats sont utilisés : étapes du processus ou même des erreurs une réduction des couts ou la fidélisation de codage fréquentes. Souvent, cela veut des clients. À mesure que le projet se • Analyse descriptive : résumer ou dire examiner et corriger les données développe et que des résultats sont agréger des informations obtenus et ajustés, la proposition de valeur d’entrée. Il convient toutefois de noter que • Analyse diagnostique : Identifier des peut être quantifiée. Une fois l’objectif le processus analytique est parfaitement sous-ensembles d’informations basés atteint, cela contribue à définir ce qui a été capable d’introduire ses propres anomalies. sur des critères spécifiques effectivement obtenu et la valeur que cela Il s’agit à la fois d’un contrôle de validation • Analyse prédictive : se fonde représente. Le même processus doit être et d’une opportunité d’ajustement. En adopté quant à l’utilisation des résultats. fin de compte, l’examen des résultats généralement sur des sous-ensembles Au début, certaines exigences générales vient appuyer l’organisation et la fiabilité prédictifs, combinés avec des leviers en matière d’infrastructure ou de système générales, par exemple en veillant à ce décisionnels peuvent être envisagées. Une fois que le qu’une visualisation finale affiche les bons • Analyse prescriptive : entièrement projet a atteint le degré de maturité requis, résultats à 100 pour cent du temps et dans intégrée dans les systèmes automatisés ; la valeur doit être estimée par rapport au toutes les conditions. fait partie des opérations cout de la mise en œuvre de la solution. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 125 2.1_GESTION D’UN PROJET DE DONNÉES APPLICATION : Utiliser sans croiser la matrice d’affaires. Et on du projet. Ici, un aperçu étape par étape observe des individus apposant des post- vient affiner les cinq structures de l’Anneau l’Anneau des données it colorés sur des affiches de matrice, des données quant à leurs de leurs Une approche sous forme concentrés sur la difficile tâche de interrelations. Chacun des blocs centraux de matrice donner une vision schématique concise de l’anneau représente un élément d’un et complète de leur modèle économique. système dynamique et interconnecté. En tant qu’outil de planification, l’Anneau L’application répandue du cadre parmi les L’approche itérative et l’application en des données se présente sous forme de matrice. Une « matrice » est un outil utilisé innovateurs et les startups technologiques matrice permettent de les agencer dans un pour poser des questions structurées et fournit une base solide pour répondre aux schéma unique pour visualiser les éléments définir les réponses de manière organisée, besoins en gestion de projet qu’ont des du plan holistique, d’identifier les besoins et en un seul endroit. Les réponses sont projets de données novateurs et fondés les lacunes en matière de ressources et de simples et descriptives ; même quelques sur la technologie. Il existe quantité de développer un système harmonieux. mots suffiront. Il peut encore falloir des ressources excellentes proposant des semaines pour développer une matrice informations supplémentaires sur la Pour ce faire, une planification itérative solide pour piloter la planification du projet, matrice d’affaires, mais ce n’est pas une est adoptée, dans laquelle un objectif doit car l’interaction des questions directrices condition préalable pour comprendre ou d’abord être défini. Une fois que l’objectif est remet en cause la compréhension appliquer l’Anneau des données. défini, l’approche procède étape par étape approfondie des problèmes, des solutions en faisant le tour de l’anneau pour formuler envisagées et des outils permettant de La matrice de l’Anneau des données les ressources, les relations et les processus les livrer. Une liste des quatre principales s’inspire de cette approche, et est appliquée nécessaires pour atteindre le but. À cette raisons d’adopter une approche sous forme aux exigences spécifiques de la gestion de fin, quatre questions sur la conception du de matrice est fournie ci-dessous : projet de données, tout en soulignant la projet sont posées séquentiellement pour nécessité de définir des objectifs clairs et chacun des blocs centraux. Les questions 1. obliger le responsable du projet à d’appliquer les bons outils et compétences relatives à la conception de projet sont les énoncer une proposition de valeur de pour permettre la mise en œuvre réussie suivantes : projet limpide fournir un autodiagnostic et définir 2. et respecter une stratégie de gestion interne Questions de conception de projet communiquer 3. une représentation complète du processus « sur une seule Ressources Identifier les ressources page » 1 Quelles ressources sont à ma disposition ? planifier de manière flexible avec un 4. 2 De quelles ressources ai-je besoin ? outil capable de redéfinir les éléments à mesure que le projet évolue Relations Le concept de matrice a été introduit Définir les relations par Alex Osterwalder, qui a développé la 3 Le plan est-il suffisant pour réussir le projet ? Matrice d’affaires. Au cours des dernières 4 Le plan est-il suffisant pour utiliser les résultats ? années, il est devenu inhabituel de participer à un concours de startups, un concours de projets d’entreprise, un hackathon ou un Figure 25 : Les quatre questions de conception de projet posées par les Matrices d’Anneau brainstorming sur le thème de l’innovation des Données 126 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Avant de fermer cette section, il faut • De quel budget, point de comparaison, Relations de l’Anneau des données se souvenir de l’erreur la plus courante gestion des données ou plan d’ETL ai-je lors de l’utilisation de ces types d’outils besoin ? AJUSTEMENT CO d’entreprise : ne vous concentrez pas trop M S PÉ sur l’achèvement de la matrice. Autrement Ceci est particulièrement critique pour la IL TE T OU dit, la matrice de l’Anneau des données- valeur, car l’exploration de la valeur requise NC ES tous comme la matrice d’affaires - n’est sous-tend la motivation du projet. En outre, qu’un moyen, et non l’objectif lui-même. la valeur est liée aux ressources obtenues OPÉRATIONS UTILISATION par les résultats analytiques du projet. OBJECTIFS Définir et relier les ressources La planification des besoins de projets en termes de valeur contribue également à Définir les ressources définir les livrables intermédiaires et finaux S Les deux premières questions identifient SU VA du projet, et notamment l’élaboration U ES LE les besoins en ressources du projet. Ceux-ci R C de rapports ou le développement de O sont identifiés en posant séquentiellement PR produits de connaissances. Cette approche la première question directrice : « Quelles RÉSULTATS séquentielle et itérative aide à identifier sont les données dont je dispose ?... les lacunes et les exigences d’acquisition Quelles sont les compétences disponibles à mesure qu’elles se surviennent à chaque pour le projet ?... Quels sont les processus étape, en développant progressivement le Figure 26: Mettre en avant les liens internes déjà en place ? ... » Les questions plan général. entre les ressources dans la matrice de directrices associées à chaque composante l’Anneau des données doivent être prises en considération afin de Relier les ressources préciser le processus de planification. Il faut AJUSTEMENT : Outils et compétences ainsi se demander : « Quelle est la valeur Une fois les ressources spécifiées pour chaque bloc structurel, un plan de projet Toutes les ressources logicielles et dont je dispose ? » Il se peut que vous n’y doit viser à comprendre leurs relations matérielles du projet doivent pouvoir répondiez pas en termes de résultats déjà atteints, mais au début, cette question interconnectées de manière approfondie. fonctionner ensemble, une relation peut s’avérer utile et pertinente. Il peut Les deux dernières questions de conception décrite par Ajustement. Cela peut sembler y avoir des méthodes d’ajustement à de projet renvoient à ces relations ; évident, mais l’expérience pratique nous puiser dans des projets associés, ou peut- c’est-à-dire, compte tenu des ressources a montré que la phase d’évaluation des être des engagements préexistants de la envisagées dans un bloc de catégorie, ressources est souvent sous-estimée. direction quant au pilotage de la mise en la nécessité d’explorer si les ressources Différents matériels et logiciels doivent œuvre. Il convient d’en tenir compte dans des autres catégories sont suffisamment « communiquer » entre eux. Les gens doivent les ressources de valeur initiales qui sont reliées entre elles. Si ce n’est pas le cas, les également discuter, non seulement pour les éléments moteurs de la planification communiquer entre eux au sein de l’équipe, exigences et les liens devront peut-être globale. mais aussi pour utiliser l’infrastructure être ajustés les uns par rapport aux autres. Ces quatre liens sont spécifiés dans la technique. La matrice doit spécifier les Une fois que l’étendue des ressources est définie dans chaque bloc, les questions Figure 26 ci-dessous : ajustement, opérations, principaux langages de script et de base de itèrent ce qui suit : résultats et utilisation. Chaque lien doit être données, ainsi que les méthodes des cadres spécifié pour remplir la matrice de l’Anneau spécifiques requises pour livrer le projet. • De quelles données ai-je besoin ? des données et formuler un plan de projet Notamment, ces langues doivent être • De quelles compétences ai-je besoin ? holistique. Ceux-ci sont décrits ci-dessous : communes entre les équipes et les outils. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 127 2.1_GESTION D’UN PROJET DE DONNÉES Les outils et les compétences doivent Le bloc Processus définit comment les comme un rapport analytique final. Il également s’adapter à la portée de gens agissent en termes d’exigences de se peut également que des résultats de l’objectif du projet. Le principal risque lié à temps, budgétaires, de procédure ou de données supplémentaires ou des modèles une évaluation incorrecte des ressources définition. Les opérations du projet se supplémentaires doivent être spécifiés est d’intégrer de force des composantes relient au Compétences dans la mesure pour assurer une relation solide entre les matériels avancées, des solutions où l’identification de solutions viables aux blocs Processus et Valeur. logicielles entièrement développées ou problèmes opérationnels nécessite des des compétences humaines (par ex. connaissances pertinentes sur le sujet. UTILISATION : Valeur et outils des spécialistes des données) au projet Les opérations de la matrice doivent La quatrième question de conception de sans intégration adéquate avec les spécifier les problèmes opérationnels projet porte sur les résultats antérieurs, infrastructures existantes et les experts du fondamentaux du projet devant être en vue de réaliser la valeur de l’Utilisation domaine. L’objectif de départ recommandé abordés ; ils sont liés par les compétences du projet. La conception du projet doit pour un processus et un produit qui soient nécessaires pour les traiter et le processus être suffisante pour utiliser le résultat du un minimum viable contribue à atténuer permettant de les résoudre. produit de données. Un tableau de bord de ce risque en définissant les objectifs à visualisation sera exécuté sur un ordinateur, partir de ressources plus modestes ; l’idée RÉSULTATS : Processus et Valeur par exemple connecté à un intranet interne est d’explorer les idées et de tester des Les résultats informatiques de l’exécution ou à Internet. Un serveur Web le mettra concepts de produits. Une fois le processus du processus seront transformés en en ligne afin que les gens puissent l’utiliser. et le produit éprouvés, il est possible de valeur. La matrice doit lister les résultats Les données qu’il visualise seront stockées développer progressivement le processus spécifiques attendus, qu’il s’agisse d’un en un lieu auquel le tableau de bord doit et le produit en utilisant les ressources algorithme, d’un modèle, d’un tableau se connecter pour accéder aux données. pratiques et humaines nécessaires pour de bord de visualisation ou d’un rapport Le personnel informatique assurera passer au niveau suivant. analytique. La Valeur est réalisée grâce la maintenance de ces serveurs. Ces au processus par lequel les résultats sont ressources peuvent ou non être identifiées OPERATIONS : Compétences et interprétés, ajustés et mis en œuvre. Les en fonction de ce qui est nécessaire pour processus approches de validation de modèle sont livrer le projet lui-même. La quatrième Les opérations du projet représentent le reliées au type de résultats de données du question de conception de projet contribue processus par lequel les gens abordent modèle sélectionné. Le choix du modèle à identifier les lacunes en matière de mise les calculs et l’exploration de données est relié par les définitions et les cibles des en œuvre qui pourraient apparaitre une réels nécessaires pour livrer le projet. Ces indicateurs établis dans le Processus, et les fois le projet achevé, en veillant à ce que activités sont pilotées par des questions mises en œuvre de l’interprétabilité et de ces considérations soient exposées dans le d’analyse spécifiques et des problèmes l’utilisation commerciales qui créent de la cadre de la planification préalable du projet. opérationnels que l’équipe du projet Valeur. Les résultats numériques et leur L’Utilisation est reliée à la Valeur que le projet cherche à résoudre. Par exemple, un interprétation sont associés au risque de ne fournit avec les Outils nécessaires pour projet de notation de risque de crédit se pas pouvoir comprendre correctement les alimenter les données de sortie du projet trouvera probablement confronté à un résultats obtenus. Il existe également un dans le système de mise en œuvre. Ceci est problème opérationnel spécifique pour risque lors de la conversion de ces résultats particulièrement important pour les projets calculer les variables qui se corrèlent aux en décisions ou leviers commerciaux qui issus de solutions externalisées, où l’étendue taux de défaut de paiement. De même, une fournissent de la valeur. Pour s’assurer des besoins en matière de soutien à la mise visualisation pourrait se trouver confrontée que les résultats sont interprétables pour en œuvre doit être définie dans le cadre au problème technique consistant à définir les besoins commerciaux, la matrice doit de l’acquisition initiale. L’Utilisation de la la manière de représenter un réseau considérer ses principaux livrables et peut matrice doit spécifier comment la stratégie d’agent sur une carte. Les opérations inclure des ressources supplémentaires de mise en œuvre est reliée aux outils de se penchent sur ce que font les gens. qui facilitent l’interprétation des valeurs, mise en œuvre. 128 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES CAS 14 Gérer le projet de métadonnées d’Airtel Money Ce cas de gestion de projets s’appuie Définition de l’objectif : Où commence Identification des ressources sur le cas d’Airtel Money Ouganda l’Anneau des données IFC ne disposait pas des données présenté au chapitre 1.2, Cas 3. Ce Un objectif est une solution pour un d’Airtel au préalable, n’ayant obtenu projet a été conçu et géré par l’équipe problème stratégique, et l’objet du qu’un engagement à un partenariat de recherche en Inclusion financière projet est de fournir cette solution. de la part d’Airtel sous forme de d’IFC basée en Afrique. Le cas Dans cet exemple, le problème fourniture d’accès aux données de d’utilisation ci-dessous passe en revue était les faibles taux d’activité CDR et aux données des transactions toutes les questions de conception du d’Airtel Money. IFC a proposé une Airtel Money. Bien que IFC et projet d’Anneau des données et se solution : un modèle pour définir Airtel disposent d’une importante le profil statistique d’un utilisateur infrastructure informatique pour penche sur les spécificités de ce projet. actif et faire correspondre ce profil leurs opérations, celle-ci n’était Une matrice d’Anneau des données aux non-utilisateurs dans la base pas disponible pour pouvoir être complétée reflète ce processus, en d’abonnés GSM existante. Une fois réquisitionnée par le projet. L’équipe formulant les ressources clés du identifiés, ces clients pourraient projet et les relations conceptuelles en d’IFC a chargé un spécialiste des être efficacement ciblés en tant opérations de données de gérer le une seule visualisation. Bien que cette qu’utilisateurs Airtel Money à fortes projet, apportant les compétences matrice concerne un projet terminé, propensions. Puisqu’on ne savait pas pertinentes en informatique, science le processus d’utilisation d’une si cette correspondance de profil était des données et en matière de SFN. approche en matrice est dynamique ; possible, il était important de définir Des spécialistes des SFN d’IFC, l’écriture et la suppression de une portée modeste visant à prouver des spécialistes de la recherche en composantes présentant un défaut le concept : inclusion financière et des experts d’alignement entraine de nouvelles régionaux connaissant le marché • L’Objectif : Développer un modèle considérations en termes de local et les comportements des clients de prévision de segmentation conception et d’exigences. En outre, de clientèle minimum viable ont apporté leur soutien au projet. l’utilisation de post-it constitue pour identifier les utilisateurs Lors de la planification du processus, une bonne approche, car ceux-ci actifs à fortes propensions qui le problème opérationnel était déjà permettent de procéder facilement à augmenteraient les taux d’activité connu : la faible activité d’Airtel des ajouts et d’apporter de nouveaux • L’Hypothèse : Il existe une Money. L’équipe disposait également éléments conceptuels et de nouveaux corrélation entre l’activité GSM de données de comparaisons éléments de conception tout en et le comportement de l’activité existantes issues d’un projet de permettant un mouvement dans la Airtel Money (c.à.d. que des profils données similaire livré pour Tigo matrice, jusqu’à obtenir un plan statistiques peuvent être créés et Ghana (voir chapitre 1.2, Cas 2 : Tigo satisfaisant. appariés) Cash Ghana, Segmentation), qui ont ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 129 2.1_GESTION D’UN PROJET DE DONNÉES contribué à définir les indicateurs de l’apprentissage automatique et ses qu’il est anticipé de devoir affiner gestion de projet, comme un objectif ressources pour la visualisation des lors du processus de mise en œuvre. d’exactitude de 85 pour cent pour le données. L’équipe IFC-Airtel-Cignifi L’examen participe également à modèle envisagé. Les définitions du a ensuite établi un plan de gestion la réévaluation des principaux modèle ont également spécifié à titre des données et d’ETL répondant domaines du processus lorsque des de variable dépendante « l’activité aux exigences juridiques et de problèmes sont découverts lors de sur 30 jours ». Enfin, un budget a confidentialité. Conformément à ce l’exécution analytique et nécessitent été attribué dans le cadre du projet plan, l’équipe Cignifi a été envoyée à d’ajuster le plan. de conseil d’IFC, financé par la Kampala, en Ouganda, pour travailler La gestion des données prévoit Fondation Bill et Melinda Gates ; un avec l’équipe informatique d’Airtel, l’affinement attendu ; la phase calendrier à six mois a été défini. dans l’objectif de comprendre leurs analytique et d’exécution du projet bases de données internes, définir Exploration des ressources était de 10 semaines, mais a été les exigences associées à l’extraction planifiée par rapport à la date du Par le biais du partenariat du projet de données, de crypter et de rendre début de l’acquisition des données, IFC-Airtel, l’équipe a négocié l’accès anonymes les données sensibles, puis ce qui signifiait que le calendrier à six mois de données de CDR de transférer ces données sur un du projet serait affecté par la date et Airtel Money, pour un volume disque dur sécurisé pour les transférer réelle et les éventuels problèmes d’environ un téraoctet, à extraire sur les serveurs de Cignifi. Les en matière d’ETL. Le pipeline de des bases de données relationnelles attentes relatives à la valeur du projet données présentait également une d’Airtel et fournies au format CSV. Il étaient spécifiées dans l’OA en vue suffisance incertaine ; la planification a fallu une infrastructure technique d’une sortie de données répertoriant du pipeline et l’affectation des de traitement des métadonnées et de les scores de propension des ressources techniques étaient compétences en science des données utilisateurs, appelée « liste blanche». impossibles avant que les données pour les analyser. IFC a publié un Des analyses supplémentaires ont finales puissent être analysées et que appel d’offre (AO) concurrentiel pour également été spécifiées, notamment leur structure soit connue. Il s’agit externaliser ces éléments techniques, une cartographie de réseau social et d’un goulet d’étranglement fréquent. résultant sur la sélection de Cignifi, une analyse géospatiale. En anticipant ces incertitudes, la Inc. Cignifi a apporté des ressources valeur ajoutée spécifiait une livraison en infrastructure supplémentaires, Suffisance du plan : livraison initiale : un « dictionnaire de données avec leurs clusters Hadoop-Hive L’examen de la suffisance permet » discutant de toutes les descriptions de mégadonnées, son expérience d’assurer l’alignement entre toutes et relations liées aux données sectorielle en matière de travail les ressources, tous les processus acquises, qui serait utilisé pour affiner avec des données ORM et CDR, ses et tous les résultats prévus. Il la suffisance du projet une fois que compétences en R et Python, son convient de noter que cela permet ces détails seraient connus. C’est à la expérience dans les statistiques et d’identifier au préalable les points phase d’exécution de tout projet de 130 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES données que des surprises viennent les informations de la liste blanche modifié. La correction apportée a mettre à l’épreuve les plans du projet. dans les campagnes de marketing, si révélé une erreur plus significative. Étant donné qu’il s’agit de quelque l’analyse s’avérait réussie. La stratégie L’ensemble de données du premier chose auquel on peut s’attendre, le de livraison avait été convenue avec la mois comportait de sérieuses lacunes, projet a également spécifié un livrable direction d’Airtel : une réunion finale et ce problème a nécessité de réviser le précoce sous forme de rapport de devait permettre la présentation et la plan de gestion des données et d’ETL données provisoire, fournissant des discussion du rapport analytique, et et la conception globale du projet. statistiques descriptives de haut l’équipe informatique d’Airtel devait Le plan de projet initial spécifiait niveau et les résultats de l’analyse utiliser la liste blanche et se servir des données d’octobre 2014 à mars exploratoire initiale, les anomalies de ses conclusions pour les étapes 2015. La solution a consisté à rejeter ou des lacunes observées dans les suivantes. entièrement les données d’octobre et données. Le rapport de données à travailler avec Airtel pour extraire Exécution du projet : ajustements à la provisoire doit également inclure tout des données pour avril afin de planification imprévu susceptible de nécessiter un maintenir la série chronologique de ajustement stratégique. Les réalités sur le terrain nécessitent six mois nécessaire pour garantir un un ajustement du plan du projet. Les modèle statistiquement fiable. On a Suffisance du plan : mise en œuvre difficultés suivantes sont apparues également découvert que, d’après le L’objectif de MVP du projet a cherché au cours de l’exécution du projet et plan, les données elles-mêmes étaient à tester si l’approche de modélisation ont nécessité de réviser le plan pour insuffisantes. L’analyse géo spatiale était pertinente pour Airtel et le s’assurer que tous les domaines du et de réseau exigeant des données marché des SFN en Ouganda. En ce projet travaillaient suffisamment à la de localisation de l’antenne-relais. sens, le plan adopté était suffisant. réalisation des objectifs. On a découvert que les ensembles de Le projet devait fournir (a) un Une fois l’ensemble de données initial données Airtel Money n’établissaient rapport final, avec les résultats et les sécurisé, le processus de pipeline de pas l’emplacement des transactions analyses clés (b) une liste blanche : un données a révélé des anomalies. D’une effectuées, uniquement le moment où ensemble de données des millions de manière ou d’une autre, le processus elles étaient réalisées. L’équipe Cignifi clients de téléphonie mobile d’Airtel d’extraction insérait des lignes vierges a contextualisé ces métadonnées - par un identifiant crypté - chacun dans les ensembles de données en associant de manière créative associé à un score de propension brutes. Si les données pouvaient être les horodatages dans les données quant à la probabilité qu’ils utilisent transférées avec succès, elles étaient Airtel Money et les horodatages des activement Airtel Money. mal interprétées ; de nombreuses appels vocaux pour les utilisateurs Le plan adopté n’était pas suffisant lacunes dans les données existaient, correspondants dans les données dans le sens où les ressources quand bien même ce n’était pas le GSM. L’équipe a utilisé une fenêtre étaient pré-affectées pour utiliser cas. Le processus d’ETL devait être de 30 minutes, ce qui fournissait ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 131 2.1_GESTION D’UN PROJET DE DONNÉES une coordonnée de localisation qui de SFN dans les 30 jours de la date recettes d’Airtel Money ; le modèle était fiable dans un rapport distance/ d’ouverture du compte Airtel Money, supplémentaire visait à identifier ces temps de 30 minutes à partir de plutôt qu’une transaction dans une clients de grande valeur. l’emplacement de la transaction Airtel période de 30 jours sur la totalité de Money. Lors d’une discussion avec l’ensemble de données. La conception Enfin, l’interprétation des résultats l’équipe d’IFC, il a été convenu que du modèle a ainsi dû être refaite. Ce a abouti à des livrables de résultats ces données étaient acceptables pour qui a en fin de compte été profitable, de projet supplémentaires : les règles pouvoir procéder à l’analyse, même car l’analyse initiale avait également métier. Comme discuté dans le cas si elles reposaient sur l’hypothèse révélé que les opérations de dépôt Airtel connexe, les algorithmes selon laquelle la plupart des gens, et de retrait ne fournissaient pas la d’apprentissage automatique du en moyenne, ne parcouraient pas de robustesse statistique souhaitée pour modèle ont établi un certain nombre grandes distances dans la période atteindre les indicateurs de précision de variables significatives qu’il de 30 minutes entre la réalisation du projet. L’équipe IFC-Cignifi était difficile d’interpréter sur un d’une transaction Airtel Money et le a accepté de refaire les modèles plan commercial. L’équipe d’IFC a passage d’un appel téléphonique. en utilisant les utilisateurs actifs estimé que le livrable à la direction redéfinis et de se recentrer sur les d’Airtel pouvait être renforcé en La phase d’ajustement a nécessité transactions P2P, considérées comme s’assurant que le modèle et les scores un certain nombre de changements fournissant la plus grande précision de propension de la liste blanche significatifs. Les statistiques et, surtout, pour définir les scores associés exprimaient le profil sommaires des résultats du premier tour semblaient inhabituelles pour de propension associés au segment statistique des utilisateurs actifs en les spécialistes des SFN ; Ils ne de clientèle générant les recettes les termes commerciaux, conformes correspondaient pas aux schémas plus élevées. En outre, un modèle aux ICP pertinents en termes comportementaux auxquels les supplémentaire a été ajouté pour les commerciaux. Cignifi a livré trois experts en sciences sociales étaient « utilisateurs très actifs » ou ceux mesures de segmentation rapide avec habitués. Il a été découvert que les qui avaient réalisé une opération des « seuils» permettant de profiler définitions du projet initial avaient au moins une fois tous les trente les utilisateurs selon : le nombre donné une définition ambiguë du jours sur une période consécutive d’appels vocaux par mois, le total des terme « utilisateur actif » de sorte que de trois mois. Bien qu’il s’agisse recettes des services téléphoniques l’équipe d’analyse avait modélisé une d’un petit groupe, ces utilisateurs par mois, et la durée totale des appels sortie en termes d’une transaction généraient près de 70 % du total des téléphoniques mensuels. 132 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Une matrice remplie : La conception du projet de Mégadonnées d’Airtel, en utilisant la matrice de l’Anneau des données La Matrice de l’Anneau Nom du projet : Conçu par : Date : Version : des données Mégadonnées d’Airtel IFC déc 2015 7 PL-SQL, R, #COMMERCIAL #DATA To de données rendues anonymes de CDR & de transactions Python, Pig, IFC : Opérations #INFORMATIQUE CGplot données, SFN Temps de Airtel Money sur 6 mois communication : TIC (ETL) #SCIENCE DES DONNÉES Cignifi : Gestion #INFRASTRUCTURE Cignifi : Statistiques, Science des mégadonnées, Airtel : Oracle des données, Visualisation cryptage #INFRASTRUCTURE AJUSTEMENT CO Cignifi : Hadoop, Spark, AWS, S M IL PÉ méthodes propriétaires T TE OU OBJECTIF NC ES Profilage des clients actifs UTILISATION OPÉRATIONS Réunion de décision Modèle de segmentation d’Airtel Money des clients pour identifier les Système de campagne de marketing utilisateurs avec une forte Cartographie Identification du proxy de utilisant une liste blanche propension à augmenter les géospatiale localisation de l’antenne-relais taux d’activité des flux de P2P S SU #MISE EN ŒUVRE VA EU ES C L Campagnes de marketing R O #DÉLAI&BUDGET PR ciblées RÉSULTATS 6 mois | USD de la #DÉFINITIONS Fondation Bill & Notes de Utilisateurs #AJUSTEMENT Melinda Gates propension « actifs », Différents modèles : MLG, du client à « très actifs » forêts aléatoires, Ensemble figurer sur la #PARTENARIAT/ #EXÉCUTION liste blanche #INTERPRETATION EXTERNALISATION Modèle d’apprentissage #INTERPRÉTATION Rapport Stratégie pour IFC, Airtel, Cignifi automatique avec 85 % Validation hors du analytique l’ avancée de (communication à 3) de précision temps et hors l’inclusion financière « Règles échantillon métier » Figure 27 : Une Matrice de l’Anneau des données remplie pour la phase I du projet de mégadonnées d’Airtel © 2017 Société financière internationale. Manuel sur l’analyse de données et les services financiers numériques (ISBN : 978-0-620-76146-8). Ce travail est sous licence Creative Commons Attribution - Non Commerciale - licence Share-Alike 4.0 International (CC BY-NC-SA 4.0). La Matrice de l’Anneau des Données est un dérivé de l’Anneau des Données de ce Manuel, adapté par Heitmann, Camiciotti et Racca sous Licence (CC BY-NC-SA 4.0). Pour plus d’information, veuillez consulter : https://creativecommons.org/licenses/by-nc-sa/4.0/ ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 133 2.1_GESTION D’UN PROJET DE DONNÉES Livraison du projet avec une campagne de marketing   La liste blanche du modèle a identifié existante, mettant en attente environ 250 000 utilisateurs à les résultats de la liste blanche. propension maximale à cibler Les abonnés d’Airtel Money ont comme les utilisateurs actifs d’argent considérablement augmenté au cours mobile attendus. Dans la liste des mois suivants, ce qui a réduit la blanche complète de plusieurs valeur de la liste blanche puisque de millions d’utilisateurs GSM, les 30 % nombreux nouveaux clients ont été supérieurs des scores de propension intégrés par le marketing habituel. ont prédit que l’intérêt suscité des Sur cette période, les abonnés GSM utilisateurs P2P hautement actifs ont également augmenté, fournissant générerait environ 1,45 milliard de des millions de nouveaux utilisateurs shillings ougandais provenant des transactions P2P ; et 4,68 milliards potentiels d’Airtel Money. IFC et de shillings ougandais provenant Airtel ont accepté de procéder à des retraits, soit environ 1,7 million une analyse de Phase II à la fin de de dollars de recettes annuelles l’année 2016. L’objectif du projet supplémentaires. est le même, avec une composante Les conclusions du projet étaient analytique supplémentaire fondée solides et convaincantes. Toutefois, sur la Phase I, conçue pour examiner la stratégie de mise en œuvre n’a été les schémas d’intérêt suscité et de définie que comme seuil décisionnel. distribution d’Airtel Money dans le La date de livraison a coïncidé temps et dans l’espace. 134 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 135 d nées on s e od e Ap de plic do PARTIE 2 h et m es d Chapitre 2.2 Ressources at ées ét nn ion s Analy proj G e s de s 2.2.1 Synthèse des classifications des cas d’utilisation ce et ti o n ur do d ’u n ss o analytiques nn Re ées Synthèse des classifications des cas d’utilisation analytiques Classification Question traitée Techniques Mise en œuvre Analyse • Que s’est-il passé ? Alertes, requêtes, Rapports descriptive • Que se passe-t-il recherches, rapports, maintenant ? visualisations statiques, tableaux de bord, tableaux, graphiques, récits, corrélations, analyse statistique simple Analyse • Pourquoi cela s’est-il Analyse de régression, test Veille technologique diagnostique produit ? A/B, filtrage par motif, traditionnelle exploration de données, prévision, segmentation Analyse • Que se passera-t-il à Apprentissage Modélisation prédictive l’avenir ? automatique, ARS, analyse géo spatiale, reconnaissance de formes, visualisations interactives Analyse • Que faut-il faire pour Analyse graphique, réseaux Solutions prescriptive parvenir à un résultat neuronaux, Apprentissage intégrées, décisions donné ? automatique et profond, IA automatisées 136 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 2.2.2 Répertoire des sources de données Source : Systèmes de noyau bancaire et d’ORM Structure : Données habituellement structurées, utilisant des bases de données relationnelles. Format : Données numériques, qui peuvent être extraites sous différents formats pour la production de rapports ou l'analyse. Les données anciennes peuvent inclure des inscriptions papier ou des formulaires d’inscription scannés. Nom Données Exemples Données de l'émetteur de Durée du contrat ; historique de paiement ; types Meilleures connaissances marketing ; possibilité de créer factures sur les clients d'achat une notation de risque de crédit en utilisant des données de facturation Statut de l'inscription du client Statut de l'inscription (p.ex. actif, inactif, jamais utilisé) Connaissances marketing ; suivi des performances commerciales ; conformité réglementaire KYC client Nom, adresse, DN, sexe, revenu Connaissances marketing ; conformité réglementaire Statut du compte Type de compte, statut de l'activité (actif, dormant, Connaissances marketing ; suivi des performances ancienneté de l'activité, dormant avec solde) commerciales ; conformité réglementaire Activité du compte Solde du compte, vitesse mensuelle, solde moyen Connaissances marketing ; notation de risque de crédit ; quotidien conformité réglementaire Données de transaction Volume et valeur des dépôts, des retraits, des Suivi des performances commerciales et financières ; financière (directes) paiements de factures, des transferts ou d'autres conformité réglementaire ; connaissances marketing ; transactions financières notation de risque de crédit Données de transaction Transactions échouées ; transactions refusées ; canal Problèmes de performance et de conception de produits ; financière (indirectes) utilisé ; heure de la journée besoins de formation et de communication Données de monnaie Fonds de caisse électroniques, rapprochements, Gestion de la performance des agents ; gestion de la fraude électronique transferts de fonds de caisse entre agents et des risques Activités non financières Changement de code PIN ; demande de solde ; Connaissances marketing ; amélioration de l'efficacité ; demande de relevé développement de produits Origine du prêt Type de prêt, montant du prêt, garantie utilisée, durée, Connaissances marketing ; suivi de la performance du taux d'intérêt portefeuille ; notation de risque de crédit : nouvelle évaluation de prêt Activité de prêt Solde du prêt, statut du prêt, source de la transaction Connaissances marketing ; suivi de la performance du de remboursement du prêt portefeuille ; notation de risque de crédit : nouvelle évaluation de prêt ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 137 2.2_RESSOURCES Source : Système d'argent mobile Structure : Données habituellement structurées, utilisant des bases de données relationnelles. Format : Données numériques, qui peuvent être extraites sous différents formats pour la production de rapports ou l'analyse. Les données anciennes peuvent inclure des inscriptions papier ou des formulaires d’inscription scannés. Nom Données Exemples KYC client Nom, adresse, DN, sexe, revenu Connaissances marketing ; conformité réglementaire Statut de l'abonnement Statut de l'activité (actif, dormant, ancienneté de Connaissances marketing ; suivi des performances l'activité, dormant avec solde) commerciales ; conformité réglementaire Activité de portefeuille Solde du portefeuille, vitesse mensuelle, solde moyen Connaissances marketing ; notation de risque de crédit ; quotidien conformité réglementaire Données de transaction Volume et valeur des dépôts, des retraits, des Suivi des performances commerciales et financières ; paiements de factures, du P2P, des transferts, des conformité réglementaire ; connaissances marketing ; rechargements de temps de communication ou autres notation de risque de crédit opérations financières Données de monnaie Fonds de caisse électroniques, rapprochements, Gestion de la performance des agents ; gestion de la fraude électronique transferts de fonds de caisse entre agents et des risques Source : Système de gestion des agents Structure : Données habituellement structurées, utilisant des bases de données relationnelles. Format : Données numériques, qui peuvent être extraites sous différents formats pour la production de rapports ou l'analyse. Les données anciennes peuvent inclure des inscriptions sur papier, des formulaires d’inscription scannés ou des rapports de suivi ou de performance des agents. Nom Données Exemples Activités des agents (direct) Volume et valeur des transactions des agents ; Connaissances vente et marketing ; notation de risque de transfert de fonds de caisse ; dépôt et retrait de fonds crédit ; gestion de la performance de l'agent de caisse ; solde de fonds de caisse ; jours sans fonds de caisse Activités de l'agent (indirect) Changement de code PIN ; demande de solde ; Connaissances vente et marketing ; gestion de la demande de relevé ; créer un nouvel assistant performance de l'agent Activités du commerçant Volume et valeur des transactions du commerçant ; Connaissances vente et marketing ; notation de risque de (direct) nombre de clients uniques crédit ; gestion de la performance marchande Activités du commerçant Changement de code PIN ; demande de solde ; Connaissances vente et marketing ; notation de risque de (indirectes) demande de relevé ; créer un nouvel assistant crédit ; gestion de la performance marchande Données techniques du système Nombre de TPS ; files d'attente de transactions ; Planification de la capacité ; suivi de la performance temps de traitement par rapport au SLA ; identification des problèmes de performance technique Rapports de visite des agents Présence de matériel de merchandising ; Indications sur les clients ; gestion de la performance de et des commerçants par le connaissances des assistants ; volume du fonds de l'agent personnel des ventes caisse ; peut inclure plus fréquemment des données semi-structurées ou non structurées, par ex. des rapports de suivi sur papier 138 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Source : Système de gestion de la relation client (GRC) Structure : Incorpore souvent des données structurées et semi-structurées qui utilisent des bases de données relationnelles ou des systèmes de stockage basés sur des fichiers, tels que des enregistrements vocaux ou des synthèses de problèmes identifiées par catégories structurées. Format : Données numériques, en général, bien que les données semi-structurées et non structurées ne soient peut-être pas disponibles dans les rapports (par ex. pour les enregistrements vocaux, le cas échéant). Nom Données Exemples Enregistrements du centre Journal des problèmes, type de problèmes, délai de Indications sur les clients ; gestion opérationnelle et de la d'appels résolution (peut inclure des données semi-structurées performance ; améliorations du système dans les rapports) PBAX Nombre d'appels du centre d'appels ; durée des Gestion opérationnelle et de la performance appels ; temps d'attente de la file d'attente ; appels abandonnés Données de retour Nombre d'appels ; statistiques sur les types d'appel ; Identifier : les problèmes de performance technique et d’information du service clients statistiques de résolution des problèmes de conception de produit ; les besoins de formation et de communication ; les problèmes liés à un tiers (par ex. agent, émetteur de factures) Données de rétroaction des Nombre d'appels d'agents ou de commerçants ; Identifier : les problèmes de performance technique et agents et commerçants statistiques sur les types d'appel ; statistiques de de conception de produit ; les besoins de formation et de résolution des problèmes communication ; les problèmes de clientèle Interactions du canal de Volume des visites sur le site Web, volumes du centre Indications sur les clients ; gestion opérationnelle et de la communication d'appels, enquêtes sur les réseaux sociaux, demandes performance ; améliorations du système de chat en direct Données de communication Type de demandes de renseignements, satisfaction du Indications sur les clients qualitatives client, examen des réseaux sociaux Source : Dossiers clients Structure : Incorpore souvent des données structurées, semi-structurées et non structurées, allant de : documents de la KYC qui peuvent inclure diverses informations personnelles selon le type de document ; aux études de marché ou enquêtes clients ; et aux notes de groupes de discussion. Format : Une grande diversité de formats peut être utilisée pour stocker des données de dossiers client, notamment les bases de données relationnelles, des systèmes de stockage de fichiers ou les documents numérisés ou papier. Nom Données Exemples Documents de la KYC Pièce d'identité ; justificatif de salaire ; justificatif de Conformité réglementaire ; segmentation démographique et domicile géographique Formulaires d'inscription et de Ouverture de compte de SFN ; demande de prêt Conformité réglementaire ; segmentation démographique et demande géographique Recherche qualitative Entretiens avec les clients ; groupes de discussion Connaissances marketing et produits Recherche quantitative Études de sensibilisation et d'usage ; études de Connaissances marketing et produits sensibilité aux prix ; tests pilotes ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 139 2.2_RESSOURCES Source : Dossiers agents et commerçants Structure : Incorpore souvent des données structurées, semi-structurées et non structurées, allant de : documents de la KYC qui peuvent inclure une diversité d'informations personnelles selon le type de document ; aux études de marchés ou enquêtes auprès du commerçant ; et aux notes de groupes de discussion. Format : Une grande diversité de formats peut être utilisée pour stocker des données de dossiers agent ou commerçant, notamment les bases de données relationnelles, des systèmes de stockage de fichiers ou les documents numérisés ou papier. Documents de la KYC Statuts ; déclarations de revenus ; documents de KYC ; Conformité réglementaire ; segmentation démographique et relevés bancaires géographique Formulaires d'inscription Enregistrement en tant qu'agent ou commerçant Conformité réglementaire ; segmentation démographique et fournissant des SFN géographique Recherche qualitative Entretiens avec les agents ; groupes de discussion Connaissances ventes, marketing et produits Recherche quantitative Enquête par des achats anonymes effectués par des Connaissances ventes, marketing et produits enquêteurs Source : Partenaires tiers Structure : Le tiers peut prendre toute forme ou structure, selon le contenu, la source et le prestataire qui la fournit. Format : Les formats peuvent aller des formats communs .CSV aux API d'accès exclusif et aux méthodes de livraison. Nom Données Exemples Données de l'émetteur de Durée du contrat ; historique de paiement ; types Meilleures connaissances marketing ; possibilité de créer factures à propos des clients d'achat une notation de risque de crédit en utilisant des données de (services publics) facturation Données sur les clients de Historique de la rémunération ; durée des paiements Amélioration des connaissances marketing ; notation de payeurs des clients (employeur, réguliers risque de crédit gouvernement) Référentiels d'informations Données de la KYC ; notation de risque de crédit ; Notation de risque de crédit ; enquêtes sur la fraude ; sur le client (par ex. bureau de activité frauduleuse passée gestion des risques crédit, listes de surveillance, casiers judiciaires) Données géo spatiales (données Données démographiques régionales ; densité de Indications sur le marché ; gestion des agents satellitaires) population ; topographie ; infrastructures telles que les routes et réseau électriques ; points d'accès financiers Médias et Réseaux sociaux Type et fréquence des activités sur le réseau ; Indications sur le marché ; notation de risque de crédit informations personnelles ; nombre de connexions ; type de connexions 140 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 2.2.3 Indicateurs pour l’évaluation des modèles de données Liste des 10 meilleurs indicateurs de performance pour l'évaluation des modèles de données Indicateur Définition Courbe de la fonction La courbe ROC est définie comme la courbe entre le taux de vrais positifs et le taux de faux positif. Elle illustre la performance d’efficacité du récepteur du modèle selon la variation de son seuil de discrimination. Plus la zone entre la courbe ROC et la courbe de référence est (ROC) importante, meilleure est le modèle. AUC La zone sous la courbe (AUC) mesure la zone sous la courbe ROC. Elle fournit une estimation de la probabilité que la population soit correctement classée. Elle représente la capacité du modèle à produire un bon classement relatif des instances. Une valeur égale à un constitue un modèle parfait. KS Le test statistique Kolmogorov-Smirnov (KS) mesure la séparation verticale maximale entre la distribution cumulative des « bons » et des « mauvais ». Cela représente la capacité du modèle à séparer la « bonne » population visée de la « mauvaise » population. Diagramme de lift Mesure l'efficacité d'un modèle prédictif calculé comme le rapport entre les valeurs prédites positives sur le nombre de positifs dans l'échantillon pour chaque seuil. Plus la zone entre la courbe de lift et la courbe de référence est importante, meilleur est le modèle. Gains cumulés Mesure l'efficacité d'un modèle prédictif calculé comme le pourcentage de valeurs prédites positives pour chaque seuil. Plus la zone entre la courbe de gains cumulés et la courbe de référence est importante, meilleur est le modèle. Coefficient de Gini Le coefficient de Gini est lié à l'AUC ; G (i) = 2AUC-1. Il fournit également une estimation de la probabilité que la population soit correctement classée. Une valeur égale à un constitue un modèle parfait. C'est la définition statistique de ce qui influence l'indice économique de Gini pour la distribution des revenus. Exactitude L’exactitude est la capacité du modèle à faire une prévision correcte. Elle est définie comme le bon nombre de prévisions sur toutes les prévisions réalisées. Cette mesure ne fonctionne que lorsque les données sont équilibrées (c.à.d. une même distribution des bons et des mauvais). Précision La précision est la probabilité qu'une instance sélectionnée de manière aléatoire soit positive ou bonne. Elle est définie comme le rapport du total des instances positives prédites vraies sur le total des instances positives prédites. Rappel Le rappel est la probabilité qu'une instance sélectionnée de manière aléatoire soit bonne ou positive. Elle est définie comme le rapport du total des instances positives prédites vraies sur le total des instances positives. Erreur moyenne quadratique La RMSE est une mesure de la différence entre les valeurs prédites par un modèle et les valeurs effectivement observées. (RMSE) Cette mesure est utilisée dans les prévisions numériques. La RMSE d'un bon modèle doit être faible. 2.2.4 Anneau des données et matrice de l’Anneau des données Les outils que sont l’Anneau des données et la matrice de l’Anneau des données sont également disponibles au téléchargement sur le site Web du Partenariat pour l’Inclusion Financière, au lien suivant : www.ifc.org/financialinclusionafrica « La page détachable ci-dessous fournit une copie de l’Anneau des Données et de la Matrice de l’Anneau des Données » ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 141 2.2_RESSOURCES 142 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES L’Anneau des données e iell e ue rivé tor Fram id e p sec s jur vi iq Pi ise la p ewo el s Sto ert ec de ne in es e rks ai Exp ts as ect né ck de m n hu ag do p do p s s es e de Re nn Inform nc re atiq n ée & ctu tio ie ue isa s Sc Ac stru Co al ce ss fra AJUSTEMENT m m Vi su tio n ibi lité In CO ica MP n mu er m É ci Co s Form S ée IL al ats nn TE Sc T Do 2 OU ien NC 1 ce ES des OPÉRATIONS données UTILISATION OBJECTIF(S) Mise e Compara nœ ison US 4 n 3 uv VA io EU Ind SS re E at icat L OC R eur ic s& if Aj PR Bu défi an us em dg niti ons Pl es t en et né RÉSULTATS n & on t tio Pa ca sd s Int erp écu r te len de su ré Ex n ar dr ier e tatio tré es ia Go c n t/ En o ex s pr uv ée te er & r nn na na re lis do u nc ct at ru io e de St n de e sd rti So on né e s ©2017 Société financière internationale. Manuel sur l’analyse de données et les services financiers numériques (ISBN : 978-0-620-76146-8). Ce travail est sous licence Creative Commons Attribution - Non Commerciale - licence Share-Alike 4.0 International (CC BY-NC-SA 4.0). l’Anneau des Données est adapté de Camiciotti et Racca, ‘Creare Valore con i BIG DATA’. Edizioni LSWR (2015) sous license (CC BY-NC-SA 4.0). Pour plus d’information, veuillez consulter : https://creativecommons.org/licenses/by-nc-sa/4.0/ ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 143 2.2_RESSOURCES La Matrice de l’Anneau Nom du projet : Conçu par : Date : Version : des données AJUSTEMENT CO S M IL PÉ T TE OU NC ES UTILISATION OPÉRATIONS OBJECTIF(S) S SU VA EU ES C L R O PR RÉSULTATS © 2017 Société financière internationale. Manuel sur l’analyse de données et les services financiers numériques (ISBN : 978-0-620-76146-8). Ce travail est sous licence Creative Commons Attribution - Non Commerciale - licence Share-Alike 4.0 International (CC BY-NC-SA 4.0). La Matrice de l’Anneau des Données est un dérivé de l’Anneau des Données de ce Manuel, adapté par Heitmann, Camiciotti et Racca sous Licence (CC BY-NC-SA 4.0). Pour plus d’information, veuillez consulter : https://creativecommons.org/licenses/by-nc-sa/4.0/ 144 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Conclusions et leçons tirées L’univers des données grandit à chaque En outre, il est essentiel qu’un service ou Se fonder sur les données implique heure. La capacité analytique de un individu soit clairement défini et dispose également l’examen du savoir-faire du l’informatique est également de plus en d’une influence au sein de l’organisation qui personnel existant et l’évaluation du niveau plus évoluée et le cout du stockage des anime le processus. Certaines organisations d’aisance des membres de l’équipe avec la données diminue. Le potentiel d’analyse qui sont à un stade plus avancé sur la technologie et l’informatique. Le personnel de données décrit dans ce manuel, et courbe de maturité ont choisi de créer un existant peut être formé à gérer les dans ces études de cas, met en évidence poste de haut niveau intitulé directeur des nouvelles technologies. Il est idéalement la façon dont les prestataires de SFN données (DD) ; cette personne travaille en placé pour appliquer de nouvelles peuvent tirer parti des données, grandes et étroite collaboration avec les membres de technologies à d’anciens problèmes car petites, pour créer de nouveaux services et la direction de l’entreprise pour gérer toutes ils connaissent déjà l’organisation, son parvenir à une plus grande efficacité dans les stratégies et la gestion liées aux données. marché et ses défis. En règle générale, le leurs opérations actuelles en intégrant personnel exigera une formation théorique des approches fondées sur les données. L’organisation doit se pencher sur ses et pratique en gestion de données. Le Les praticiens doivent s’efforcer d’adopter capacités et son expérience actuelles prestataire de SFN souhaitera peut-être une approche basée sur les données dans afin de définir clairement l’avenir. Les identifier les membres du personnel qui leurs activités. Cela apportera davantage de considérations importantes sont la taille présentent une aptitude et ont la bonne précision à leurs activités et une approche de l’organisation ainsi que les ressources attitude à l’égard de l’adoption de nouvelles s’appuyant sur des données issues de faits informatiques existantes telles que les pratiques technologiques, puis préparera compétences et l’expérience. En outre, un plan en vue du développement intensif concrets pour la prise de décision. passer à une approche fondée sur les des compétences. Développer une culture fondée sur données impliquera de grands changements Peu importe le niveau d’une organisation les données pour la culture organisationnelle, en en termes d’adoption des analyses La culture organisationnelle est essentielle. particulier sur la façon dont les données fondées sur les données, il est possible Les organisations doivent créer un sont partagées et dont les décisions sont d’intégrer systématiquement les données environnement favorable aux données où prises. L’organisation devra être prête dans ses processus et prises de décision. le pouvoir des données est salué et où les à fournir un soutien continu pendant le Les praticiens peuvent prendre de personnes sont habilitées et encouragées changement et doit être préparée à gérer petites mesures pour commencer à à explorer afin de trouver des moyens les attentes du personnel et de la direction. tester rigoureusement les besoins et les d’améliorer les résultats. En conséquence, Les niveaux actuels de maturité de la gestion préférences de leurs clients, suivre les il est nécessaire d’investir dans les des données sont également importants. performances en interne et comprendre compétences des équipes opérationnelles, Le prestataire de SFN souhaitera peut- l’impact de leurs activités commerciales. les outils et les idées afin de valoriser les être examiner les sources de données Le plus important est que les objectifs données. Le leadership organisationnel doit actuelles, le cadre d’établissement de fixés par une organisation pour suivre clairement formuler la vision et les normes rapports et l’utilisation des données dans les performances de l’entreprise soient fondamentales qui formeront la base de la prise de décision pour se positionner sur quantifiables et mesurables. son programme de gestion des données. la courbe de maturité. Comprendre où l’on Le leadership doit également s’engager se positionne sur l’échelle de maturité de la Toutes les données sont de fermement à développer les capacités gestion des données permet au prestataire bonnes données de l’entreprise en matière de données, de développer une feuille de route menant L’analyse des données offre aux prestataires tant en termes de vision que de budget. à l’objectif souhaité. de SFN l’opportunité d’acquérir une ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 145 2.2_RESSOURCES compréhension bien plus détaillée de leurs Utilisation de la visualisation La visualisation des données est liée mais clients. Ces idées peuvent être utilisées des données distincte des tableaux de bord de données. pour concevoir de meilleurs processus et Un tableau de bord inclura probablement une Une image vaut mieux que mille mots, procédures qui correspondent aux besoins ou plusieurs visualisations plus à l’écart. Les ou plutôt qu’une longue série de chiffres. et aux préférences des clients. L’analyse des tableaux de bord sont des points de référence données consiste à comprendre les clients, L’utilisation de visualisations pour illustrer incontournables, qui servent souvent de points dans l’objectif de tirer une plus grande graphiquement les résultats des rapports d’entrée pour des données plus détaillées ou valeur du produit. standards de gestion de données peut faciliter des outils de génération de rapports. C’est là la prise de décision et la surveillance. Les que les ICP sont visualisés pour fournir des Notamment, combiner les indications représentations graphiques permettent au informations instantanées, généralement offertes par différentes méthodologies public d’identifier rapidement les tendances pour les responsables qui ont besoin d’avoir et sources de données peut enrichir la et les valeurs aberrantes. Cela est vrai en ce un aperçu concis du statut opérationnel. compréhension. À titre d’exemple, bien qui concerne les équipes internes de science Des tableaux de bord simples peuvent être que les données quantitatives puissent des données qui explorent les données, ainsi mis en œuvre dans Excel, par exemple. donner des indications sur ce qui se passe, les données qualitatives et la recherche que pour les communications plus générales, Habituellement, le concept de tableau de bord permettront d’expliquer pourquoi cela se lorsque les tendances et les résultats des se réfère à des représentations de données produit. De même, plusieurs prestataires données peuvent avoir plus d’impact que les plus sophistiquées, intégrant les idées de SFN ont utilisé une combinaison de tableaux en visualisant les relations ou des d’interactivité et de dynamisme qu’englobe modélisation prédictive et d’analyse de conclusions axées sur les données. le concept plus large de visualisation de géolocalisation pour identifier les domaines données. En outre, des tableaux de bord cibles sur lesquels ils doivent concentrer Un graphique ou une courbe est une plus sophistiqués sont susceptibles d’inclure leurs efforts de marketing. visualisation de données, au sens le plus des données en temps réel et des réponses élémentaire du terme. Cela dit, la aux requêtes des utilisateurs. Bien que la Pour le vaste marché de masse que « visualisation » comme concept et comme visualisation des données et les tableaux de les prestataires de DFS desservent, bord de données soient intrinsèquement liés discipline émergente est beaucoup plus vaste, dans de nombreux cas, il se peut qu’il et se chevauchent souvent, il est également à la fois en ce qui concerne les outils disponibles n’y ait pas d’antécédents financiers important de reconnaitre qu’ils sont et les résultats possibles. Par exemple, une formels ou d’historique des données conceptuellement différents et évalués selon de remboursement à utiliser comme infographie peut être une visualisation de données dans de nombreux contextes, mais différents critères. Cela permet d’attester que base. Dans ces situations, des données les bons outils sont appliqués pour le bon alternatives peuvent permettre aux ce n’est pas nécessairement une courbe. Dans travail et que les fournisseurs et les produits prestataires de SFN de vérifier les flux certains cas, cette portée peut également sont acquis aux fins prévues. de trésorerie par le biais d’informations inclure des médias mixtes. Un exemple de indirectes, telles que les données des pionnier dans ce domaine serait par exemple La science des données est l’art ORM. Ici, les prestataires de SFN ont le Hans Rosling, dont le travail consistant à des données choix de travailler directement avec un combiner la visualisation des données avec les ORM ou avec un fournisseur. La décision Le chapitre 1 a indiqué que l’histoire du terme histoires interactives sur médias mixtes lui a dépend des marchés respectifs ainsi que « science des données ». Fait intéressant, valu une place dans la liste des 100 personnes ceux qui l’ont inventé ont hésité à appeler d’état de préparation de l’établissement. les plus influentes du Time.40 Ces éléments les spécialistes de la discipline « scientifiques De nombreux prestataires peuvent ne de dynamisme et d’interactivité ont élevé le des données » ou « artistes des données ». pas avoir le savoir-faire technique pour concevoir des modèles de notation fondés champ de visualisation des données bien au- Si science des données a finalement été sur des données d’ORM - dans ce cas, le delà des graphiques et des courbes, même si choisi, il convient de reconnaitre que la partenariat avec un fournisseur offrant ce le domaine englobe également ces outils plus créativité, le design et même la sensibilité service est une bonne option. traditionnels. artistique restent des éléments critiques 40 Hans Rosling. In Wikipedia, the Free Encyclopedia, accessed April 3, 2017, https://en.wikipedia.org/wiki/Hans_Rosling 146 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES dans ce domaine. Suite à la discussion ci- 6 de la partie 1). Depuis, les smartphones la technologie des réseaux sociaux. Les dessus sur la visualisation des données, sont devenus omniprésents, la puissance stratégies de marketing sont affinées le processus consistant à transformer informatique a considérablement par des tests statistiques A/B rigoureux, des bits de données en outils informatifs, augmenté et les couts de stockage ont qui ont été mis en avant par des sociétés interactifs, esthétiquement agréables et chuté. Les entreprises technologiques ont comme Amazon ou Yahoo! pour affiner visuellement intéressants nécessite à la introduit de nouveaux produits qui ont été la conception de leurs sites Web. De plus, fois des compétences techniques et des rapidement assimilés à la vie quotidienne, l’analyse géographique de la segmentation idées créatives. En référence à Rosling, tels que Google Maps, le chat vidéo Face des clients, la cartographie des flux P2P et le processus consistant à faire de la Time d’Apple et l’AI domestique d’Amazon, l’identification de la localisation optimale visualisation des données le personnage Alexa. Les produits fondés sur les données des agents bénéficient tous de l’aide principal de ce qui peut être qualifié de sont rapidement adoptés dans tous les de l’analyse géo spatiale et des outils performance théâtrale souligne encore secteurs, les grands ensembles de données qui fournissent la technologie Google l’interaction entre la science des données et et les outils des sciences des données Maps et OpenStreetMap. À mesure que l’art des données. Le rôle des scientifiques offrant une valeur innovante sur les la technologie évolue, les prestataires des données, indépendamment de leur marchés établis. Le milieu des années 2000 de SFN peuvent s’attendre à ce que de appellation fonctionnelle, consiste à a vu l’émergence de l’analyse de données nouvelles solutions émergent pour mieux s’appuyer sur les compétences techniques connaitre une forte croissance au-delà du comprendre les clients, atteindre de plus et l’intuition créative pour explorer les secteur de la technologie, en particulier grands marchés et fournir des produits et en réalisant des progrès anticipés dans schémas, extraire la valeur de ces relations des services adaptés aux besoins des clients. le secteur des biens de consommation et communiquer leur importance. courante (BCC), comme dans les épiceries Données pour l’inclusion financière Ce dualisme d’organisation structurée et et les grands magasins. Le secteur mondial Dans le secteur de l’inclusion financière, les de schémas émergents décrit l’une des a changé en l’espace de quelques années, données sont importantes car la clientèle complexités globales de nombreux projets fait résumé par l’observation largement cible n’a souvent pas accès aux banques de données. D’une part, il est nécessaire diffusée de Tom Goodwin : « Uber, la plus ou autres services financiers ou subit une d’avoir des objectifs clairs, une architecture grande entreprise de taxis au monde, exposition limitée et n’est pas familiarisée définie et une expertise précise pour ne possède aucun véhicule. Facebook, le propriétaire de média le plus populaire au avec les services financiers. Leurs besoins s’assurer que la livraison de projets se fait et leurs modes de dépenses sont variés monde, ne crée aucun contenu. Alibaba, dans le respect des échéances et du budget. et divers. Les données permettent aux le plus grand détaillant qui soit, n’a pas de D’autre part, il est très important de faire prestataires de SFN de créer des produits stock. Et Airbnb, le plus grand fournisseur preuve d’une flexibilité ouverte pour et des services qui reflètent mieux les d’hébergement au monde, ne possède pouvoir découvrir des modèles, explorer de préférences et les aspirations des clients. aucun bien immobilier. Quelque chose nouvelles idées, extraire des données pour Les SFN ont changé l’accès et le caractère d’intéressant est en train de se produire ». découvrir les anomalies possibles, tester abordable des services financiers dans Les solutions fondées sur les données des hypothèses et concevoir de manière les marchés émergents en répondant ont permis aux nouveaux entrants de créative des visualisations pour raconter aux besoins des clients à faible revenu, perturber les secteurs établis, et les l’histoire des données. améliorant ainsi l’inclusion financière. entreprises technologiques continuent à repousser les limites. Le secteur des données dans Les données permettent d’améliorer le monde Les méthodes alternatives de notation l’inclusion financière. Cependant, cela doit Le domaine de la science des données de risque de crédit trouvent de nouvelles être fait en veillant à ce que la protection existe depuis moins d’une décennie, le sources de données qui permettent aux du consommateur et la confidentialité terme lui-même n’ayant véritablement pris produits d’atteindre de nouveaux segments des données ne soient pas compromises. de l’importance qu’en 2008 (voir la figure de clients, en s’appuyant souvent sur Des données sont produites et collectées ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 147 2.2_RESSOURCES passivement au moyen d’appareils numériques tels que des téléphones portables et les ordinateurs, entre autres. De nombreuses parties prenantes se sont dites préoccupées par le fait que les ménages à faible revenu, les producteurs primaires de ces données dans le contexte de l’inclusion financière, peuvent ne pas être conscients que ces données sont recueillies, analysées et monétisées. En l’absence de politique uniforme, des normes différentes sont appliquées selon les types de prestataires et il existe certains cas où les droits des consommateurs ont été violés. Avec la prolifération de l’analyse des données, il est essentiel que toutes les parties prenantes - prestataires de SFN, régulateurs, décideurs, institutions de financement du développement et investisseurs - discutent des problèmes liés à la confidentialité des données et à la protection des consommateurs afin de trouver des solutions. Certains praticiens peuvent se sentir obligés d’adopter une nouvelle technologie ou de nouvelles méthodologies pour suivre les tendances qui prévalent ou en raison des mesures prises par leurs concurrents. Inutile de dire que de tels efforts pourraient être invalidés si l’organisation ne dispose pas des compétences techniques nécessaires pour gérer le projet ou n’a pas la capacité d’agir en fonction des indications trouvées. Ainsi, les praticiens doivent identifier les problèmes commerciaux qu’ils essaient de résoudre, évaluer les données et les capacités analytiques dont ils disposent actuellement, puis prendre des décisions quant à la façon de mettre en œuvre un projet de données. L’objectif commercial doit être au cœur de tout projet de gestion de données. 148 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Glossaire Terme Explication Accord de niveau de Un SLA est la composante du contrat de service entre un prestataire de services et un client. Les SLA fournissent des service (SLA) aspects spécifiques et mesurables liés aux offres de services. Par exemple, les SLA sont souvent inclus dans des accords signés entre les prestataires de services Internet et les clients. Un SLA est également appelé accord au niveau opérationnel (OLA) lorsqu'il est utilisé dans une organisation sans relation prestataire-client établie ou formelle. Agent Une personne ou une entreprise sous contrat chargée de traiter les opérations pour les utilisateurs. Les plus importantes d'entre elles sont les retraits et les dépôts (c'est-à-dire, le chargement de valeur dans le système d'argent mobile, puis sa conversion inverse lors de sa sortie). Dans de nombreux cas, les agents s'occupent également de l'inscription de nouveaux clients. Les agents gagnent généralement des commissions pour la prestation de ces services. Ils fournissent également souvent un service client de première ligne, tel que la formation des nouveaux utilisateurs à la manière d'effectuer des opérations sur leur téléphone. En règle générale, les agents ont d'autres types d'activité, en plus de l'argent mobile. Les agents sont parfois limités par la réglementation, mais les petits commerçants, les institutions de microfinance, les chaines de magasins et les agences de banques servent d'agents sur certains marchés. Certains participants du secteur préfèrent les termes « commerçant » ou « détaillant » pour éviter certaines connotations juridiques du terme « agent » tel qu'il est utilisé dans d'autres secteurs. (GSMA, 2014). Agent maitre Une personne ou une entreprise qui achète de la monnaie électronique à un gros prestataire de SFN et la revend ensuite aux agents, qui la vendent à leur tour aux utilisateurs. Contrairement à un super agent, les agents maitres sont responsables de la gestion de la trésorerie et des exigences en liquidité de valeur électronique d'un groupe particulier d'agents. Algorithme En mathématiques et informatique, un algorithme est une séquence autonome d'actions à réaliser. Les algorithmes effectuent des calculs, traitent des données ou effectuent des tâches de raisonnement automatisé. Analyse de données L'analyse de données fait référence à des techniques et processus qualitatifs et quantitatifs utilisés pour produire de l'information, améliorer la productivité et générer des revenus pour l'entreprise. Les données sont extraites et classées pour identifier et analyser les données et les modèles comportementaux, ainsi que les exigences de l'organisation. Analyse de la fouille de La fouille de textes, aussi appelée exploration de données textuelles et à peu près équivalente à l’analyse de texte, est textes le processus d'obtention d’informations de grande qualité à partir du texte. Des informations de grande qualité sont généralement obtenues par la conception de modèles et de tendances par des moyens tels que l’apprentissage de formes statistiques. La fouille de textes implique généralement de structurer le texte d'entrée, (généralement faire l'analyse grammaticale, parallèlement à l'ajout de certaines caractéristiques linguistiques dérivées et la suppression d'autres, et l’insertion ultérieure dans une BD), de dériver des modèles au sein des données structurées, et d’évaluer et d’interpréter le résultat de sortie. Analyse des réseaux L'analyse des réseaux sociaux, ou ARS, est un processus d'enquête sur les structures sociales grâce à l'utilisation des sociaux (ARS) théories des réseaux et des graphes. Elle définit les structures en réseau en termes de nœuds (chaque acteur, personne ou chose au sein du réseau) et de liaisons ou liens (relations ou interactions) qui les connectent entre eux. Analyse, méthodologies Les méthodologies analytiques les moins complexes sont de nature descriptive ; elles fournissent des descriptions descriptives historiques de la performance institutionnelle, des analyses sur les raisons de ces performances et des informations sur les performances institutionnelles actuelles. Les techniques comprennent des alertes, requêtes, recherches, rapports, visualisations, tableaux de bord, tableaux, graphiques, récits, corrélations, ainsi que des analyses statistiques simples. Analyse, méthodologies Les analyses prédictives fournissent une analyse beaucoup plus complexe des données existantes afin de faire une prédictives prévision. Les techniques comprennent l’analyse de régression, les statistiques à plusieurs variables, le filtrage par motif, l’exploration de données, la modélisation prédictive et la prévision. Analyse, méthodologies L'analyse normative va plus loin que les autres types d’analyses - elle fournit des informations pour orienter les décisions prescriptives optimales pour un ensemble de résultats futurs prévus. Les techniques comprennent l’analyse graphique, les réseaux de neurones, l’apprentissage automatique et profond. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 149 Antécédents en matière Les antécédents en matière de crédit sont les données enregistrées concernant le remboursement des dettes d'un de crédit emprunteur ; un remboursement responsable est interprété comme un antécédent de crédit favorable, alors que la situation de prêt non remboursé ou les défaillances sont des facteurs qui créent un antécédent négatif en matière de crédit. Un rapport de crédit est un dossier sur les antécédents en matière de crédit de l'emprunteur provenant d'un certain nombre de sources, notamment de façon classique les banques, les sociétés de cartes de crédit, les agences de recouvrement et les gouvernements. Apprentissage L'apprentissage automatique est un type d'IA qui fournit aux ordinateurs la possibilité d'apprendre sans être explicitement automatique programmés. L'apprentissage automatique s'axe sur le développement de programmes informatiques qui peuvent changer lorsqu'ils sont exposés à de nouvelles données. Apprentissage non L'apprentissage non supervisé est une méthode utilisée pour permettre aux machines de classer des objets tangibles supervisé et intangibles sans fournir aux machines d'informations préalables sur les objets. Les choses que les machines doivent classer sont diverses, telles que les habitudes d'achat des clients, les comportements de virus, ou les attaques de pirates informatiques. L'idée principale derrière l'apprentissage non supervisé est d'exposer les machines à de grands volumes de données diverses et leur permettre d'apprendre et de déduire à partir des données. Toutefois, les machines doivent d'abord être programmées pour apprendre à partir des données. Apprentissage supervisé L’apprentissage supervisé est une méthode utilisée pour permettre à des machines de classer des objets, des problèmes ou des situations en fonction de données connexes introduites dans les machines. Les machines sont alimentées en données telles que les caractéristiques, les modèles, les dimensions, la couleur et la hauteur des objets, des personnes ou des situations de manière répétitive, jusqu'à ce que les machines soient en mesure d'effectuer des classifications précises. L’apprentissage supervisé est une technologie ou un concept populaire qui est appliqué à des scénarios concrets. L'apprentissage supervisé est utilisé pour fournir des recommandations de produits, segmenter les clients en fonction des données des clients, diagnostiquer une maladie en fonction de symptômes antérieurs, et effectuer bon nombre d'autres tâches. Architecture de données L'architecture de données est un ensemble de règles, de politiques, de normes et de modèles qui régissent et définissent le type de données recueillies et la façon dont elles sont utilisées, stockées, gérées et intégrées au sein d'une organisation et de ses systèmes de BD. Elle offre une approche formelle de création et de gestion des flux de données et de la façon dont elles sont traitées dans tous les systèmes informatiques et applications d'une organisation. Association du L'Association GSM (communément appelée « la GSMA ») est un organisme professionnel qui représente les intérêts des Système mondial de opérateurs de téléphonie mobile dans le monde entier. Environ 800 opérateurs de téléphonie mobile sont membres à part communications mobiles entière de la GSMA et 300 autres sociétés dans l'écosystème mobile plus général sont membres associés. (GSMA) Canal Le point d'accès du client à un PSF, c’est-à-dire avec qui ou avec quoi le client interagit pour accéder à un service ou à un produit financier. Canal de distribution Canaux qui étendent la portée des services financiers au-delà de l’agence traditionnelle. Ceux-ci comprennent les GAB, alternatif les services bancaires par Internet, certaines cartes, les services opérés liés aux appareils au PDV, les services bancaires mobiles, les portefeuilles électroniques et les services-conseils. Capture de données Il s'agit d'une technique selon laquelle un programme informatique extrait des données provenant d'une sortie lisible par d'écran un humain provenant d'une autre source numérique telle qu'un site Web, des rapports ou des écrans d'ordinateur. Centre d'appels Un bureau centralisé utilisé dans le but de recevoir ou de transmettre un grand nombre de demandes d'informations par téléphone. Dans ce contexte, en plus de gérer les plaintes et les requêtes des clients, il peut également être utilisé comme canal de distribution alternatif (CDA) pour améliorer la diffusion et attirer de nouveaux clients par le biais de diverses campagnes promotionnelles. Commerçant Une personne ou une entreprise qui fournit des biens ou des services à un client en échange d'un paiement. Complexité La combinaison des quatre grands attributs de données (volume, vitesse, variété et véracité) exige des processus analytiques évolués. Divers processus analytiques évolués sont apparus pour traiter ces grands ensembles de données. Les processus d'analyse ciblent des types de données spécifiques tels que le texte, l'audio, le web et les réseaux sociaux. Une autre méthodologie qui a reçu une grande attention est l'apprentissage automatique, par lequel un algorithme est créé et entré dans un ordinateur avec des données historiques. Cela permet à l'algorithme de prédire des relations entre des variables apparemment sans rapport entre elles. Compte actif Un compte qui est actif a été utilisé pour au moins une transaction dans la période précédente, généralement de 30 ou 90 jours. Cela n'inclut pas les transactions non financières telles que la modification d'un code PIN. 150 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Confidentialité des La confidentialité des données, aussi appelée confidentialité de l'information, est l'aspect de l'informatique qui traite de la données capacité que possède une organisation ou un individu à déterminer quelles sont les données d'un système informatique qui peuvent être partagées avec des tiers. Cube de données En informatique, il s'agit de données multidimensionnelles, souvent avec le temps comme troisième dimension de colonnes et de lignes. Dans les opérations commerciales, il s'agit un terme générique qui fait référence aux systèmes d’entreprise qui permettent aux utilisateurs de spécifier et de télécharger des rapports de données brutes. Beaucoup incluent des champs de type glisser-déposer pour concevoir une demande d'information ou des agrégations de données simples. De personne à personne Transfert de fonds de personne à personne. (P2P) Distribution statistique La distribution d'une variable est une description du nombre relatif de fois où chaque résultat possible se produira pour un certain nombre d'essais. Données Les données sont un terme générique utilisé pour décrire toute information, fait ou statistique qui a été recueilli pour tout type d'analyse ou à des fins de référence. Il existe de nombreux types de données provenant de nombreuses sources différentes. Les données sont généralement traitées, agrégées, manipulées ou regroupées pour produire des informations qui ont un sens. Données alternatives Données non financières provenant des ORM, des réseaux sociaux et de leurs BD transactionnelles. L’accès à d’autres données alternatives telles que l’historique des paiements et les factures de services collectifs peut également permettre la création de notations de crédit pour les clients qui peuvent être sinon hors d'atteinte du service. Données de services Un protocole utilisé par les appareils mobiles GSM pour communiquer avec les ordinateurs ou le réseau du prestataire de supplémentaires non services. Ce canal est pris en charge par tous les combinés GSM et permet une session interactive composée d’un échange structurées (USSD) de messages dans les deux sens selon un menu d’application défini. Données géo spatiales Informations sur un objet physique qui peuvent être représentées par des valeurs numériques dans un système de coordonnées géographiques. Données non structurées Fait généralement référence à des informations qui ne résident pas dans une BD traditionnelle ligne-colonne. Les fichiers de données non structurées incluent souvent du contenu textuel et multimédia. En voici quelques exemples : messages e-mails, documents de traitement de texte, vidéos, photos, fichiers audio, présentations, pages Web et de nombreux autres types de documents d'entreprise. Données ouvertes Les données ouvertes sont des données auxquelles tout le monde peut accéder, que tout le monde peut utiliser ou partager. Données périphériques Habituellement, les sources de données périphériques les plus utiles sont les données de centre d’appels, les données provenant des GRC (systèmes de gestion des incidents), les informations de la base de connaissances des foires aux questions, des e-mails d'approbation, les programmes d'identification de liste noire et liste blanche, ou des programmes d'identification Excel partagés. Données qualitatives Données qui font des approximations ou caractérisent, mais ne mesurent pas les attributs, caractéristiques ou propriétés d'une chose ou d'un phénomène. Les données qualitatives décrivent, alors que les données quantitatives définissent. Données quantitatives Données qui peuvent être quantifiées et vérifiées, et qui se prêtent à la manipulation statistique. Les données qualitatives décrivent, alors que les données quantitatives définissent. Données semi- Les données semi-structurées sont une forme de données structurées qui ne sont pas conformes à la structure formelle structurées des modèles de données associées à des BD relationnelles ou d’autres formes de tableaux de données. Elles contiennent néanmoins des balises ou d’autres marqueurs pour séparer les éléments sémantiques et appliquer des hiérarchies d'enregistrements et de champs dans les données. Données structurées Les données structurées font référence à toute donnée qui se trouve dans un champ fixe dans un enregistrement ou fichier. Cela inclut les données contenues dans les BD relationnelles. Données traditionnelles Les données traditionnelles se réfèrent aux données internes structurées couramment utilisées (telles que les données transactionnelles) et les données externes (telles que les informations provenant des bureaux de crédits ) qui sont utilisées dans le processus de prise de décision. Elles peuvent inclure des données qui sont générées à partir d’interactions avec des clients tels que des enquêtes, des formulaires d'inscription, le salaire, et des informations démographiques. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 151 Écart type En statistique, l'écart type est une mesure qui est utilisée pour quantifier la quantité de variation ou de dispersion d'un ensemble de valeurs de données. Un écart type faible indique que les points de données ont tendance à être proches de la moyenne de l'ensemble, tandis qu'un écart type élevé indique que les points de données sont répartis sur une série plus large de valeurs. Entrepôt de données Une série d'informations et de données sur une entreprise provenant des systèmes opérationnels et de sources de données externes. Un entrepôt de données est conçu pour appuyer les décisions commerciales en permettant la consolidation et l’analyse de données, ainsi que l'établissement de rapports sur les données à différents niveaux d’agrégation. Essai randomisé contrôlé Un essai randomisé contrôlé est une expérience scientifique où les personnes participant à l'essai sont attribuées au hasard (ERC) à différents contextes d'intervention puis sont comparées par rapport aux autres. La randomisation minimise le biais de sélection lors de la conception de l'expérience scientifique. Les groupes de comparaison permettent aux chercheurs de déterminer les effets de l'intervention par rapport au groupe (de contrôle) sans intervention, tandis que d’autres variables sont maintenues constantes. Exaoctet (Eo) L'exaoctet (Eo) est un multiple de l'unité octet utilisé en information numérique. Selon le Système international d'unités, le préfixe exa indique la multiplication par 1000 (1018) puissance 6. Par conséquent, un Eo est un quintillion d'octets (échelle courte). Le symbole de l'Exaoctet est Eo. Exploration de données L'exploration de données est le processus de calcul de découverte de modèles dans de grands ensembles de données. Il s'agit d'un sous-domaine interdisciplinaire de l'informatique. L'objectif global du processus d'extraction de données est d'extraire des informations à partir d'un ensemble de données et de les transformer en une structure compréhensible pour une utilisation ultérieure. Fonds de caisse (fonds de Le solde de monnaie électronique, ou d'espèces physiques ou d’argent sur un compte bancaire auquel un agent peut caisse d'un agent) immédiatement accéder pour répondre aux demandes des clients désirant acheter (encaisser) ou vendre (décaisser) de la monnaie électronique. Gestion de données La gestion de données est le développement, l'exécution et la supervision de plans, politiques, programmes et pratiques qui contrôlent, protègent, livrent et améliorent la valeur des données et des actifs d’informations. Historique détaillé des Il s'agit des données enregistrées par un ORM concernant un appel vocal ou un SMS, avec des détails tels que l’origine, appels (CDR) la destination, la durée, l'heure, ou le montant facturé pour chaque appel ou SMS. Hypothèse Une hypothèse est une prévision fondée sur des connaissances qui peut être testée. Indicateur clé de Un ICP est une valeur mesurable qui montre l'efficacité d’une entreprise pour atteindre des objectifs commerciaux clés. performance (ICP) Les organisations utilisent des ICP à plusieurs niveaux pour évaluer leur capacité à atteindre les cibles. Les ICP de haut niveau peuvent s'axer sur la performance globale de l'entreprise, tandis que les ICP de faible niveau peuvent s'axer sur des processus dans des services tels que les ventes, le marketing ou un centre d'appels. Indicateur clé de risque Un ICR est une mesure utilisée pour indiquer à quel degré une activité est risquée. La différence avec un ICP est que ce (ICR) dernier est conçu comme une mesure de la qualité avec laquelle quelque chose est fait, alors que le premier indique à quel point quelque chose peut être dommageable si cette chose se produit et quelle est la probabilité qu'elle se produise. Institution de Une IF spécialisée dans les services bancaires pour les groupes, petites entreprises ou personnes à faible revenu. Microfinance (IMF) Institution financière (IF) Un prestataire de services financiers, notamment les coopératives de crédit, les banques, les institutions financières non bancaires, les institutions de microfinance et les PFS mobiles. Intelligence artificielle L'IA est un domaine de l'informatique qui met l'accent sur la création de machines intelligentes qui fonctionnent et (IA) réagissent comme des humains. Interface de programme Une méthode de spécification d'un composant logiciel concernant ses opérations par un accent mis sur un ensemble de d'application (API) fonctionnalités qui sont indépendantes de leur mise en œuvre respective. Les API sont utilisées pour une intégration en temps réel au CBS ou au système d'information de gestion (SIG), qui spécifie la manière dont deux systèmes différents peuvent communiquer entre eux par l'échange de « messages ». Il existe différents types d'API, notamment celles sur le Web, la communication par Protocole de contrôle de transmission (TCP), l'intégration directe à une BD, ou des API propriétaires écrites pour des systèmes spécifiques. Lac de données Un lac de données est un dépôt massif, facilement accessible et centralisé de grands volumes de données structurées et non-structurées. 152 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Lutte contre le Les LBC/LFT sont des contrôles juridiques appliqués au secteur financier pour aider à prévenir, détecter et signaler les blanchiment de activités de blanchiment d'argent. Les contrôles de LBC/LFT comprennent les montants maximaux qui peuvent être capitaux et Lutte contre détenus sur un compte ou transférés entre des comptes pour toute transaction, ou pour tout jour donné. Ils comprennent le financement du également les informations financières obligatoires de la KYC pour toutes les transactions supérieures à 10 000 USD, terrorisme (LBC/LFT) notamment la déclaration de la source des fonds, ainsi que la raison du virement. Machines à vecteurs de Une machine à vecteur de support, ou MVS, est un algorithme d'apprentissage automatique qui analyse les données pour support (MVS) les classer et opérer une analyse de régression. Une MVS est une méthode d'apprentissage supervisé qui examine les données et les trie selon l’une de deux catégories. Une MVS produit en sortie une carte des données triées avec les marges entre les deux catégories les plus éloignées possible. Les MVS sont utilisées dans la catégorisation de textes, le classement d'image, la reconnaissance de l’écriture manuscrite et en sciences. Une machine à vecteur de support est également appelée réseau à vecteurs de support (RVS). Mégadonnées Les mégadonnées sont de grands ensembles de données, dont la taille est mesurée par cinq caractéristiques distinctes : volume, vitesse, variété, véracité et complexité. Métadonnées Les métadonnées décrivent d’autres données. Elles fournissent des informations sur le contenu d'un élément donné. Par exemple, une image peut inclure des métadonnées qui décrivent la taille de l'image, sa profondeur des couleurs, la résolution d'image, le moment où l'image a été créée et autres données. Méthode scientifique Résolution des problèmes en utilisant une approche étape par étape consistant en (1) l’identification et la définition d’un problème, (2) l'accumulation de données pertinentes, (3) la formulation d’une hypothèse, (4) la conduite d'expériences pour tester l'hypothèse, (5) l’interprétation des résultats de manière objective, et (6) la répétition des étapes jusqu'à ce qu'une solution acceptable soit trouvée. Méthodes de Modèles qui utilisent des approches aléatoires pour modéliser des systèmes complexes en définissant une pondération Monte Carlo probabiliste à divers points de décision dans le modèle. Les résultats montrent un modèle de distribution statistique qui peut être utilisé pour prédire la probabilité de certains résultats, compte tenu des entrées dans le système modélisé. Ces modèles sont habituellement utilisés pour des problèmes d'optimisation ou des analyses de probabilités. Méthodologie non Une méthode couramment utilisée en statistiques où de petites tailles d’échantillon sont utilisées pour analyser des paramétrique données nominales. Une méthode non paramétrique est utilisée lorsque le chercheur ne sait rien des paramètres de l'échantillon tiré de la population. Modèle de notation La psychométrie fait référence à la mesure des connaissances, capacités, attitudes et traits de personnalité. Dans les psychométrique modèles de notation psychométriques, les principes psychométriques sont appliqués à la notation de risque de crédit en utilisant des techniques statistiques évoluées pour prévoir la probabilité de défaut d'un demandeur. Modélisation prédictive La modélisation prédictive est un processus qui utilise l’exploration de données et les probabilités pour prévoir des résultats. Chaque modèle est composé d'un certain nombre de prédicteurs, qui sont des variables susceptibles d'influer sur les résultats futurs. Une fois que les données ont été recueillies pour les prédicteurs pertinents, un modèle statistique est formulé. Monnaie électronique La « monnaie électronique » est la valeur stockée détenue sur des cartes ou des comptes tels que les portefeuilles électroniques. En règle générale, la valeur totale de la monnaie électronique émise correspond à des fonds détenus sur un ou plusieurs comptes bancaires. Elle est généralement déposée en fiducie, de sorte que même si le prestataire du service de portefeuille électronique s'avérait défaillant, les utilisateurs peuvent récupérer la valeur totale stockée sur leurs comptes. Moyenne Une moyenne est la somme d'une liste de chiffres divisée par le nombre de chiffres de la liste. En mathématiques et statistiques, on l'appellerait la moyenne arithmétique. Nettoyage de données Le nettoyage de données est le processus de modification des données dans une ressource de stockage donnée afin de s'assurer qu'elles sont précises et correctes. Notation du risque de L'analyse statistique réalisée par les prêteurs et les IF pour accéder à la solvabilité d'une personne. Les prêteurs utilisent la crédit notation de risque de crédit, entre autres, pour prendre une décision quant à l'octroi d'un crédit. La notation de risque de crédit d'une personne est un nombre compris entre 300 et 850, 850 étant la meilleure notation de risque de crédit possible. Obligation de s'informer Les règles relatives à la LBC/LFT qui obligent les prestataires à effectuer des procédures pour identifier un client et qui sur le client (KYC) évaluent la valeur des informations pour la détection, la surveillance et le signalement d'activités suspectes. Octet Il s'agit d'une unité d'information numérique, considérée comme une unité de taille de mémoire. Il se compose de 8 bits, et 1024 octets est égal à 1 kilooctet. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 153 Opérateur de réseau Une entreprise qui dispose d'une licence délivrée par un gouvernement pour fournir des services de télécommunications mobile (ORM) par le biais d'appareils mobiles. Petites et moyennes Les petites et moyennes entreprises, ou PME, sont des entreprises non-filiales indépendantes qui emploient moins d'un entreprises (PME) certain nombre d'employés. Ce nombre est variable selon les pays. Point de vente (PDV) Appareil électronique utilisé pour le traitement des paiements par carte à l'endroit où un client effectue un paiement au commerçant en échange de biens et services. Le terminal de PDV est un appareil matériel (fixe ou mobile) sur lequel s'exécute un logiciel destiné à faciliter la transaction. À l’origine, ces appareils étaient des appareils personnalisés ou des ordinateurs personnels, mais, de façon de plus en plus courante, ce sont des téléphones mobiles, des smartphones et des tablettes. Portefeuille électronique Un compte de monnaie électronique appartenant à un client de SFN et accessible par téléphone portable. Probabilité La probabilité est la mesure de la chance qu'un événement se produise. Une probabilité est quantifiée en un nombre compris entre zéro et un (où « 0 » indique l’impossibilité et « 1 » indique la certitude). Plus la probabilité d'un événement est élevée, plus il est certain que l'événement aura lieu. Protocole de transfert de Le Protocole de transfert de fichiers (FTP) est un protocole client-serveur utilisé pour transférer des fichiers vers un fichiers (FTP) ordinateur hôte ou échanger des fichiers avec un ordinateur hôte. Le FTP est la norme Internet pour le déplacement ou le transfert de fichiers d'un ordinateur à un autre en utilisant les réseaux TCP ou IP. Revenu moyen par L'ARPU est une mesure utilisée principalement par les MNO, définie comme la recette totale divisée par le nombre utilisateur (ARPU) d'abonnés. Recherche primaire et La recherche primaire porte sur des données originales recueillies selon sa propre approche, souvent une étude ou une secondaire enquête. La recherche secondaire utilise les résultats existants d'études et de collecte de données réalisées antérieurement. Reconnaissance de En informatique, la reconnaissance de formes est une branche de l’apprentissage automatique qui met l’accent sur la formes reconnaissance de modèles de données ou de régularités dans les données pour un scénario donné. C'est une sous-division de l’apprentissage automatique et elle ne doit pas être confondue avec une véritable étude d'apprentissage automatique. La reconnaissance de formes peut être soit « supervisée », lorsque l’on trouve des formes déjà connues dans certaines données, ou « non supervisée », lorsque sont découvertes des formes entièrement nouvelles. Régression linéaire Technique mathématique pour trouver la ligne droite qui correspond le mieux aux valeurs d'une fonction linéaire, tracée sur un graphique en nuage de points de données. Scientifique des données Un scientifique des données est une personne, une organisation ou une équipe qui exécute des processus d'analyse statistique, d'exploration et de récupération de données sur une grande quantité de données afin d'identifier des tendances, des chiffres et d'autres informations pertinentes. Sécurité des données La sécurité des données fait référence à des mesures de confidentialité numérique qui sont appliquées pour empêcher un accès non autorisé aux ordinateurs, BD, sites Web et tout autre endroit où les données sont stockées. La sécurité des données protège également les données contre la corruption. La sécurité des données est un aspect essentiel de l'informatique pour les organisations de toute taille et de tout type. Segmentation du marché Le processus de définition et de subdivision d'un grand marché homogène en segments clairement identifiables ayant des besoins, désirs ou caractéristiques de demande similaires. Son objectif est de concevoir un marketing mix qui correspond précisément aux attentes des clients sur le segment ciblé. Segmentation La segmentation psychographique consiste à diviser le marché en segments fondés sur différents traits de personnalité, psychographique valeurs, attitudes, intérêts et modes de vie de consommateur. Service d'argent mobile, Un SFN qui est fourni par l’émission de comptes virtuels, correspondant à un seul compte bancaire commun, sous forme de Service financier mobile portefeuilles électroniques, qui sont accessibles à l’aide d’un téléphone portable. La plupart des prestataires d'argent mobile sont des ORM ou des PSP. Service de messages Un canal de communication « enregistrement et retransmission » qui implique l'utilisation du réseau de télécommunication courts (SMS) et le protocole de message court de pair à pair (SMPP) pour envoyer une quantité limitée de texte d'un téléphone à un autre, ou entre téléphones et serveurs. Services bancaires La fourniture de produits et de services bancaires par le biais de canaux de distribution numériques. électroniques Services bancaires L'utilisation d'un téléphone portable pour accéder à des services conventionnels. Cela couvre les services opérationnels et non mobiles opérationnels, tels que l'affichage d'informations et l'exécution de transactions financières. Parfois appelés « m-banking ». 154 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES Services financiers Utilisation des moyens numériques pour offrir des services financiers. Les SFN englobent tous les téléphones mobiles, numériques (SFN) cartes, PDV et les offres de commerce électronique, notamment les services fournis aux clients par l’intermédiaire des réseaux d'agents. Statistiques Les statistiques paramétriques sont une branche des statistiques qui suppose que les données d'un échantillon proviennent paramétriques d'une population qui suit une distribution de probabilité fondée sur un ensemble fixe de paramètres. La plupart des méthodes statistiques élémentaires bien connues sont paramétriques. Stockage de données Le stockage de données est un terme général désignant l'archivage des données, sous des formes électromagnétiques ou autres, destinées à être utilisées par un ordinateur ou un appareil. Différents types de stockage de données jouent des rôles différents dans un environnement informatique. En plus des formes de stockage du matériel de données, il existe maintenant de nouvelles options de stockage de données à distance, telles que le Cloud computing, qui peut révolutionner les façons dont les utilisateurs accèdent aux données. Super Agent Une entreprise, parfois une banque, qui achète de la monnaie électronique en gros à un prestataire de SFN, puis la revend ensuite aux agents, qui à leur tour la vendent aux utilisateurs. Tableau de bord Un tableau de bord de veille économique est un outil de visualisation de données qui affiche l'état actuel de paramètres et d'ICP pour une entreprise. Les tableaux de bord consolident et organisent des chiffres, des indicateurs et parfois des fiches d'évaluation sur un seul écran. Test A/B Le test A/B est une méthode permettant de vérifier deux versions différentes d'un produit ou d'un service afin d'évaluer comment un léger changement dans les attributs d'un produit peut avoir un impact sur le comportement des clients. Ce type d'expérimentation permet aux prestataires de SFN de choisir plusieurs variantes d'un produit ou service, de tester statistiquement le résultat en termes d'intérêt suscité auprès des clients et de comparer les résultats entre les groupes cibles. Traitement des données Le traitement des données est, en général, la collecte et la manipulation d'éléments de données pour produire des informations significatives. En ce sens, il peut être considéré comme un sous-ensemble du traitement de l'information, ou le changement (traitement) de l'information d'une manière quelconque et détectable par un observateur. Traitement des images Le traitement des images est un terme assez général qui fait référence à l'utilisation d'outils d'analyse pour traiter ou améliorer des images. De nombreuses définitions de ce terme spécifient des opérations mathématiques ou des algorithmes comme outils pour le traitement d'une image. Traitement du langage Le champ d'étude qui s'axe sur les interactions entre le langage humain et les ordinateurs est appelé Traitement du langage naturel (TLN) naturel, ou TLN en abrégé. Il se trouve au croisement de l'informatique, de l'IA et de la linguistique informatique. La TLN est un domaine qui couvre la compréhension et la manipulation du langage humain par un ordinateur. Type de téléphone Un téléphone portable qui a la capacité de traitement pour exécuter la plupart des fonctions d'un ordinateur, doté portable - smartphone généralement d’un écran relativement grand et d’un système d'exploitation capable d'exécuter un ensemble complexe d'applications, avec accès à Internet. En plus du service vocal numérique, les smartphones modernes permettent la messagerie textuelle, l'email, la navigation sur le Web, l'utilisation d'appareil photo et de caméra, un lecteur MP3, la lecture de vidéo et des capacités intégrées de transfert de données et de GPS. Type de téléphone Un téléphone à fonctionnalités est un type de téléphone portable qui a plus de fonctionnalités qu'un téléphone portable portable - Téléphone à de base, mais qui n'est pas équivalent à un smartphone. Les téléphones à fonctionnalités peuvent fournir quelques- fonctionnalités unes des fonctionnalités évoluées qu'on trouve sur un smartphone tel qu'un lecteur multimédia portable, un appareil photo numérique, un agenda personnel et l’accès à Internet, mais ne prend habituellement pas en charge d’applications supplémentaires. Type de téléphone Un téléphone portable de base qui peut envoyer et recevoir des appels, envoyer des messages texte et accéder au canal portable - Téléphone de USSD, mais qui a des fonctionnalités supplémentaires très limitées. base Variété L'ère du numérique a diversifié les types de données disponibles. Les données traditionnelles structurées correspondent bien à des BD existantes qui sont destinées à des informations bien définies suivant un ensemble de règles. Par exemple, une transaction bancaire a un horodatage, des montants et un emplacement. Cependant, aujourd'hui, 90 pour cent des données qui sont générées sont « non structurées », ce qui signifie qu'elles se présentent sous la forme de tweets, d'images, de documents, de fichiers audio, d'historiques d'achat des clients et de vidéos. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 155 Biographie des auteurs DEAN CAIRE Spécialiste de la notation de risque de crédit, IFC Dean a travaillé au cours des 15 dernières années comme consultant en notation de risque de crédit, 12 ans avec la société DAI Europe, puis comme consultant indépendant. Au cours de cette période, il a aidé des clients de 77 institutions financières dans 45 pays à développer plus de 100 modèles de notation de risque de crédit personnalisés pour les segments suivants : prêts à la consommation (notamment les SFN), locations standard de biens, prêts aux microentreprises, prêts aux petites entreprises (notamment les services aux commerçants en finance numérique), prêts à l’agriculture et location de matériel (notamment sous forme de SFN), micro-prêts à des groupes de solidarité et grands prêts à des sociétés non cotées. Dean cherche à transférer les compétences de développement et de gestion de modèle à des IF homologues afin qu’elles puissent s’approprier pleinement les modèles et les gérer à l’avenir. LEONARDO CAMICIOTTI Directeur exécutif, TOP-IX Consortium Travaillant directement sous la supervision du conseil d’administration, Leonardo est responsable des activités stratégiques, administratives et opérationnelles de TOP-IX Consortium. Il gère le Programme de développement de TOP-IX, qui incite à la création d’entreprises en fournissant un soutien en infrastructure (c’est-à-dire bande passante Internet, Cloud computing et prototypage logiciel) aux start-up et promeut des projets d’innovation dans différents secteurs, tels que les Mégadonnées et les calculs à hautes performances, la fabrication ouverte et les technologies civiques. Il était auparavant chercheur, responsable de la stratégie et de la prospection commerciale et chef d’entreprise chez Philips Corporate Research. Il est diplômé en ingénierie électronique de l’Université de Florence et est titulaire d’un MBA de l’Université de Turin. 156 ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES SOREN HEITMANN Responsable des opérations, IFC Soren dirige le programme de recherche appliquée et de suivi, d’évaluation et d’apprentissage (SEA) intégré du partenariat IFC-Fondation MasterCard. Il travaille au cœur de la recherche et de la technologie fondée sur les données pour inciter à l’apprentissage et l’innovation dans le cadre des projets de SFN d’IFC en Afrique subsaharienne. Auparavant, Soren a dirigé le service d’évaluation des résultats pour l’Unité de vice-présidence sur les risques et l’équipe de Gestion du portefeuille de suivi et d’évaluation régional pour l’Europe et l’Asie centrale d’IFC. Il dispose d’une expérience dans la gestion des bases de données, l’ingénierie logicielle et les technologies Web, qu’il intègre désormais dans son travail en fournissant aux clients d’IFC un appui en matière de gestion de données. Soren est titulaire d’un diplôme en Anthropologie culturelle de l’Université de Boston et d’un Master en Économie du développement de la SAIS de l’Université Johns Hopkins. SUSIE LONIE Spécialiste des services financiers numériques, IFC Susie a passé trois ans au Kenya pour la création et l’opérationnalisation du service de paiement mobile M-PESA, puis elle a facilité son lancement sur plusieurs autres marchés, notamment l’Inde, l’Afrique du Sud et la Tanzanie. En 2010, Susie a été la co-lauréate du Prix de l’innovation de The Economist pour l’innovation sociale et économique pour son travail sur M-PESA. Elle est devenue consultante en SFN indépendante en 2011 et travaille avec des banques, des ORM et d’autres clients sur tous les aspects de la prestation de services financiers aux personnes qui n’ont pas accès aux banques ou autres services financiers sur les marchés émergents, notamment l’argent mobile, les services bancaires par agent, les transferts de fonds internationaux et l’interopérabilité. Susie travaille sur la stratégie, l’évaluation financière, la conception de produits et les exigences fonctionnelles, les opérations, la gestion des agents, l’évaluation des risques, l’évaluation de la recherche, les ventes et le marketing en matière de SFN. Elle a obtenu ses diplômes en ingénierie chimique à Edimbourg et Manchester, au Royaume-Uni. ANALYSE DE DONNÉES ET SERVICES FINANCIERS NUMÉRIQUES 157 CHRISTIAN RACCA Ingénieur de conception, TOP-IX Consortium Christian gère le programme BIG DIVE de TOP-IX visant à offrir des formations pour les scientifiques des données, des initiatives pédagogiques fondées sur les données pour les entreprises, les organisations et les projets de conseil dans le (vaste) domaine de l’exploitation des données. Après avoir obtenu son diplôme en ingénierie des télécommunications au Politecnico di Torino, Christian a rejoint TOP-IX Consortium, en travaillant sur les flux de données continus et le Cloud computing, et plus tard sur les startups web. Il a été mentor de plusieurs projets sur le modèle économique, le développement de produit et l’architecture de l’infrastructure et a entretenu des relations avec les investisseurs, les incubateurs, les accélérateurs et l’écosystème de l’innovation en Italie et en Europe. MINAKSHI RAMJI Responsable adjointe des opérations, IFC Minakshi mène des projets sur les SFN et l’inclusion financière au sein du Groupe des institutions financières d’IFC en Afrique subsaharienne. Avant cela, elle était consultante à MicroSave, un cabinet de conseil sur l’inclusion financière basé en Inde, où elle était Analyste principale dans leur cabinet des Services financiers numériques. Elle a également travaillé au Centre pour la microfinance chez IFMR Trust, en Inde, qui se spécialise sur les problèmes de la politique d’accès au financement en Inde. Elle est titulaire d’un master en Développement économique de la London School of Economics et d’une licence en Mathématiques du Bryn Mawr College aux États-Unis. QIUYAN XU Directrice des scientifiques des données, Cignifi Qiuyan Xu est la directrice des scientifiques des données chez Cignifi Inc., et dirige l’équipe d’Analyse des mégadonnées. Cignifi est une start-up de technologie financière en pleine croissance à Boston, aux États-Unis, qui a développé la première plateforme analytique éprouvée fournissant des notations de crédit et de marketing pour les consommateurs à l’aide de données sur le comportement des utilisateurs de téléphones portables. Le Docteur Xu dispose d’une expertise dans l’analyse des Mégadonnées, le Cloud computing, la modélisation statistique, l’apprentissage automatique, l’optimisation des opérations et la gestion des risques. Elle a été directrice des analyses chez Liberty Mutual et directrice de la gestion des risques d’entreprise chez Travelers Insurance. Le Docteur Xu est titulaire d’un doctorat en statistiques de l’Université de Californie, Davis et d’un certificat de Gestionnaire des risques financiers de l’Association mondiale des professionnels du risque. 158 DATA ANALYTICS AND DIGITAL FINANCIAL SERVICES Le Partenariat pour l’inclusion financière Le Partenariat pour l’inclusion financière est une initiative conjointe de 37,4 millions d’USD d’IFC et de the Mastercard Foundation visant à développer la microfinance et à faire progresser les services financiers mobiles en Afrique sub-saharienne Le partenariat est également soutenu par la Fondation Bill & Melinda Gates et la Banque autrichienne de développement (OeEB, Oesterreichische Entwicklungsbank AG). Il travaille également avec des institutions de microfinance, des banques, des opérateurs de réseaux mobiles et des prestataires de service de paiement sur le continent pour tester et évaluer les modèles économiques innovants favorables à l’inclusion financière. Le programme inclut un solide volet de partage des connaissances. Ce manuel est le second d’une série de manuels sur la façon de mettre en œuvre avec succès les services financiers numériques, et l’une des nombreuses publications du Partenariat. Pour plus d’informations et pour avoir accès à tous les rapports, veuilles vous rendre sur : www.ifc.org/financialinclusionafrica A propos d’IFC IFC, un membre du Groupe de la Banque mondiale, est la principale institution internationale de développement exclusivement dédiée au secteur privé sur les marchés émergents. Travaillant avec plus de 2 000 entreprises dans le monde, nous utilisons notre capital, notre expertise et notre influence pour créer des opportunités là où elles sont le plus nécessaires. Au cours de l’exercice 2015, nos investissements de long terme dans les pays en développement ont augmenté pour se situer à près de 18 milliards d’USD, aidant le secteur privé à jouer un rôle essentiel dans l’effort mondial visant à mettre fin à l’extrême pauvreté et à favoriser une prospérité partagée. Pour plus d’informations, veuillez-vous rendre sur le site www.ifc.org A propos de the Mastercard Foundation The Mastercard Foundation travaille avec des organisations visionnaires pour fournir un meilleur accès à l’éducation, à la formation en compétences et aux services financiers à des individus vivant dans la pauvreté, essentiellement en Afrique. Étant l’une des fondations indépendantes les plus grandes, son travail est guidé par sa mission consistant à faire progresser les apprentissages et à promouvoir l’inclusion financière pour réduire la pauvreté. Basée à Toronto, au Canada, son indépendance a été établie par MasterCard quand la Fondation fut fondée en 2006. Pour plus d’informations ou pour vous abonner au bulletin d’information de la Fondation, veuillez-vous rendre sur www.mastercardfdn.org Ce manuel est l’un des trois manuels sur les services financiers numériques publiés par Le Partenariat pour l’inclusion financière, une initiative conjointe d’IFC et de the Mastercard Foundation visant à promouvoir l’inclusion financière. Les deux autres manuels sont également disponibles sur demande à la SFI ou à télécharger sur le site Web du Partenariat : www.ifc.org/financialinclusionafrica : Le Manuel Canaux de Distribution Alternatifs et Technologies M A fournit un guide pratique, étape par étape, pour la conception de canaux N U E de distribution alternatifs liant les choix technologiques aux processus L CANAUX DE DISTRIBUTION ALTERNATIFS ET TECHNOLOGIES de l’entreprise. Le Manuel Services Financiers Numériques et Gestion des Risques M A est concu pour tous types d’institutions financières offrant ou prévoyant N U E d’ offrir des services financiers numériques. Ce manuel présente un SERVICES FINANCIERS L NUMÉRIQUES ET GESTION DES RISQUES aperçu des risques connexes et comment appliquer un cadre de gestion des risques pour faire face à ces risques de façon optimale. COORDONNÉES Anna Koblanck IFC, Sub-Saharan Africa akoblanck@ifc.org www.ifc.org/financialinclusionafrica 2017