Détection de Fraude
Sommaire
- Problématique
- Déclarations "Frauduleuses" vs. "Inexactes"
- Détection de Fraudes dans une Problématique de Modélisation Prédictive
- Prévoir les Événements Rares
- Détection d'Anomalies et Détection d'Intrusion
- Moteur de Règles et Modélisation Prédictive
- Text Mining et Détection de Fraudes
Problématique
La détection de fraude est une problématique courante dans de nombreux domaines, notamment les banques et le
secteur financier, les assurances, dans le domaine social, judiciaire, et bien d'autres encore.
Au cours des dernières années, les tentatives de fraude ont connu une forte recrudescence,
ce qui rend la lutte contre ce phénomène plus importante que jamais.
Malgré un renforcement des plans d'action de la part des différents organismes concernés, les actes de
fraude et les abus coûtent chaque année plusieurs centaines de milliers d'euros.
La difficulté pour ces organismes tient au fait qu'il s'agit d'isoler quelques cas de
fraudes parmi une multitude de demandes légitimes.
Dans l'industrie bancaire, la fraude peut toucher les transactions par carte bancaire ou par chèque mais également certaines pratiques comptables frauduleuses. Dans le domaine de l'assurance, 25% des demandes de remboursement sont, à des degrés divers, frauduleuses, ce qui se traduit par un surcoût moyen de 10% des indemnités versées par les assureurs. La fraude peut aller de dommages qui sont simplement surévalués jusqu'à des accidents ou sinistres volontaires en vue de percevoir les indemnités. Avec le développement de ces différentes formes de fraude, et des fraudeurs qui profitent des failles existantes dans des systèmes parfois conçus en sous-estimant ce risque, la détection des fraudes devient de plus en plus difficiles à réaliser.
Grâce aux différentes techniques et outils avancés de statistiques et de data mining, vous pouvez détecter rapidement mais également anticiper les actes de fraude et prendre des mesures immédiates pour limiter leur impact financier. Le produit STATISTICA Scorecard vous permet notamment de développer, déployer et suivre dans le temps vos modèles de scoring pour une gestion optimisée et pertinente du risque. La solution STATISTICA Live Score vous permet ensuite d'examiner en temps réel des centaines de transactions par seconde, mettre en évidence des comportements suspects ou à risque, déclencher automatiquement des alertes et bloquer les transactions suspectes avant qu'il ne soit trop tard. Vos équipes peuvent alors se concentrer sur ces cas pour identifier les transactions frauduleuses et prendre toutes les mesures nécessaires pour garantir la légitimité des transactions et renforcer la lutte contre la fraude.
L'identification des facteurs influents grâce au module Sélection et Filtrage des Prédicteurs de STATISTICA Data Miner constitue l'une des premières étapes clé dans la détection des fraudes. Quelles sont les autres caractéristiques qui s'observent habituellement avec la fraude elle-même ? Dès lors que ces phénomènes et ces caractéristiques peuvent être isolés, il devient beaucoup plus facile de prévoir et détecter les fraudes.
Grâce aux outils sophistiqués de data mining comme les arbres de décision
(Boosting d'Arbres de Décision,
Modèles d'Arbres de Classification et de Régression,
Modèles CHAID et
Forêts Aléatoires),
les Séparateurs à Vaste Marge,
les règles d'association,
les classifications ou encore les
réseaux de neurones,
vous pouvez créer des modèles prédictifs qui vont vous permettre d'estimer différents indicateurs comme la
probabilité d'un comportement frauduleux ou le montant en euros de la fraude. Ces modèles prédictifs
vont ensuite vous permettre d'allouer les ressources de la manière la plus adéquate pour prévenir ou
récupérer les pertes liées à la fraude.
Déclarations "Frauduleuses" vs. "Inexactes"
La notion de "fraude" implique une démarche intentionnelle de la part d'un individu ou de l'une des parties, vraisemblablement dans le but de commettre une action frauduleuse. Du point de vue de la victime de l'escroquerie, peu importe si cette fraude a été intentionnelle ou si elle découle d'une information inexacte introduite dans le système de crédit ou de demandes d'indemnités. Pour l'organisme de crédit ou d'assurance, pour le prestataire social ou pour toute autre activité similaire, ce qui est important, c'est de savoir si une transaction associée à une perte s'est déjà produite ou si elle est sur le point de se produire, s'il existe un quelconque recours subrogatoire, si une demande peut être rejetée, ou si les fonds peuvent être récupérés d'une manière ou d'une autre.
Si les techniques évoquées ici sont souvent rattachées à la thématique de la "détection de fraude", d'autres termes sont fréquemment utilisés pour décrire cette classe d'applications de data mining (ou de modélisation prédictive ; voir ci-dessous), notamment les "opportunités de remboursement", les "détections d'anomalies" qui utilisent une terminologie similaire.
Dans une perspective de modélisation (prédictive) ou de data mining, la distinction entre une "fraude intentionnelle" et des "opportunités de remboursement" ou de "réduction des pertes" n'est pas fondamentale, si ce n'est que la perspective spécifique de la manière dont les pertes se produisent va guider la recherche des prédicteurs influents (et les bases de données dans lesquelles l'analyste va devoir rechercher l'information pertinente). Par exemple, la fraude délibérée peut être reflétée par une structure de données inhabituellement "plate" dans la mesure où le fraudeur va tout faire pour que la transaction passe inaperçue – et donc cette dernière va apparaître parfaitement moyenne/courante ; parmi les autres pistes pour récupérer des pertes (autres que la fraude intentionnelle), les organismes peuvent s'attacher à détecter les doublons au niveau des demandes d'indemnités ou des transactions, à identifier les opportunités de recours subrogatoires pour les demandes d'indemnités, à prévoir avec exactitude le moment où les clients vont se trouver en situation de surendettement, et ainsi de suite.
Dans les paragraphes suivants, nous utiliserons le terme générique "fraude" pour faire référence aux différents cas évoqués brièvement ci-dessus.
Détection de Fraudes dans une Problématique de Modélisation Prédictive
L'une des manières d'appréhender la question de la détection de fraude consiste à considérer qu'il s'agit d'une problématique de modélisation prédictive où nous cherchons à anticiper avec exactitude un événement rare. S'il existe des données historique sur lesquelles vous avez identifié et des fraudes avérées ou des possibilités d'éviter des pertes, vous pouvez alors utiliser la modélisation prédictive pour augmenter vos chances de déceler ces opportunités.
Dans la pratique, la plupart des compagnies d'assurance possèdent des cellules d'investigation, qui vont rechercher les opportunités de restreindre les demandes d'indemnités qui leur sont soumises. L'objectif consiste à définir un mécanisme de filtrage en mesure d'orienter sélectivement les recherches sur les demandes d'indemnités pour lesquelles la probabilité globale de récupération des actifs (détection de fraude, opportunités d'économiser de l'argent, etc... ; voir le paragraphe d'introduction) est généralement élevée. Ainsi, avec un modèle prédictif en mesure de détecter efficacement les transactions ou les demandes d'indemnisation suspectes, il devient possible de se focaliser sur l'examen approfondi de ces fraudes potentielles et de réduire les pertes.
Prévoir les Événements Rares
L'approche qui consiste à prévoir le risque de fraude tel que nous l'avons décrit ci-dessus peut s'appréhender comme une problématique classique de modélisation prédictive. L'objectif consiste à identifier les meilleurs prédicteurs et trouver le modèle qui permet de maximiser ses chances d'identifier des observations potentiellement frauduleuses qui vont s'avérer être effectivement associées à de la fraude (perte). Cette connaissance pourra alors être utilisée pour rejeter des demandes de crédit, ou pour mettre en place un système d'investigation plus poussé par rapport à une demande d'indemnité d'assurance, une demande de prêt, un achat par carte de crédit, etc...
Dans la mesure où la plupart des types de fraudes restent des événements sporadiques (les cas de fraude représentent moins de 30% cas), vous pouvez utiliser la technique de l'échantillonnage stratifié afin de sur-représenter le groupe des fraudeurs. Cette technique va vous aider à construire votre modèle. Avec davantage d'observations dans le groupe qui vous intéresse, les modèles sont plus à même d'identifier la structure et les relations qui permettent de détecter la fraude.
Selon le taux d'événements frauduleux dans les données d'apprentissage, il peut être nécessaire d'appliquer des stratégies appropriées d'échantillonnage stratifié afin de créer un jeu de données adapté à la construction du modèle, c'est-à-dire dans lequel il existe un certain équilibre entre les observations frauduleuses et les observations non-frauduleuses (la construction du modèle est généralement plus simple et donne de meilleurs résultats lorsque les données présentées aux algorithmes d'apprentissage contiennent des spécimens représentatifs de toutes les classes dans des proportions sensiblement égales).
Détection d'Anomalies et Détection d'Intrusion
Un autre aspect de la "détection de fraudes" peut s'appréhender comme une problématique de
détection d'anomalie ou "d'intrusion". Le cas se présente lorsque la qualité de l'ensemble d'apprentissage
(historique) est insuffisante pour permettre de distinguer avec certitude les cas connus de
fraude des cas parfaitement légitimes.
Par exemple considérons à nouveau le cas d'une compagnie d'assurance. Imaginons qu'une demande d'indemnité
est déposée pour une police qui, compte tenu des procédures existantes (et des moteurs de règles, voir
ci-dessus) a conduit à réaliser des recherches plus poussées et permis à la compagnie d'assurance de
récupérer une partie des fonds dans un certain nombre de cas. Si nous construisons un jeu de données
d'apprentissage constitué de toutes les demandes d'indemnités, certaines ayant conduit à
des investigations plus poussées qui elles-mêmes ont permis de mettre en évidence des fraudes et
récupérer des fonds, toute modélisation sur ce jeu de données va vraisemblablement restituer dans une
large mesure les règles et procédures qui ont amené à pousser les investigations
(même si nous pourrions construire un jeu d'apprentissage plus pertinent en ne retenant que les données
envoyées à l'unité d'investigation pour approfondir les recherches). Dans de nombreux cas,
il n'existe aucune "unité d'investigation", et les données disponibles pour l'analyse
ne contiennent aucun indicateur exploitable de fraude ni de fonds potentiellement récupérables.
Dans des cas comme celui-ci, l'information disponible se limite généralement à une grosse volumétrie
de données d'indemnisation, de demandes, d'achats, etc... souvent complexes, sans aucune "variable indicative"
de sortie qui permettrait de réaliser la modélisation prédictive (et l'apprentissage supervisé).
If faut alors se tourner vers l'apprentissage non-supervisé afin d'identifier dans le jeu de données
(ou dans le flux de données) des observations "atypiques" qui sont vraisemblablement associées
à de la fraude, des conditions inhabituelles, etc...
Considérons par exemple le cas d'une complémentaire santé. Elle reçoit un grand nombre de
demandes de remboursement très diverses, qui sont généralement codées selon un schéma très riche et
très complexe faisant référence aux différentes pathologies et aux thérapies qui sont prises en charge
et à celles qui ne le sont pas. En outre, chaque demande de remboursement peut induire d'autres demandes de
remboursement (par exemple, le remplacement d'une hanche va nécessiter un certain nombre de séances de
rééducation), et ainsi que suite.
Détection d'Anomalies
Le périmètre de la détection d'anomalies est vaste et possède de nombreuses applications
en suivi industriel des processus afin d'identifier des points atypiques dans un espace multivarié
pouvant refléter un problème sur le processus. Le produit STATISTICA
MSP Multidimensionnelle par exemple utilise des techniques avancées de PLS et d'ACP pour le
suivi de processus multivariés par lots, fréquents dans l'industrie pharmaceutique,
ou l'industrie chimique et pétro-chimique notamment.
C'est exactement la même logique et la même approche qui s'appliquent aux problématiques de
détection de fraude dans d'autres domaines non-industriels comme la banque,
l'assurance ou l'assurance-maladie.
Poursuivons notre exemple de complémentaire santé. Imaginons que cet organisme reçoit un grand nombre
de demandes de remboursement qui sont enregistrées chaque
jour dans une base de données. L'objectif vise à identifier toutes les demandes pour lesquelles la
prestation n'est pas prise en charge à 100% ainsi que les demandes frauduleuses. Comment faire ?
Règles a priori
Tout d'abord, il faut bien évidemment appliquer un certain nombre de règles complexes afin d'identifier
les demandes inadéquates, les doublons et ainsi de suite. Généralement, des moteurs de règles complexes
vont filtrer toutes les demandes de remboursement afin de vérifier qu'elles sont formellement correctes,
c'est-à-dire cohérentes avec les polices et contrats applicables. Il faut également vérifier la présence de
doublons.
Ce qu'il nous reste, ce sont des demandes légitimes sur la forme mais qui peuvent néanmoins (et c'est
probablement le cas) contenir des demandes frauduleuses sur le fond. Pour les identifier, il convient de reprérer les
configurations et combinaisons de données associées à des fraudes afin de distinguer les demandes
légitimes des demandes frauduleuses. Bien évidemment, si ce type de configuration structurelle n'existe pas
dans les données, nous ne pourrons rien faire de plus ; en revanche, si cette configuration structurelle
existe bien, il va être beaucoup plus simple d'identifier les demandes de remboursement
"inhabituelles".
L'usuel et l'inhabituel
Il existe différentes manières de définir ce que constitue une demande "inhabituelle". Mais au fond,
nous avons deux manières d'aborder ce problème : Soit en identifiant des points atypiques
dans un espace multidimensionnel, c'est-à-dire, en recherchant des combinaisons inhabituelles de
valeurs qui se singularisent par rapport aux demandes classiques, soit en identifiant des points "parfaitement moyens",
c'est-à-dire des demandes "trop parfaites", qui peuvent avoir été
délibérément "maquillées" pour dissimuler une fraude.
Comment discerner l'usuel de l'inhabituel
C'est précisément le rôle de l'apprentissage non-supervisé. L'approche élémentaire de l'analyse des
données (data mining) consiste à utiliser une ou plusieurs méthodes de clustering (par exemple, la
classification par les k-moyennes,
puis d'utiliser ces clusters pour scorer (affecter) les nouvelles demandes : s'il n'est pas possible
d'affecter, avec un niveau de confiance suffisamment élevé, une nouvelle demande à une classe
particulière dans l'espace multidimensionnel constitué de multiples paramètres
(c'est-à-dire l'information disponible pour chaque demande de remboursement), la nouvelle demande pourra être
considérée comme "inhabituelle" et se manifestera par un point atypique d'une manière ou d'une autre ;
il sera alors nécessaire d'envisager un examen approfondi de cette demande. Au contraire, si une
nouvelle demande peut être affectée à une classe particulière avec une confiance quasi certaine, et si
un grand nombre de demandes émanant d'une source particulière partagent cette caractéristique
(on parle alors "d'in-liers"), il peut être nécessaire de se pencher de plus près sur ces
demandes "anormalement normales".
Détection d'anomalies, détection d'intrusion
Notez que les mêmes techniques sont utilisées dans d'autres applications où il s'agit d'identifier
une structure atypique dans les données, ou une structure "trop parfaite pour être vraie".
Il existe des cas pratiques de mise en oeuvre de ces techniques dans le domaine de la détection
d'intrusion (sur des réseaux), ainsi que dans de nombreuses applications de suivi de processus
industriels multivariés dans lesquelles nous devons surveiller en temps réel un grand nombre de
paramètres critiques sur des processus de production complexes afin de garantir la qualité
globale et la santé du système.
Moteur de Règles et Modélisation Prédictive
Dans les paragraphes précédents, nous avons brièvement évoqué les moteurs de règles comme
une composante essentielle des systèmes de détection de fraude. En réalité, il s'agit
généralement de la composante principale et de la plus fondamentale :
D'une manière générale, nous pouvons formaliser l'expertise et l'expérience des experts d'un domaine
particulier sous forme de règles (qui peuvent ensuite être introduites dans un
système automatisé de scoring) en vue d'identifier
des fraudes potentielles ou des pertes évitables. Par conséquent, dans la pratique,
les systèmes et les analyses de détection de fraude reposant sur des techniques de data mining et de
modélisation prédictive constituent une méthode permettant d'améliorer les systèmes de
détection de fraudes déjà en place, et il est possible de mesurer leur efficacité par rapport
aux règles par défaut définies par les experts. Ceci signifie également que la méthode de déploiement finale du système de détection de fraude, par exemple, une solution de scoring en temps réel rendue possible grâce à la solution STATSITICA Live Score, va devoir intégrer à la fois des règles sophistiquées et éventuellement des modèles complexes de data mining.
Text Mining et Détection de Fraudes
Au cours des dernières années, les méthodes de text mining ont connu un réel essor en permettant
notamment d'améliorer les systèmes de détection de fraude basés sur de l'information purement
numérique (par exemple, des modèles de prévision). Il s'agit simplement d'aligner toutes les informations
associées à l'enregistrement qui nous intéresse (demande d'indemnité, achat, demande de crédit),
et d'utiliser cette information pour améliorer la précision prédictive du système de
détection de fraude. En fait, les approches décrites précédemment peut s'appliquer exactement de la
même manière lorsqu'elles sont utilisées en conjonction avec des méthodes de
text mining , à la différence près qu'il est nécessaire de
préalablement préparer et numériser les sources textuelles non-structurées respectives
afin de pouvoir les intégrer dans des activités d'analyse de données (modélisation prédictive).
Un autre aspect de la "détection de fraudes" peut s'appréhender comme une problématique de détection d'anomalie ou "d'intrusion". Le cas se présente lorsque la qualité de l'ensemble d'apprentissage (historique) est insuffisante pour permettre de distinguer avec certitude les cas connus de fraude des cas parfaitement légitimes.
Par exemple considérons à nouveau le cas d'une compagnie d'assurance. Imaginons qu'une demande d'indemnité est déposée pour une police qui, compte tenu des procédures existantes (et des moteurs de règles, voir ci-dessus) a conduit à réaliser des recherches plus poussées et permis à la compagnie d'assurance de récupérer une partie des fonds dans un certain nombre de cas. Si nous construisons un jeu de données d'apprentissage constitué de toutes les demandes d'indemnités, certaines ayant conduit à des investigations plus poussées qui elles-mêmes ont permis de mettre en évidence des fraudes et récupérer des fonds, toute modélisation sur ce jeu de données va vraisemblablement restituer dans une large mesure les règles et procédures qui ont amené à pousser les investigations (même si nous pourrions construire un jeu d'apprentissage plus pertinent en ne retenant que les données envoyées à l'unité d'investigation pour approfondir les recherches). Dans de nombreux cas, il n'existe aucune "unité d'investigation", et les données disponibles pour l'analyse ne contiennent aucun indicateur exploitable de fraude ni de fonds potentiellement récupérables.
Dans des cas comme celui-ci, l'information disponible se limite généralement à une grosse volumétrie de données d'indemnisation, de demandes, d'achats, etc... souvent complexes, sans aucune "variable indicative" de sortie qui permettrait de réaliser la modélisation prédictive (et l'apprentissage supervisé). If faut alors se tourner vers l'apprentissage non-supervisé afin d'identifier dans le jeu de données (ou dans le flux de données) des observations "atypiques" qui sont vraisemblablement associées à de la fraude, des conditions inhabituelles, etc...
Considérons par exemple le cas d'une complémentaire santé. Elle reçoit un grand nombre de demandes de remboursement très diverses, qui sont généralement codées selon un schéma très riche et très complexe faisant référence aux différentes pathologies et aux thérapies qui sont prises en charge et à celles qui ne le sont pas. En outre, chaque demande de remboursement peut induire d'autres demandes de remboursement (par exemple, le remplacement d'une hanche va nécessiter un certain nombre de séances de rééducation), et ainsi que suite.
Détection d'Anomalies
Le périmètre de la détection d'anomalies est vaste et possède de nombreuses applications en suivi industriel des processus afin d'identifier des points atypiques dans un espace multivarié pouvant refléter un problème sur le processus. Le produit STATISTICA MSP Multidimensionnelle par exemple utilise des techniques avancées de PLS et d'ACP pour le suivi de processus multivariés par lots, fréquents dans l'industrie pharmaceutique, ou l'industrie chimique et pétro-chimique notamment. C'est exactement la même logique et la même approche qui s'appliquent aux problématiques de détection de fraude dans d'autres domaines non-industriels comme la banque, l'assurance ou l'assurance-maladie.
Poursuivons notre exemple de complémentaire santé. Imaginons que cet organisme reçoit un grand nombre de demandes de remboursement qui sont enregistrées chaque jour dans une base de données. L'objectif vise à identifier toutes les demandes pour lesquelles la prestation n'est pas prise en charge à 100% ainsi que les demandes frauduleuses. Comment faire ?
Règles a priori
Tout d'abord, il faut bien évidemment appliquer un certain nombre de règles complexes afin d'identifier les demandes inadéquates, les doublons et ainsi de suite. Généralement, des moteurs de règles complexes vont filtrer toutes les demandes de remboursement afin de vérifier qu'elles sont formellement correctes, c'est-à-dire cohérentes avec les polices et contrats applicables. Il faut également vérifier la présence de doublons.
Ce qu'il nous reste, ce sont des demandes légitimes sur la forme mais qui peuvent néanmoins (et c'est probablement le cas) contenir des demandes frauduleuses sur le fond. Pour les identifier, il convient de reprérer les configurations et combinaisons de données associées à des fraudes afin de distinguer les demandes légitimes des demandes frauduleuses. Bien évidemment, si ce type de configuration structurelle n'existe pas dans les données, nous ne pourrons rien faire de plus ; en revanche, si cette configuration structurelle existe bien, il va être beaucoup plus simple d'identifier les demandes de remboursement "inhabituelles".
L'usuel et l'inhabituel
Il existe différentes manières de définir ce que constitue une demande "inhabituelle". Mais au fond, nous avons deux manières d'aborder ce problème : Soit en identifiant des points atypiques dans un espace multidimensionnel, c'est-à-dire, en recherchant des combinaisons inhabituelles de valeurs qui se singularisent par rapport aux demandes classiques, soit en identifiant des points "parfaitement moyens", c'est-à-dire des demandes "trop parfaites", qui peuvent avoir été délibérément "maquillées" pour dissimuler une fraude.
Comment discerner l'usuel de l'inhabituel
C'est précisément le rôle de l'apprentissage non-supervisé. L'approche élémentaire de l'analyse des données (data mining) consiste à utiliser une ou plusieurs méthodes de clustering (par exemple, la classification par les k-moyennes, puis d'utiliser ces clusters pour scorer (affecter) les nouvelles demandes : s'il n'est pas possible d'affecter, avec un niveau de confiance suffisamment élevé, une nouvelle demande à une classe particulière dans l'espace multidimensionnel constitué de multiples paramètres (c'est-à-dire l'information disponible pour chaque demande de remboursement), la nouvelle demande pourra être considérée comme "inhabituelle" et se manifestera par un point atypique d'une manière ou d'une autre ; il sera alors nécessaire d'envisager un examen approfondi de cette demande. Au contraire, si une nouvelle demande peut être affectée à une classe particulière avec une confiance quasi certaine, et si un grand nombre de demandes émanant d'une source particulière partagent cette caractéristique (on parle alors "d'in-liers"), il peut être nécessaire de se pencher de plus près sur ces demandes "anormalement normales".Détection d'anomalies, détection d'intrusion
Notez que les mêmes techniques sont utilisées dans d'autres applications où il s'agit d'identifier une structure atypique dans les données, ou une structure "trop parfaite pour être vraie". Il existe des cas pratiques de mise en oeuvre de ces techniques dans le domaine de la détection d'intrusion (sur des réseaux), ainsi que dans de nombreuses applications de suivi de processus industriels multivariés dans lesquelles nous devons surveiller en temps réel un grand nombre de paramètres critiques sur des processus de production complexes afin de garantir la qualité globale et la santé du système.Moteur de Règles et Modélisation Prédictive
Dans les paragraphes précédents, nous avons brièvement évoqué les moteurs de règles comme une composante essentielle des systèmes de détection de fraude. En réalité, il s'agit généralement de la composante principale et de la plus fondamentale : D'une manière générale, nous pouvons formaliser l'expertise et l'expérience des experts d'un domaine particulier sous forme de règles (qui peuvent ensuite être introduites dans un système automatisé de scoring) en vue d'identifier des fraudes potentielles ou des pertes évitables. Par conséquent, dans la pratique, les systèmes et les analyses de détection de fraude reposant sur des techniques de data mining et de modélisation prédictive constituent une méthode permettant d'améliorer les systèmes de détection de fraudes déjà en place, et il est possible de mesurer leur efficacité par rapport aux règles par défaut définies par les experts. Ceci signifie également que la méthode de déploiement finale du système de détection de fraude, par exemple, une solution de scoring en temps réel rendue possible grâce à la solution STATSITICA Live Score, va devoir intégrer à la fois des règles sophistiquées et éventuellement des modèles complexes de data mining.
Text Mining et Détection de Fraudes
Au cours des dernières années, les méthodes de text mining ont connu un réel essor en permettant notamment d'améliorer les systèmes de détection de fraude basés sur de l'information purement numérique (par exemple, des modèles de prévision). Il s'agit simplement d'aligner toutes les informations associées à l'enregistrement qui nous intéresse (demande d'indemnité, achat, demande de crédit), et d'utiliser cette information pour améliorer la précision prédictive du système de détection de fraude. En fait, les approches décrites précédemment peut s'appliquer exactement de la même manière lorsqu'elles sont utilisées en conjonction avec des méthodes de text mining , à la différence près qu'il est nécessaire de préalablement préparer et numériser les sources textuelles non-structurées respectives afin de pouvoir les intégrer dans des activités d'analyse de données (modélisation prédictive).