Wenn Zeit Geld ist: Namematching smart umgesetzt

bei

 / 4. June. 2020

Finanzinstitute, Notare und Makler sind davon betroffen, große Digitalplattformen mit Kryptowährungen wie Bitcoin und Ethereum, Kunstvermittler sowie alle Güterunternehmen, wenn sie Kaufverträge mit einem Volumen von über 10.000 Euro über Barzahlungen abwickeln – und das ist noch nicht das Ende der Liste.

Das Kenne Deinen Kunden-Prinzip (Know Your Customer, KYC) bedeutet für verpflichtete Unternehmen einen enormen Aufwand. Angesichts der Vielzahl von Datenquellen bewältigt eine Compliance-Abteilung das nicht mehr manuell. Hier hilft nur noch eine IT-Lösung. Peter Angehrn, Chief Technology Officer bei der DTI Schweiz AG, erläutert, wie KYC smart und kostensparend gelingt.

KYC erfordert eine eindeutige Identifizierung und Überprüfung von Neukunden sowie eine regelmäßige Folgeanalyse bei Bestandskunden sowie eine Dokumentation dieser Risikobewertungen. Die zur KYC-Analyse verpflichteten Unternehmen sind damit Teil der Präventionsstrategie ihrer Behörden, um Geldwäsche und Terrorfinanzierung frühzeitig zu erkennen und zu verhindern.

Zur Identifizierung eines Vertragspartners gehören auch die Feststellung der tatsächlichen Besitzverhältnisse sowie des oder der wirtschaftlich Berechtigten sowie die Überprüfung des wirtschaftlichen Hintergrundes. Was sich einfach anhört, ist im deutschen GwG in den §§ 10 bis 17 als „Sorgfaltspflichten in Bezug auf Kunden“ [1] geregelt und umfasst über 6.000 Wörter. Die Schweiz kommt mit ihren „Sorgfaltspflichten der Finanzintermediäre“[2] mit etwas über 2.600 Wörtern hin. Wie fast immer bei solchen Gesetzen werden erst Finanzgerichte die zahllosen interpretationswürdigen Rechtsbegriffe auslegen müssen. Klar ist aber, dass Finanzinstitute und die sonstigen Verpflichteten alle Informationsquellen weltweit auswerten müssen, wenn sie ihrer „Sorgfaltspflicht“ ordnungsgemäß nachkommen wollen. Und die Anzahl der Daten- und Informationsquellen ist schier unendlich.

Interne und externe Datenbanken mit Abermillionen Datensätzen

Zwar stehen externe KYC-Datenbanken wie World-Check, Thomas Reuters, das KYC-Register der SWIFT-Genossenschaft[3] bereits zur Verfügung; hinzukommen aber Watch- und Sanktionslisten der Regierungen, PEP-Listen (politisch exponierte Persönlichkeiten), Firmen-, Presse- und Urteilsdatenbanken der nationalen und internationalen Strafverfolgungsbehörden sowie Auskunfteien. Zu den wichtigsten und weltweit bedeutendsten Listen gehören die des US Office of Foreign Assets Control[4](OFAC), der britischen Finanzverwaltung (UK HM Treasury[5]), der Europäischen Union sowie der Vereinten Nationen. In Deutschland besteht seit 2017 bereits das Transparenzregister[6] für wirtschaftlich berechtige natürliche Personen an juristischen Personen wie Kapitalgesellschaften. Ein umfassendes nationales KYC-Register soll ebenso wie in der Schweiz aufgebaut werden. Für das Onboarding eines Neukunden sowie die regelmäßig zu erfolgenden Due Diligence-Nachprüfung von Bestandskunden und ihren Zahlungsströmen bedeutet dies, dass jedes Mal Dutzende interne und externe Datenquellen auszuwerten sind, die jeweils aus mehreren Millionen Datensätzen bestehen. Eine Auswertung der internen Datenquellen mit den verfügbaren Suchfunktionen relationaler Datenbanken mag noch schnell gelingen; aber eine umfassende Prüfung auch externer Quelle geht zu einem wirtschaftlich vertretbaren Aufwand nur mit einer IT-Lösung.

Die Lösung: Name Matching  mit ListSearch Compliance Server

Im Zentrum leistungsstarker IT-basierten KYC-Analysetools steht eine harmlos klingende Herausforderung: Namematching genannt. Um bei einer Risikoanalyse die gesuchte Person oder Unternehmen aus einer Vielzahl von Datenquellen zu finden, kommen wie bei einer Suchmaschine für den Such- und Identifikationsprozess komplexe Algorithmen für semantische, linguistische und phonetische Analysen zum Einsatz, um Datenbankinhalte zunächst zu erfassen und zu indexieren. Das Problem dabei ist, dass die Daten aus den verschiedenen Quellen nur teilweise strukturiert sind und sich unstrukturierte Daten wie Fließtexte, Video oder Audiodateien sowie verpackte oder geschützte Dateien wie zip oder PDF sich ohne Aufbereitung einer Indexierung für die anschließende automatische Auswertung entziehen. Häufig müssen zunächst Texterkennungsprogramme Dokumente auslesen, Audioaufzeichnungen in Text (Speech to Text) umgewandelt werden, bevor sie überhaupt für eine Auswertung bereitstehen. Und bei der Auswertung mittels OCR (Optical Character Recognition) oder Speech to Text-Umwandlung passieren Fehler. Zudem existieren unterschiedliche Schreibkonventionen, werden Personen-, Orts- und Unternehmensnamen in unterschiedlichen Varianten geschrieben. Hinzu kommen Zahlendreher, in vielen Sprachen unbekannte Umlaute oder Zeichensätze. Was selbst Suchmaschinen wie Google oder Bing bisweilen nicht befriedigend gelingt, ist bei Suchmaschinen in Unternehmensanwendungen erst recht bisher nicht selbstverständlich; für KYC aber unentbehrlich. Entgegen den Funktionen von Datenbanken, die weitgehend nur mit strukturierten Informationen umgehen können und meist lediglich bool’sche Operatoren (and, or, nor) zur Suche zur Verfügung stellen, sind leistungsfähige Enterprise Information Retrieval-Lösungen (EIR) in der Lage, über standardisierte Schnittstellen sämtliche digital vorhandene Informationen und Daten aufzubereiten und zu indexieren. Während in einer Relationalen Datenbank normalerweise die Erfassung, Datenhaltung und Verknüpfung von strukturierten digitalisierten Daten im Vordergrund steht, liegt je nach Lösung der Fokus auf der Anbindung sämtlicher im Unternehmen vorhandener digitaler Datenquellen, wie File-Systeme, Customer Relationship Management- und Enterprise Content Management-Systeme, gescannte und OCR erkannte Dokumente, Sprach- und Video Dateien. Hinzu kommen bei KYC zig Millionen externe strukturierte und allzu oft unstrukturierte Daten, die vor der Auswertung ebenso aufzubereiten und zu indexieren sind. Und bei diesen externen Quellen ist schon die hohe Frequenz von Aktualisierungen eine zusätzliche Herausforderung. Alleine World-Check stellt seinen Kunden jeden Tag bis zu 1.000 Änderungen bereit.

Auswerten beliebiger Datenquellen möglich, Aktualisierungen inklusive

Effektive KYC-Lösungen sind in der Lage, über Konnektoren unterschiedliche Typen von Datenquellen einzubinden, auszuwerten und zu indexieren. Damit Kunden ihre eigene sensiblen Kundendaten nicht aus der Hand geben müssen, ist die LLS Suite eine On-Premise-Lösung, die also stationär auf eigenen Servern läuft. Externe Datenquellen werden dafür einmal eingelesen und Aktualisierungen je nach Bedarf täglich nachgeladen. Konnektoren haben die Aufgabe, beliebige Datenbanken, Filesystemquellen (World-Check, Thomson Reuters[7], SWIFT[8]) aber auch Webinhalte (Presse, PEP- und Listen wie OFAC) zu erschließen. Für die Datenquellen beherrschen die LLS-Konnektoren zudem die inkrementelle Indexierung, also die automatische Indexierung von Datenänderungen. Für externe Quellen ist es zudem von entscheidendem Vorteil, wenn die Lösung auf einer offenen Architektur wie XML oder ReST (Representational State Transfer) basiert. ReST ist ein Programmierprinzip für verteilte Systeme, mit dem heute bereits die meisten Internetinhalte bereitgestellt werden und somit eine Maschine zu Maschine-Kommunikation unterstützen. Die über die Konnektoren gesammelten Daten werden vor ihrer Überführung in den Indexer aufbereitet. Über Filter (Conversion) werden die unterschiedlichen Dateiformate (Word, Excel, PowerPoint, PDF, HTML, RTF, TEXT, ZIP) in ein einheitliches, lesbares Format für den Indexer überführt. Für die Nutzer ist es häufig hilfreich, wenn ein KYC-System bei der Conversion auch Thumbnail-Previews für Dokumente erstellen kann. Bei der Spracherkennung der zu indexierenden Inhalte sind darüber hinaus Kontrollen und Korrekturen notwendig. Hier stellen bestimmte Lösungen spezielle Funktionen wie Tokenizierung, Synonyme Darstellung, Spell Checking, Lemmatisierung, Entitäten Extraktion, Phonetic für die jeweilige Sprache bereit (siehe Kasten).

Schlüsselfunktionen im Indexer entscheiden über Erfolg und Sicherheit

Der Indexer bildet das Kernstück der Suchfunktionen und er bestimmt letztlich den Erfolg des Systems sowie dessen Fähigkeit, die richtigen Matches zu identifizieren und automatisch Alarm zu schlagen bei einem Treffer. Das Konzept der Datenaufbereitung unterscheidet sich bei jedem Hersteller. Und weil es eine Schlüsselfunktion in einem KYC-System bildet, sollten Kunden bei der Auswahl der für sie passenden Lösung genau prüfen, ob die jeweilige Lösung zu ihnen passt. Denn der Indexer hat die Aufgabe, die Daten bei der Indexierung intern so zu strukturieren, dass selbst in extrem großen Datenmengen und bei komplexen sowie sehr spezifischen Suchen, Resultate innerhalb Sekundenfrist zur Verfügung stehen. Basierend auf diesem Index ist es auch möglich, den Nutzer aktiv über neue Inhalte, die die vordefinierten Kriterien erfüllen, automatisch zu informieren. Deshalb stellen bestimme Tools neben einer einfachen Abfragesprache wie bei Google weitere Abfrageoptionen bereit. Das Name Matching Framework sollte verschiedene Fragetechniken beherrschen und sie in einem gezielten Workflow zu sogenannten Suchkaskaden zusammenstellen können, um diverse Aspekte der Namenssuche abzudecken. Der Benutzer muss sich dabei aber nicht um die Formulierung von komplexen Fragen kümmern, sondern kann lediglich die zu suchenden Kriterien eingeben. Den Rest arbeitet die Lösung dann vollautomatisch ab. Für den Nutzer ist die Ergebnisausgabe so aufbereitet, dass er sich nur noch um die Bewertung der als potentiell relevant erkannten Treffer kümmern muss. Auch das Ranking der Ergebnisausgabe ist ein Qualitätskriterium bei der Auswahl der Lösung. Denn nur über ein gutes Ranking wird die „Spreu vom Weizen“, also relevante von unrelevanten Treffern, getrennt. Je nach Interessensgruppe im Unternehmen oder nach Art der Suchapplikation können die Anforderungen an das Ranking der Resultate unterschiedlich ausfallen. Deshalb bieten bestimmte Tools auch die Möglichkeit, das Ranking an die verschiedenen Bedürfnisse der Nutzer gezielt anzupassen.

Return on Invest in kürzester Zeit und Dokumentation der KYC-Analysen

Erst mit dieser intuitiven Bedienung, den automatischen und sicheren Prozessen im Name Matching Framework spielen bestimmte Toools auch ihre wirtschaftlichen Vorteile aus. Schon für Nutzer mit wenigen Dutzend Überprüfungen am Tag, rechnet es sich in kürzester Zeit, wenn man den manuellen Aufwand mit einer automatischen KYC vergleicht. Die Namen eines Neukunden und seinem Unternehmen sind typischerweise in zwei bis drei interne Datenbanken von Hand zu durchsuchen. Anschließend sind Sanktionslisten in Dokumenten oder online manuell zu durchforsten. Jedes System verfügt über unterschiedliche Logins und Suchsyntax; zusätzlich sind für eine halbwegs korrekte Prüfung minimale Suchvariationen durchzuführen. Dabei erlauben viele Datenbanken nicht einmal eine Suche mit Platzhalter und beherrschen erst recht keine komplexeren Fragestellungen oder Suchkaskaden. Selbst erfahrene Compliance-Mitarbeiter brauchen also für jeden Kunden mindestens fünf Minuten. Und dieser Aufwand ist auch regelmäßig mit Bestandskunden fällig. Weitere Vorteile kommen noch hinzu. Denn nach GwG „Verpflichtete“ Unternehmen müssen ihre KYC-Risikobewertungen auch dokumentieren. Das ist vor allem wichtig, wenn zuständige Behörden Auskunft über einzelne Kunden begehren. In diesem Fall müssen unter Umständen Listen mit mehreren 1.000 Namen gegenüber dem Kundenstamm geprüft werden.

Erläuterungen und Erklärungen:

Kontrollen und Korrekturen für Text- und Spracherkennung mit LSS Suite: Bei der Text- und Spracherkennung von zu indexierenden Inhalten sind für die Sicherheit von KYC-Überprüfungen Kontrollen und Korrekturen notwendig. Bei der Auswahl eines KYC-Tools sollte man auf folgende Funktionen achten:

Tokenizer zerlegen den Text einer Sucheingabe in eine Folge von logisch zusammengehörigen Einheiten, in sogenannte Tokens, mit denen in einem Text dann verfeinerte Suchen möglich sind.

Spellcheck überprüft bei einer Sucheingabe die korrekte Schreibweise; bei einem „falschen“ oder falsch geschriebenen Begriffs liefert es mögliche Korrekturvorschläge (Did-you-mean).

Phrasing erkennt stehende Begriffe wie beispielsweise „Erster August“. Damit wird sichergestellt, dass beide Begriffe in unmittelbarer Nähe vorkommen müssen und nicht irgendwo Züricher und Kantonalbank.

Anti-Phrasing entfernt für die Suche nicht relevante Wörter. Beispiel: bei der Eingabe von „was für Wetter ist am 24. Dezember?“ wird nur nach Wetter und dem Datum 24.12 gesucht.

Normalize normalisiert Sucheingaben beispielsweise bei der Suche nach einem Datum oder Betrag.

NLQ ist eine Suchsprache für komplexe Abfragen oder Kombinationen aus boolschen Operatoren (and, or, nor).

Lemmatizing ist die Funktion, mit der ein Suchbegriff auf seine Grundform reduziert wird; beispielsweise werden Häuser zu Haus.

Synoyms erweitert die Suche auf ähnliche oder gleiche Namen; beispielsweise mittels Alias Listen. Damit lässt sich bei einer Suche nach Peter auch Petrov oder Petrovic finden.

Thesaurus sind oft auch branchenspezifische Wörterbücher, um spezifische Begrifflichkeiten bei der Suche zu berücksichtigen; beispielsweise bankspezifischen Begriffe wie Aktien, Wertpapiere, Fonds oder aber Organisationsstrukturen.

Peter Angehrn, CTO bei der DTI Schweiz AG verfügt über 20 Jahre praktische Erfahrung in den Bereichen Enterprise Search, Content Analytics & Insights und Information Management. Nach seinem Abschluss in «Bachelor of Science in Information Technologies” war Angehrn zuvor als Entwickler und Projektleiter tätig.

Quellen und Referenzen:

[1]https://www.buzer.de/s1.htm?a=10-17&ag=12598

[2]https://www.admin.ch/opc/de/classified-compilation/19970427/index.html

[3]https://www.swift.com/our-solutions/compliance-and-shared-services/financial-crime-compliance/kyc-solutions/the-kyc-registry

[4]https://www.treasury.gov/resource-center/sanctions/Pages/default.aspx

[5]https://www.gov.uk/government/publications/financial-sanctions-consolidated-list-of-targets/consolidated-list-of-targets

[6]https://www.transparenzregister.de/treg/de/start;jsessionid=60843834CC52320B594DC9482EAC9DF9.app21?0

[7]https://www.thomsonreuters.com/en/press-releases/2018/september/thomson-reuters-continues-to-set-the-standard-for-know-your-customer-managed-services-surpassing-400000-kyc-records.html

[8]https://www.swift.com/our-solutions/compliance-and-shared-services/financial-crime-compliance/kyc-registry/features-and-benefits?tl=en#topic-tabs-menu