Big Data Überwachung: Die wachsende Rolle der Social Media Intelligence

von Matthias Becker

Daten aus Twitter oder Facebook haben zunehmende Bedeutung für Polizei und Nachrichtendienste. Die Massendaten aus der unmittelbaren Kommunikation der Bevölkerung sollen Aufschlüsse über Gefährdungspotenziale und RisikoträgerInnen geben – ohne wirksame Kontrolle über die Verarbeitung und Auswertung.

„Künstliche Intelligenz trifft Risikoanalyse!“ So wirbt das Wiener Un­ternehmen Prewave für seine Dienstleistungen, darunter die Streik-Vor­her­sage anhand von Daten aus den Sozialen Medien. „Ein Streik kann definiert werden als eine geplante Aktion von Beschäftigten oder Gewerk­schaften, um die Arbeit anzuhalten oder zu verlangsamen“, heißt es in einem wissenschaftlichen Beitrag der Prewave-Gründerin Lisa Madlber­ger von 2016.[1] Aber: „Schäden können durch rechtzeitige und effiziente Reaktion verringert werden. Allerdings geht oft wertvolle Zeit verloren, weil die Unternehmen zu spät von einem Streik bei ihren Zuliefern oder Transporteuren erfahren.“ Dagegen soll Prewave helfen, indem die Sozialen Medien in Regionen von Interesse systematisch ausgewertet werden, um sich anbahnende Arbeitsniederlegungen zu erkennen. Den Zulieferer zu wechseln, ist übrigens eine gängige Maßnahme im Supply Change Management. Laut eigenen Angaben gehören zu den Auftraggebern der Firma „große Automobilhersteller, Banken, Logistikkonzerne und Reedereien“.[2]

Funktioniert so etwas? Vielleicht. Die Prewave-Algorithmen durchforsten Twitter, Facebook oder andere Plattformen. Zunächst werden die Texte sozusagen bereinigt, um sie sodann maschinell auszuwerten. Aus den Tweets oder Posts werden die Merkmale „Ort“, „Zeitpunkt“ und „Per­son/­Or­ganisation“ extrahiert. Weil es Prewave um die Streik-Vorher­sage geht, schließt Person/Organisation in diesem Fall auch Berufsgruppen wie „Taxifahrer“ oder „Hafenarbeiter“ ein. Mit den festgestellten Häufigkeiten dieser Merkmale werden dann Prognosen erstellt. Das Beispiel hat zwar mit Strafverfolgung nichts zu tun, aber es illus­triert das Wesentliche von Social Media Intelligence (SOCMINT), der Aus­wertung von offen zugänglichen Internetquellen: Massendaten aus dem Netz werden mit Künstlicher Intelligenz untersucht, um Muster zu identifizieren und diese mit statistischen Verfahren in die Zukunft zu ver­längern. Natural Language Processing, die automatische Analyse von natürlich-sprachigen Äußerungen, ist eine wesentliche Grundlage dafür.

Der Ausdruck SOCMINT stammt aus dem nachrichtendienstlichen Milieu, wie auch sein Oberbegriff Open Source Intelligence (OSINT). Mittlerweile nutzt aber auch die Polizei diese Informationsquelle. OSINT kann in die Erstellung von Lagebildern einfließen und damit großflächig bestimmte Bevölkerungsgruppen in den Blick nehmen – wie im obi­gen Bei­spiel der Streikvorhersage – oder operativ einzelne, bereits bekannte Verdächtige. Zwischen den beiden Extremen „flächendeckende Rasterfahndung“ einerseits und „spezifische Observation“ andererseits breitet sich allerdings ein weites Feld aus. Der deutsche Verfassungsschutz beispielsweise nutzt „linguistische Algorithmen“, um „extremistische Bestrebungen“ in Sozialen Medien mithilfe von Stichwortkatalogen auszumachen. Die unterschiedlichen Phänomenbereiche von Salafismus bis Linksextremismus werden arbeitsteilig von den Landesbehörden und dem Bundesamt betreut, wobei die Aufgabenverteilung ebenso wenig bekannt ist wie die Funktionsweise dieser Internetauswertung. Am anderen Ende des Spektrums stehen Observationen von Verdächtigen oder sogenannten GefährderInnen. Mittlerweile werden sie in Hessen mit der Palantir-Software Gotham durchgeführt. Nun verschwimmt aber die Grenze zwischen dem sozusagen gesellschaftsanalytischen Ansatz des Inlandsgeheimdienstes und der präventiven polizeilichen Überwachung, wenn die eingesetzte Software zu beidem in der Lage ist. So zielt die Internetauswertung des Verfassungsschutzes durchaus auch auf ganz bestimmte Individuen und ihre Netzwerke, während zu der Überwachung der islamistischen GefährderInnen die teilautomatisierte Analyse ihres politischen Milieus anhand von häufig gebrauchten Stichworten oder Phrasen gehört – dazu gleich mehr.

Die wachsende Bedeutung von Social Media Intelligence (SOCINT) erschließt sich aus einem tiefgreifenden und umfassenden Wandel der Polizeiarbeit, dessen Leitbilder das Intelligence led-policing und die Prävention sind. Der englische Ausdruck wird meist, wenig elegant, mit „informationsgeleitete Polizeiarbeit“ übersetzt, besser treffender wäre „datengetriebene Polizeiarbeit“: Informationen sollen systematisch erfasst und in der Organisation verteilt werden, um operative und strategische Entscheidungen auf eine objektive Grundlage zu stellen.

Letztlich verspricht dieser Ansatz eine bessere Auslastung der Ressourcen. „Mit weniger mehr erreichen“ ist denn auch das Versprechen, mit denen die Software-Hersteller ihre Produkte anpreisen. Für die Leitungen von personell ausgedünnten Polizeibehörden ist dieses Versprechen äußerst attraktiv. Mit Hilfe von Predictive Policing sollen beispielsweise die verfügbaren Einsatzkräfte zur richtigen Zeit am richtigen Ort sein. Besonders deutlich ist dies in den USA, wo die entsprechenden Bemühungen für eine „Rundum-Digitalisierung“ der Polizei deutlich weiter fortgeschritten sind als in Deutschland. Tatsächlich schwingt dort das Pendel teils schon wieder zurück: In einigen amerikanischen Städten kündigen Polizeibehörden ihre Lizenzvereinbarungen mit den Software-Herstellern auf.

Die Effizienzgewinne von Predictive Policing sind nach Meinung vieler ExpertInnen, die nicht mit der Software-Industrie verwoben sind, klein oder fragwürdig.[3] Diese Computerprogram­me sind mitnichten eine Glaskugel, mit der sich in die Zukunft sehen ließe. Die präventive Ausrichtung ist denn auch keine Folge des technischen Fortschritts in der Datenverarbeitung, sondern hat soziale und politische Ursachen – wobei der Trend zur Prädiktion und Prävention natürlich so nicht möglich wäre, stünde nicht entsprechende Software zur Verfügung (etwa Predictive Analytics/Hana von SAP oder SPSS von IBM). Mit ihnen lassen sich prinzipiell statistisch fundierte Prognosen erzeugen. Ob und wie diese für das Polizieren genutzt werden, hängt ab von organisatorischen und sicherheitspolitischen Umständen.

Der Einsatz von Predictive Policing entspricht üblicherweise der Strategie, sich auf besonders problematische Tätergruppen zu konzentrieren (zum Beispiel auf Gang-Mitglieder oder arbeitsteilig agierende EinbrecherInnen). Die Idee: Weil sie bestimmte Straftaten häufiger und auf die gleiche Art begehen, lassen sich die Kriminalitätsmuster erfassen und prognostizieren. Für spontane oder opportunistisch handelnde TäterInnen, die eine sich bieten­de Gelegenheit ausnutzen, ist Predictve Policing mithin kaum geeignet.

Hessen prescht vor

Im Mai 2016 reiste der hessische Innenminister Peter Beuth (CDU) mit seinem Ministerpräsidenten Volker Bouffier ins kalifornische Silicon Valley, unter anderem mit dem Ziel, sich über die neusten Entwicklungen in Sachen „Cybersicherheit“ zu informieren. Beuth und Bouffier wurden von Vertretern der Polizei- und Verfassungsschutzbehörden des Landes begleitet und ließen sich von den Firmen Hewlett Packard und Palantir Technologies Software-Lösungen vorführen. Letztere hatten offenbar das attraktivere Angebot, denn seit Anfang 2018 wird die Palantir-Software Gotham in Hessen eingesetzt. Sie firmiert unter dem Namen „HessenDATA“. Mit der „Analyseplattform zur effektiven Bekämpfung des islamistischen Terrorismus und der schweren und Organisierten Kriminalität“ überwacht das Polizeipräsidium Frankfurt islamistische Gefährder. Ob das Programm auch gegen andere Kriminalitätsformen eingesetzt wird, ist bislang nicht bekannt.

Die Anschaffung selbst war kostenlos, die Schulungskosten beliefen sich bisher lediglich auf 600.000 Euro. Dieses auf den ersten Blick überraschende Vorgehen entspricht dem Geschäftsmodell der Firma Palantir, die zunächst die Anschaffungsosten niedrig hält, um „einen Fuß in die Tür zu bekommen“ und ihren Umsatz später mit Lizenzgebühren, Schulungen und Hardware macht, wenn sich die Anwender an das Programm gewöhnt haben. Palantir hat eine Niederlassung in Frankfurt gegründet und dürfte von dort aus auf dem deutschen Markt aktiv werden wollen.

Die Anschaffung der Palantir-Software stieß auf Kritik von Medien und hessischen Oppositionsparteien. Die Umstände der Vergabe soll nun ein Untersuchungsausschuss klären (der sich allerdings nicht mit der bürgerrechtlichen oder Datenschutz-Problematik befassen wird). Das Unternehmen fiel in den USA immer wieder mit Verstößen gegen den Datenschutz auf. Seit der Gründung im Jahr 2004 ist es eng mit der CIA und anderen US-Nachrichtendiensten verwoben. Dass die AmerikanerInnen die Ermittlungsarbeit des hessischen Staatsschutzes über Gotham quasi in Echtzeit mitlesen, ist insofern nicht abwegig. Immerhin verwies Innenminister Peter Beuth darauf, dass der Vertrag eine „No Spy“-Klausel enthalte, weshalb ein Datenabfluss ausgeschlossen sei – würde ein Geheimdienst denn je lügen?

Das Programm Gotham (früher Government) führt strukturierte und unstrukturierte Daten zusammen. Das klingt wenig spektakulär, aber erleichtert die Arbeit enorm. Mithilfe einer graphischen Oberfläche lassen sich die Beziehungen von Personen, Gegenständen und Orten als Netzwerk darstellen. Die Knoten in diesem Netz stellen Namen, Telefonnummern oder Fahrzeuge dar. Diese Knotenpunkte werden mit Linien verbunden, die ihre Beziehungen beschreiben: „im Besitz von“, „Kollege“ oder auch „Liebhaber von“, „reist zu“, „überweist Geld an“ … Die Software verbindet behördeninterne Datenbestände mit externen Quellen, darunter auch Soziale Medien wie Twitter Feeds oder Facebook-Accounts oder die eigene Telekommunikationsüberwachung. So lassen sich Beziehungsnetzwerke analysieren und Bewegungsprofile erzeugen.

Entscheidend ist nun, dass die Entitäten automatisch in dem unstrukturierten Datenstrom detektiert werden und die Software dann eine Meldung absetzt. Die ErmittlerInnen erhalten beispielsweise immer dann eine Nachricht, wenn eine bestimmte Entität (etwa Personen- oder Ortsnamen, Stichworte, Gegenstände) in der Telekommunikation auftaucht, wenn ein bestimmtes KFZ-Kennzeichen erfasst wird oder eine Person sich bei einem Einwohnermeldeamt registriert. Laut Angaben von Hersteller (die natürlich mit Vorsicht zu genießen sind) können sämtliche Datenquellen in diese Analysen eingehen.

Dieses Verfahren ist also nicht insofern automatisiert, als dass auf Knopfdruck ein fertiges Beziehungsgeflecht oder ein Kreis von Verdächtigen generiert würde. Die ErmittlerInnen entscheiden, welche Beziehun­gen sie interessieren und welche Datenquellen eingehen. Automatisiert ist allerdings der permanente Abgleich mit diesen Quellen, letztlich eine Art Rasterfahndung in Echtzeit.

Für die amerikanische Soziologin Sarah Brayne, die letztes Jahr Ergebnisse ihrer Feldforschungen in Los Angeles vorgelegt hat, ist dies eine der wesentlichen Veränderungen durch Programme wie Palantir: „Die Verbreitung von automatisierten Warnmeldungen erlaubt die systematische Überwachung einer so großen Anzahl von Personen, die beispiellos ist.“[4]

Analyse mit KNIME-Software beim LKA Niedersachsen

Unterdessen setzt das LKA Niedersachsen auf eine Eigenentwicklung mit ähnlichen Funktionalitäten. Mit der Open Source Software KNIME wur­de eine Plattform entwickelt, „um damit Möglichkeiten zur Verbesserung polizeilicher Analysen von Massendaten im Rahmen von Ermittlungsverfahren zu erproben“.[5] Auch sie kann Entitäten extrahieren und Netzwerke graphisch darstellen. Die Software dient der „Datenreduzierung auf beweisrelevante Inhalte“, aber auch der Erhebung „vertiefender Infos zu Bedrohungsszenarien“.[6] Eingesetzt wird die Plattform gegen islamistischen Terrorismus und Cyberkriminalität. Wahrscheinlich wird sie auch vom Göttinger Staatsschutz benutzt, der jedenfalls im April nach einem IT-Experten mit entsprechenden Fertigkeiten suchte.

Daten aus Sozialen Medien (Youtube, Twitter, Facebook u.a.) werden mit einem Webcrawler erfasst, der die Inhalte einschlägiger Html-Seiten sichert und aufbereitet. Sie können anschließend mit Verfahren des Data Mining und Text Mining analysiert werden. Diese Verfahren dienen auch dazu, „zu sichernde Datenbeständen im Rahmen von Serverüberwachungen DSL-Ausleitungen, E-Mail-Beschlagnahmen“[7] zu durchdringen.

Auf meine Nachfrage hin teilte mir das niedersächsische Landeskriminalamt mit: „Die Software wird zur Unterstützung bei der Auswertung von sichergestellten digitalen Daten eingesetzt, beispielsweise um sichergestellte E-Mail-Datenbestände (teil-)automatisiert zu strukturieren oder im Rahmen von einzelfallbezogenen Ermittlungen diesbezüglich gezielt Informationen aus dem Internet zu erheben. Eine Zusammenführung von diesen im Internet erhobenen Daten mit polizeieigenen Datenbanken findet mit KNIME nicht statt.“ Bei dem Einsatz handle sich um einen Probebetrieb, wobei das Ende der Erprobung unklar sei. Das LKA Niedersachsen strebe im Rahmen des Projekts eine Zusammenarbeit mit Polizeibehörden in Bund und Ländern an und habe über die bisherigen Erfahrungen sowohl bilateral als auch in diversen polizeilichen Gremien berichtet.

SOCMINT von morgen: In die Tiefe?

Big Data Surveillance geht, wie die Soziologin Sarah Brayne betont, gleichzeitig „in die Breite wie die Tiefe“. „Sie umfasst breitete Bevölkerungsschichten und kann einzelne Individuum über mehr institutionelle Rahmen als bisher verfolgen.“[8] Die Integration von Daten aus verschiedenen Kontexten spielt dabei eine entscheidende Rolle. In die Tiefe geht die SOCMINT-Analyse aber auch insofern, als dass aus den Daten zunehmend auf politische Haltungen und sogar emotionale Zustände und Persönlichkeitsmerkmale geschlossen werden soll.

Das Affective Computing oder die Artificial Emotional Intelligence sind derzeit das wohl dynamischste Feld in der Künstlichen Intelligenz-Forschung. Text, Stimme, Mimik oder Gestik werden dabei automatisch analysiert und klassifiziert. Das Ziel der EntwicklerInnen sind Computer-Systeme vor allem für den Dienstleistungssektor, die sich fle­xi­bel an den Zustand der KundInnen anpassen. Die entsprechenden Funktionen können aber auch von Polizei und Nachrichtendiensten ein­ge­setzt werden, um etwa die Gefährlichkeit von einzelnen Verdächtigen und Gruppen zu bestimmen. Dabei geht es bisher vor allem um semantische Analysen von Text (soweit dies bekannt ist). Sie sollen politische Neigungen erfassen oder auch den Grad der Radikalität einschätzen. Gelingt das, würden neue Ermittlungspraktiken möglich, etwa das Auswerten einer Online-Debatte unbekannter Teilnehmer anhand ihres Sprach­stils, und der Bereich der Überwachung würde sich noch einmal erweitern.

Solche Ansätze werden in der „Radikalisierungsforschung“ erprobt, die im Rahmen der Forschung für die Zivile Sicherheit vom Bundesministerium für Wissenschaft und Forschung und vom Verband Deutscher Ingenieure (VDI) organisiert und finanziell gefördert wird. Die Forschungsprojekte vernetzen IT-Unternehmen mit Universitätsfakultäten und Polizeibehörden. „Die automatisierte Auswertung und visuelle Aufbereitung von Daten könnte in Zukunft den Aufwand bei der Gefährdungseinschätzung und Lagebewertung deutlich verringern“, heißt es in der Vorstellung des Forschungsprojekts INTEGER (Visuelle Entscheidungsunterstützung bei der Auswertung von Daten aus sozialen Netzwerken).[9] Ähnlich wie bei Palantir Gotham sollen durch automatische Bilderkennung Hinweise erzeugt werden, wenn sich in der Nutzerhistorie in einem Sozialen Netzwerk eine bestimmte Person oder Gegenstände (wie etwa Schusswaffen) zeigen.

Der Ansatz erinnert an das Predictive Policing, und tatsächlich handelt es sich um digitaltechnische Prädiktion mithilfe von Muster­er­kennung und Statistik. Allerdings sollen so nicht Wohneinbruchsdiebstähle verhindert werden, sondern staatsgefährdende Straftaten. Es geht um nicht weniger als eine Risikobewertung von ExtremistInnen anhand ihres Verhaltens im Netz. Aus der digitalen Kommunikation über die Sozialen Netzwerke soll eine Software verdächtige Verhaltensmuster aussieben.

Die Forschungsprojekte verbinden kriminologische und psychologische Ansätze, um entsprechende „Muster der Radikalisierung“ zu finden. Zu diesen Projekten gehören PANDORA (Propaganda, Mobilisierung und Radikalisierung zur Gewalt in der virtuellen und realen Welt), X-SONAR (Extremistische Bestrebungen in Social Media Netzwerken), RADIG-Z (Radikalisierung im digitalen Zeitalter) und RISKANT (Risikoanalyse bei islamistisch motivierten Tatgeneigten). Bei RADIG-Z will man ein Prognoseinstrument entwickeln, das die Wahrscheinlichkeit einer späteren terroristischen Aktion misst. RISKANT, PANDORA und X-SONAR zielen auf Software für den praktischen Einsatz und wurden zum Teil von den Kriminalämtern selbst angestoßen.

Bürgerrechtlich brisant ist unter anderem, dass „Radikalität“ anhand sprachlicher Äußerungen gemessen werden soll. Unterschiedliche Signale kämen dafür in Frage, heißt es: die einschlägigen Begriffe aus bestimmten politischen Milieus (zum Beispiel „Volksschädling“ oder „sozialistische Revolution“), aber auch Formulierungen, die gewaltsam klingen (etwa „militanter Widerstand“) oder eine Ausdrucksweise, die den Unterschied zu anderen sozialen Gruppen betont („wir als Muslime/Deut­sche/Arbeiter“ versus „die Ungläubigen/Einwan­derer/Ka­pita­lis­ten“). Kurz, die Wortwahl entscheidet (mit) über den entstehenden Risiko-Score.

[1]      Purwarianti, A.; Madlberger, L.; Ibrahim, M.: Supervised Entity Tagger for Indonesian Labor Strike Tweets using Oversampling Technique and Low Resource Features, in: Telkomnika 2016, no. 4, p. 1462 – 1471 (1462). eigene Übersetzung
[2]     www.prewave.ai
[3]     für Deutschland z.B. Alexander Gluba von der Kriminologischen Forschungsstelle des LKA Niedersachsen und Dominik Gerstner vom Freiburger Max Planck-Institut: Gluba, A.: Predictive Policing – eine Bestandsaufnahme, in: Kriminalistik 2014, H. 6, S. 347–352; Gerstner, D.: Predictive Policing als Instrument zur Prävention von Wohnungseinbruchdiebstahl, Freiburg 2017; www.mpicc.de/de/forschung/forschungsarbeit/kriminologie/ predictive_policing_p4.html
[4]     Brayne, S.: Big Data Surveillance: The Case of Policing, in: American Sociological Review 2017, no. 5, p. 977-1008 (978), eigene Übersetzung
[5]     Stahlhut, A.: Automatisierte Datenreduzierung auf beweisrelevante Inhalte: Ergänzende Analyse mit KNIME, in: der kriminalist 2017, H. 10, S. 26-30
[6]     ebd.
[7]     ebd.
[8]     Brayne: Big data surveillance, a.a.O. (Fn. 4), S. 979
[9]     https://www.sifo.de/files/Projektumriss_INTEGER.pdf

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert