Big Data, Outsourcing, Security

Anonymisierung für Big Data auf die andere Art

Autor: Oliver Schonschek

 

Wenn es um den Schutz personenbezogener Daten bei Big-Data-Analysen geht, steht an erster Stelle die Anonymisierung der Daten. Dabei sollen Daten mit Personenbezug so verändert werden, dass ein Rückschluss auf einzelne Personen nicht mehr möglich ist. Viele Unternehmen klagen allerdings darüber, dass die Anonymisierung aufwändig und fehleranfällig ist und dass die Aussagekraft der Analysen darunter leidet, wenn nur anonymisierte Daten verwendet werden können.

Das Max-Planck-Institut für Software-Systeme (MPI-SWS) hat mit Aircloak eine interessante Alternative zur herkömmlichen Anonymisierung vorgestellt. Anstatt die personenbezogenen Daten vor der Analyse so zu verändern, dass der direkte Personenbezug entfällt, werden für die Analytics-Funktionen die vollständigen Daten genutzt, seien es die Daten von Finanz-Apps in Verbindung mit Standortdaten, detaillierte Gesundheitsdaten oder die ebenfalls von Datenschützern kritisch gesehenen Daten aus Smart Metering.

Die Antworten auf die Abfragen der Analytics-Nutzer jedoch enthalten keinen Personenbezug mehr. Die Anonymisierung findet demnach erst nach der Analyse statt. Die Befürchtung, durch den Datenschutz würden die Analysen in ihrer Qualität beschnitten, kann so zerstreut werden. Die Analysen basieren auf den vollständigen Daten, die Antworten auf die Abfragen aber beziehen sich immer auf eine ausreichend große Zahl von Personen. Rückschlüsse auf Einzelpersonen sollen so vermieden werden.

Hohe Sicherheitsanforderungen an die Big-Data-Analysen bleiben aber bestehen: Zum einen muss sichergestellt werden, dass es nicht gelingt, durch geschickte Abfragekombinationen doch noch Einzelpersonen identifizieren zu können. Dazu findet unter anderem ein Monitoring der Analytics-Nutzer statt, das bei verdächtigen Aktivitäten eine Warnung ausgibt.

Zum anderen müssen die vollständigen Datensätze vor unerlaubten Zugriffen jenseits der genau definierten Abfragemöglichkeiten geschützt werden. Dies erfordert eine hochsichere Verschlüsselung der Daten und ein manipulationssicheres Analytics-System. Aircloak nutzt dazu unter anderem Hardware-basierte Verschlüsselung (TPM-Chips), ein speziell gehärtetes Betriebssystem und die Möglichkeit, dass Dritte die Unversehrtheit der Analytics-Anwendung überprüfen können.

Das Beispiel Aircloak zeigt, dass es mit entsprechenden Sicherheitskonzepten durchaus möglich ist, den Datenschutz bei Big-Data-Analysen zu wahren und gleichzeitig die Befürchtung zu zerstreuen, die Analyse-Qualität würde durch den Datenschutz deutlich leiden, wie dies bei einer klassischen Anonymisierung vor Analysen oftmals befürchtet wird. Datenschutz macht personenbezogene Daten also nicht etwa unbrauchbar, sondern schützt sie vor Missbrauch.

Die Experton Group wird im nächsten Big Data Vendor Benchmark unter anderem Lösungen untersuchen, die den Datenschutz bei Big-Data-Anwendungen unterstützen wollen, indem sie die Anonymisierung personenbezogener Daten vornehmen. Sobald die Research-Phase dazu beginnt, werden wir Sie an dieser Stelle informieren.

 

One Comment

  1. Big Data wird für die Konzerne allmählich zu einem richtigen Problem. Der Reichtum hat sie einfach überwältigt. Sie haben ein paar interessante Punkte in diesem Kontext angesprochen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.