Thema: Internet

Da geht der Post ab

Sie bestimmen, was in deinem Stream auftaucht, wessen Profile gesperrt und was gelöscht wird – wobei sie oft ziemlich daneben liegen. Interview mit einem Datenwissenschaftler über Funktionsweise, Fehler und Macht der Algorithmen

Sara Geisler

4. November 2016

fluter.de: Herr Dewes, wenn es um Zensur im Internet geht, ist häufig von „Algorithmen“ die Rede, die diese automatisch erledigen. Was genau ist das eigentlich, ein Algorithmus?

Andreas Dewes: Ein Algorithmus ist ein Verfahren, anhand dessen ein Computer ein bestimmtes Problem löst. Bei herkömmlichen Algorithmen gibt der Programmierer exakt vor, was gemacht werden soll. Man kann sich das wie einen Entscheidungsbaum vorstellen, bei dem jeder Schritt genau vorgegeben ist. Im Kontext von sogenanntem maschinellen Lernen, wie es von sozialen Medien oft eingesetzt wird, ist das anders: Solche Algorithmen können Probleme lösen, für die sie nicht explizit programmiert worden sind – sie können sozusagen den Entscheidungsbaum, nach dem sie arbeiten, selbst erstellen und optimieren. Mit Auswendiglernen hat das nichts zu tun.

Welche Rolle spielt dabei der programmierende Mensch?

Er gibt die Bedingungen für das Lernverfahren vor und bestimmt die Menge und Art der Daten, die der Algorithmus als Lerngrundlage benutzt. Bei Facebook wären das zum Beispiel Fotos oder Texte von Usern, die zuvor manuell klassifiziert wurden – das heißt dahin gehend eingestuft, ob sie gegen die Richtlinien einer Plattform verstoßen. Etwa weil sie Szenen von Nacktheit oder Gewalt enthalten. Später soll dann der Algorithmus entscheiden: „Dieses Bild geht okay, dieses da nicht.“

Facebook wird immer wieder vorgeworfen, Inhalte zu löschen, obwohl sie unbedenklich seien. Meist folgt eine Antwort à la „Das waren wir nicht, das war der Algorithmus“. Wie glaubwürdig ist das?

In den meisten Fällen würde ich tatsächlich sagen, dass das glaubhaft ist. Zwar arbeitet bei Facebook verschiedenen Aussagen nach eine riesige Anzahl Leute im Bereich „Content Moderation“ – also daran, Fotos und Texte durchzusehen und zu filtern ...

Recht auf informationelle Selbstbestimmung

Jeder Bürger hat das Recht, selbst zu bestimmen, ob und in welchem Umfang er personenbezogene Daten preisgeben will: etwa den Namen, den Geburtsort oder die sexuelle Orientierung. Das Recht auf informationelle Selbstbestimmung ist nicht nur in der deutschen Verfassung verankert, sondern es wird auch durch die Grundrechtecharta der Europäischen Union geschützt. Möchte ein Staat das Recht auf informationelle Selbstbestimmung einschränken, braucht es neben einem triftigen Grund (zum Beispiel die nationale Sicherheit) auch eine gesetzliche Grundlage. Wenn Private oder Unternehmen personenbezogene Daten erheben, speichern und nutzen wollen, müssen die Interessen beider Seiten abgewogen und auch das Bundesdatenschutzgesetz eingehalten werden.Hier nähere Informationen dazu

... in Anbetracht der täglichen Flut an neuen Posts ist das aber nicht viel.

Genau, die Menge an Daten ist astronomisch groß. Dementsprechend drängend ist auch der Wunsch, Tätigkeiten zu automatisieren – das ist billiger und geht schneller. Bei der Entwicklung von selbstlernenden Algorithmen hat Facebook eine große Stärke: Das Unternehmen sitzt auf einem Schatz von wahrscheinlich mehreren Milliarden Fotos und Texten, die bereits klassifiziert wurden und als Trainingsgrundlage verwendet werden können.

Und warum kommt es dann trotzdem so oft zu Fehlern?

Die Fehlerhäufigkeit hängt nicht nur von der Anzahl, sondern auch von der Qualität der Eingabedaten ab: Wenn diese Fehler beinhalten, kann der Algorithmus später auch nicht lernen, ähnliche zu eliminieren. Außerdem sind richtige Entscheidungen immer eine Frage der Balance. Man könnte sogenannte „false positives“ – also Inhalte, die nicht anstößig sind, aber als anstößig markiert wurden – reduzieren, indem man dem Algorithmus sagt: „Bitte lösche Inhalte tendenziell eher nicht.“ Damit erhöht man aber gleichzeitig die Rate der „true negatives“ – Inhalte, die zwar anstößig sind, dem Algorithmus aber durchs „Netz“ gehen.

Nachdem Facebook im September ein Foto entfernte, das die neunjährige Kim Phuc 1972 nach einem Napalm-Angriff auf ihr Dorf in Vietnam zeigt, hagelte es Kritik. Frank Überall, Bundesvorsitzender des Deutschen Journalisten-Verbands, sagte: „Man muss von Facebook so viel Medienkompetenz erwarten dürfen, dass eine Unterscheidung zwischen einem zeitgeschichtlichen Dokument und Kinderpornografie vorgenommen wird.“ Kann ein Algorithmus so etwas leisten?

Das Problem ist: Hat man ihm vorher eine Million Fotos nackter Minderjähriger gezeigt, die als problematisch markiert werden sollen, dann reagiert der Algorithmus auf entsprechende Bilder sehr sensibel. Er könnte aber durchaus lernen, das Foto richtig zu klassifizieren.

Wie?

Zum einen könnte man den Algorithmus mit zusätzlichen Daten zu dem Bild füttern. Falls das Foto zum Beispiel in Suchergebnissen und großen Webseiten auftaucht, könnte der Algorithmus davon ausgehen, dass es sich eher nicht um illegalen Inhalt handelt. Ein anderer Ansatz wäre es, dem Algorithmus beizubringen, den Kontext eines Bildes richtig einzuordnen: Handelt es sich hier um eine pornografische Szene oder einfach nur Nacktheit? Das ist prinzipiell vorstellbar, aktuell halte ich es aber noch für sehr schwierig.

Andreas Dewes ist Datenwissenschaftler und Physiker. Er berät Unternehmen zum Thema Datenanalyse und ist Gründer und Geschäftsführer des Berliner Start-ups QuantifiedCode, das Aspekte von Softwareentwicklung automatisiert

Während Nackedeis auf Facebook meistens sehr schnell verschwinden, bleiben rassistische Symbole oft wochenlang stehen. Warum?

Prinzipiell sollten Symbole wie Hakenkreuze einfacher zu erkennen sein als Nacktheit. Schließlich sind sie in ihrer Erscheinung weniger variabel. Ich kann hierzu leider nur spekulieren, könnte mir aber vorstellen, dass Nacktheit für US-Unternehmen grundsätzlich ein Problem darstellt. Bei rassistischen Symbolen und Äußerungen fällt ihnen vielleicht die Abwägung schwerer: Fällt das unter die Kategorie Hetze oder Meinungsfreiheit?

Sind die Regeln, nach denen die Algorithmen arbeiten, Ihrer Meinung nach transparent genug?

Als Nutzer hat man eigentlich kaum Möglichkeiten, sich darüber zu informieren, wie ein Algorithmus funktioniert. Sicher aber ist: Algorithmen dienen in erster Linie dem Geschäftsmodell eines Unternehmens und nicht dem Wohle seiner User. Wenn ich etwas auf Facebook sehe, dann deshalb, weil dadurch die Wahrscheinlichkeit wächst, dass ich länger auf der Seite bleibe und auf Links oder Werbung klicke.

Was kann ich tun, wenn mein Profil oder Inhalte von mir blockiert werden?

Man kann dem Unternehmen den Vorfall melden. Jedoch reagieren diese oft sehr träge, was zum Teil einfach an der schieren Menge der zu verarbeitenden Informationen liegt. Worüber man sich in jedem Fall bewusst sein sollte: Indem ich den Nutzungsbedingungen einer Plattform zustimme, bin ich zu einem gewissen Grad dem ausgeliefert, was Algorithmen mit meinen Daten machen. Auch wenn das viele glauben: Ich habe nicht unbedingt das Recht, einen Dienst so zu nutzen, wie ich das gerne hätte. In dem Sinne haben User auch keinen Anspruch darauf, dass ihnen bestimmte Inhalte angezeigt werden. Im Endeffekt ist es immer eine Abwägungssache: Auf der einen Seite steht die privatrechtliche Beziehung, die ich mit Facebook eingehe, auf der anderen mein Recht auf informationelle Selbstbestimmung.