Lade Inhalt...

Ethische Aspekte bei Logfile-Analysen zur Generierung von Nutzerprofilen

Hausarbeit 2003 24 Seiten

Informationswissenschaften, Informationsmanagement

Leseprobe

Inhaltsverzeichnis

1 Einleitung

2 Die Problematik von Logfile-Auswertungen
2.1 Bewusstsein bei Internetnutzern
2.2 Der Nutzen für Website-Betreiber

3 Logfile-Analysen aus wissenschaftlicher Sicht
3.1 Vorgehen bei Logfile-Analysen
3.2 Auswertungsmöglichkeiten
3.2.1 Logfile- Kennzahlen
3.2.2 Data Mining
3.3 Anonymizer

4 Logfile-Analysen aus rechtlicher Sicht
4.1 Rechtslage zu personenbezogenen Daten
4.1.1 Deutschland
4.1.2 Europäische Union
4.1.3 Internationale Abkommen
4.2 Die Rechte der Nutzer

5 Logfile-Analysen aus ethischer Sicht
5.1 Das ethische Grunddilemma
5.1.1 Anonymität – ein Grundrecht
5.1.2 Forderungen der Gesetzeshüter
5.2 Darstellung des Problems aus normativer Sicht
5.3 Darstellung des Problems aus utilitaristischer Sicht
5.4 Darstellung des Problems aus diskursethischer Sicht

6 Zusammenfassung und Fazit

Literatur

Abbildungsverzeichnis

Abbildung 1: Prinzip der Logfile-Erhebung und mögliche Informationen

Abbildung 2: Ablauf der Web Log Mining Analyse

Abbildung 3: Zuordnung von Fragestellungen und Aufgaben im Web Mining zu Data Mining-Methoden

Tabellenverzeichnis

Tabelle 1: Common Logfile Format und Extended Common Logfile Format

Tabelle 2: Mögliche Logfile-Kennzahlen und korrespondierende Datenfelder

Abkürzungen

Abbildung in dieser Leseprobe nicht enthalten

1 Einleitung

Von Providern und Unternehmen werden sie schon intensiv genutzt, und bringen mit ihren Kennzahlen aufschlussreiche Informationen über die Nutzung von Websites zu- tage: Logfile-Analysen. Dies sind Auswertungen von Logfiles, die von Webservern auf- gezeichnet werden. Doch wenn Informationen über die Nutzung einer Website erhoben werden, werden somit Informationen von natürlichen Personen erhoben, die diese Nut- zung der Website ausüben. Den Nutzern ist meist nicht bewusst, dass ihre Bewegun- gen aufgezeichnet werden. Folgende Abbildung zeigt die prinzipielle Abfolge, bei wel- cher die Daten in Logfiles von Webservern aufgezeichnet werden:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: Prinzip der Logfile-Erhebung und mögliche Informationen1

Web Log Mining ist die Analyse des Verhaltens von Internetnutzern, bei der unter an- derem Data Mining Methoden auf die von Webservern generierten Logfiles angewen- det werden, um Interessen und Verhaltensmuster von Online-Kunden zu ergründen. Beim Web Log Mining bleibt die Datenquelle auf Logfiles beschränkt.2

Wenn in dieser Arbeit von „Weblogs“ die Rede ist, sind die Logfiles von Webservern gemeint, nicht aber Tagebücher, die im Internet veröffentlicht werden und gemeinhin auch als „Weblogs“ bezeichnet werden.

Einige Argumentationen dieser Arbeit beziehen sich auf Datenschutz, Anonymität und Überwachung im Internet allgemein, die spezielle Betrachtung gilt allerdings Logfiles, wie sie von Webservern generiert werden.

2 Die Problematik von Logfile-Auswertungen

2.1 Bewusstsein bei Internetnutzern

Viele Nutzer sind sich nicht bewusst, dass ihre Aktionen im Internet auf den einzelnen Websites mitgeloggt werden. Die meisten Internetnutzer sind nicht an technischem Hintergrund des Mediums Internet interessiert, solange sie nicht darauf gestoßen wer- den, welche Aktionen neben dem simplen „Surfen im Internet“ noch ablaufen. Sie sind damit zufrieden, dass sie das Medium Internet in Anspruch nehmen können.

Drei Beispiele sollen die Unbedarftheit der Masse der Internetnutzer in Bezug auf Log- files der Webserver verdeutlichen:

1. Im März 2001 veröffentlichte Wolfgang Sander-Beuermann in der „computer- Postille“ der Universität Dortmund einen Artikel, der einen Fall beschreibt, bei dem ein Internetnutzer wider seiner Annahme, im Internet anonym seine Mei- nung zu äußern, das genaue Gegenteil erlebte: Der Internetbesuch wurde ihm im Nachhinein zugeschrieben. Gegenstand dieses Falles war, dass ein Schüler einer öffentlichen Schule über den Schulcomputer einen Gästebucheintrag un- ter einem Pseudonym auf einer Website vorgenommen hatte. Da der Eintrag Beschimpfungen enthielt, verfolgte der Webmaster anhand der IP-Adresse, un- ter der der Eintrag vorgenommen wurde die Verbindung im Nachhinein zurück und ergänzte dann den Gästebucheintrag um die Bezeichnung der Schule, als er herausfand, dass von dieser der Eintrag erfolgt war. Ein Lehrer der Schule wurde auf den Eintrag aufmerksam und konnte anhand der Uhrzeit des Gäste- bucheintrags herausfinden, welcher Schüler zu der Zeit den Schulcomputer ge- nutzt hatte.3

Dieses Beispiel zeigt, dass die Verwendung von Pseudonymen nicht unbedingt Anonymität für Internetnutzer garantieren kann. Selbst wenn jeder einzelne Da- tenhüter für seinen eigenen Datenbestand sagen kann, dass keine personen- bezogenen Daten gehalten werden, kann die Kombination von verschiedenen Datenbeständen die Identifizierung von zuvor anonymen Nutzern ermöglichen.

2. Die Suche mit Suchmaschinen ist für Internetnutzer nicht unbedingt anonym.

„Fälschlicherweise nehmen einige Nutzer an, dass der Besuch der bei Google im Zwischenspeicher beziehungsweise Cache gespeicherten Web- sites nicht protokolliert wird. Dabei überträgt der Browser an die Website die Referrer-Meldung samt Cache-Nummer und Suchbegriffen […]“ 4

Die Übermittlung von Bewegungsdaten im Internet ist vielen Nutzern nicht be- wusst. Zwar werden solche Daten in der Regel nicht an einer Stelle gesammelt, jede einzelne Website sammelt aber Daten und kann auch Informationen dar- über erhalten, welche Website zuvor besucht wurde, und im Falle einer Such- maschine oder anderer dynamischer Websites, bei denen Parameter in der URL übergeben werden feststellen, welche Parameter übergeben worden sind.

3. Links in E-Mails und dynamische Website-Links enthalten häufig so genannte Session-ID’s, die in der URL übergeben werden und dazu dienen, festzustellen, wer die entsprechende Seite aufgerufen hat.5

Die Tatsache, dass sich viele Internetnutzer nicht bewusst sind, wie stark sie beim Sur- fen im Internet überwacht werden, erfordert einerseits Aufklärung und andererseits eine Diskussion darüber, wie Internetnutzer über Logfile-Auswertungen denken und urteilen würden, wenn sie besser bekannt wären. Ein wichtiges Argument für den Schutz von Internetnutzern vor Überwachung wird in den folgenden Erörterungen das Recht auf Anonymität darstellen.

2.2 Der Nutzen für Website-Betreiber

Den Vorbehalten, die man aufgrund des möglichen Eingriffs in die Privatsphäre von Internetnutzern haben kann, steht der Nutzen gegenüber, den Website-Betreiber aus Logfile-Auswertungen ziehen können.

Dieser Nutzen ist aber teilweise erst dann besonders hoch, wenn personenbezogene Daten erhoben und weiterverarbeitet werden. Zum Beispiel ist ein eShop daran inte- ressiert zu wissen, welche Interessen und Präferenzen ein (potenzieller) Kunde hat. Wenn genau bekannt ist, welche Interessen ein spezifischer Kunde hat, kann er direkt angesprochen werden, und über dynamisch erzeugte Websites kann ihm ein auf ihn zugeschnittenes Angebot offeriert werden.

Manche Website-Betreiber vermarkten Nutzerprofile und geben so ihr Wissen über das Verhalten von Website-Besuchern gegen Bezahlung weiter. Für allgemein kostenlose Web-Angebote ist dies eine mögliche Einnahmequelle.

Für Website-Betreiber besteht die Schwierigkeit, Nutzen aus Logfiledaten zu ziehen, ohne das Vertrauen der Website-Besucher oder Kunden aufs Spiel zu setzen. Des Weiteren ist es für Website-Betreiber wichtig, bestehende Gesetze einzuhalten. Da die Rechtslage nicht einfach und teilweise noch nicht eindeutig definiert ist, besteht hierin eine weitere Schwierigkeit.

3 Logfile-Analysen aus wissenschaftlicher Sicht

3.1 Vorgehen bei Logfile-Analysen

Logfiles von Webservern enthalten zahlreiche Informationen, die allerdings aufbereitet werden müssen, um eine aussagekräftige Beurteilung über die Nutzung einer Webprä- senz liefern zu können. Dies liegt zum einen an der beträchtlichen Größe, die Logfiles innerhalb von wenigen Tagen erreichen können und dadurch unübersichtlich erschei- nen, zum anderen liegt dies daran, dass in Logfiles nicht nur erwünschte, sondern auch unerwünschte (verfälschende) Einträge vorhanden sind. Um möglichst effizient und effektiv Logfiles auszuwerten, wird die Logfile-Analyse nach einer bestimmten Vorgehensweise durchgeführt, die Vorbereitungen zur Datenanpassung berücksichtigt. Folgende Abbildung stellt den Ablauf einer Web Log Mining-Analyse dar.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2: Ablauf der Web Log Mining Analyse6

Bei der Aufgabendefinition wird festgelegt, welche Ziele in einer konkreten Untersu- chung verfolgt werden sollen. Die definierten Ziele bestimmen, wie in den folgenden Schritten vorgegangen wird. Beispiele für Abhängigkeiten zum späteren Web Log Mi- ning-Prozess sind:

- Start- und Endpunkt der Logfile-Erhebung (beziehungsweise die zu untersu- chende Zeitspanne)
- Art der Datenaufbereitung
- Art und Umfang der Mustersuche: Techniken, Aufwand, Dauer, etc.

Die Datenauswahl ist der Schritt, bei dem die zur Untersuchung notwendigen Daten erhoben beziehungsweise herangezogen werden. Sollen vergangene Zeiträume unter- sucht werden, muss auf bestehendes Datenmaterial zurückgegriffen werden. Wenn die Daten erst noch erhoben werden, hat dies den Vorteil, dass das Format des Logfiles noch angepasst werden kann. Es können Datenfelder hinzugefügt werden und die Syntax der Datenfelder kann beeinflusst werden.

Der Prozessschritt der Datenaufbereitung ist eng verknüpft mit der Datenintegration

und aus mehreren Gründen besonders wichtig. Vorrangig werden im Rahmen der ge-

gebenen Möglichkeiten unerwünschte, verfälschende Einflüsse im Datenbestand her- ausgefiltert und, wenn nötig, eliminiert. Zum Beispiel verfälschen Zugriffe des Administ- rators einer Website die Aussagekraft des Logfiles und sollten im Logfile gelöscht wer- den. Nicht alle verfälschenden Einflüsse können eliminiert oder behoben werden, es ist aber wichtig, einschätzen zu können, welche Aussagekraft ein Logfile hat, um Ergeb- nisse besser bewerten zu können. Verfälschende Faktoren sollten bei der Datenaufbe- reitung berücksichtigt werden. Neben der Bereinigung muss ein Logfile in den meisten Fällen auch einer Umformatierung unterzogen werden. Um Logfile-Daten in ein Analy- seprogramm einlesen zu können, müssen sie im entsprechend richtigen Format vorlie- gen. Für diese Aufgabe eignet sich die Technik des „Extrahieren, Transformieren und Laden“ (ETL). ETL ist eine Technik, die sich intensiv dieser Schnittstellenproblematik widmet. Es kann beispielsweise vorkommen, dass Zeilen im Logfile zu lang sind (be- dingt durch sehr lange Request- oder Referrer-Einträge), um eingelesen werden zu können. Ohne Datenaufbereitung ist kein sinnvolles Verarbeiten eines Logfiles mög- lich. Laut Rapp/Guth gehen Data Mining-Projekten (und damit auch Web Mining- Projekten) oft umfassende Datanqualitätsanalysen voraus.7

„Data Mining Projekte setzen nicht nur Datenvielfalt, sondern auch quali- tativ einwandfreie Daten voraus. Sind die Daten nicht redundanzfrei und konsistent, so wird jedes Data Mining Projekt scheitern.“ 8

Im Prozessschritt der Mustersuche findet das eigentliche „Mining“ (engl.: graben) nach wertvollen Informationen statt. Es wird nach interessanten Häufigkeiten, Abhängigkei- ten, Mustern und weiteren Kenngrößen gesucht.

Der letzte Schritt im Web Log Mining, der Prozess der Interpretation und Umsetzung setzt die gewonnenen Erkenntnisse der Mustersuche dazu ein, den Webauftritt selbst und damit auch seine Wirkung zu verbessern.

3.2 Auswertungsmöglichkeiten

Datenquelle einer Web Log Mining-Untersuchung ist ein Logfile eines Webservers. Jeder Webserver erstellt während des Betriebs Logfiles zu unterschiedlichen Zwecken, die sich im Format9 unterscheiden. Das von nahezu allen Webservern generierte Logfi- le-Format ist das so genannte „Common Logfile Format“ (CLF). Häufig wird es durch zusätzliche Informationen erweitert und dann als „Extended Common Logfile Format“ (ECLF) bezeichnet wird. Tabelle 1 zeigt die Datenfelder, die durch diese Formate er- hoben werden.

Tabelle 1: Common Logfile Format und Extended Common Logfile Format10

Abbildung in dieser Leseprobe nicht enthalten 11

Je nach Untersuchungstiefe werden entweder einzelne dieser Datenfelder statistisch ausgewertet, oder für eine Auswertung mehrere Felder miteinander kombiniert.

3.2.1 Logfile- Kennzahlen

Komplexe Sachverhalte und umfangreiche Datenmengen lassen sich durch die Ver- wendung von Kennzahlen anschaulich abbilden. Dabei werden vorhandene Daten- mengen (zum Beispiel die eines Logfiles) in unterschiedlichen Bereichen zusammen- gefasst und entweder anhand mathematischer Formeln oder über sachliche und logi- sche Zusammenhänge miteinander verknüpft.12

Tabelle 2: Mögliche Logfile-Kennzahlen und korrespondierende Datenfelder13

Abbildung in dieser Leseprobe nicht enthalten

[...]


1 Eigene Darstellung

2 vgl. Hippner, H. / Merzenich, M. / Wilde, K. D. (2002-a), S. 7

3 vgl. Sander-Beuermann, W. (2001) - URL: http://www.hrz.uni-dortmund.de/computerPostille/ Maerz2001/11.html - Zugriff am 09.01.2004.

4 Schulzki-Haddouti, C. (2003) - URL: http://www.heise.de/tp/deutsch/inhalt/te/14052/1.html – Zugriff am: 09.01.2004.

5 vgl. Säuberlich, F. (2002), S. 111

6 Aus: Hippner, H. / Merzenich, M. / Wilde, K. D. (2002-a), S. 8f

7 vgl. Rapp, R./ Guth, S. (2003), S. 176 f

8 Rapp, R./ Guth, S. (2003), S. 175

9 Dies sind zum Beispiel Zugriffsprotokolle, Fehlerprotokolle oder Anwendungsprotokolle.

10 vgl. Hippner, H. / Merzenich, M. / Wilde, K. D. (2002-a), S. 10

11 „OS“ steht für Operating System (Betriebssystem).

12 vgl. Schwickert, A. C. / Wendt, P. (2000), S. 3

13 vgl. Marschall, N. (2002), S. 40 ff

Details

Seiten
24
Jahr
2003
Dateigröße
571 KB
Sprache
Deutsch
Katalognummer
v108555
Institution / Hochschule
Hochschule der Medien Stuttgart
Note
1,7
Schlagworte
Ethische Aspekte Logfile-Analysen Generierung Nutzerprofilen Vorlesung Informationsethik

Autor

Teilen

Zurück

Titel: Ethische Aspekte bei Logfile-Analysen zur Generierung von Nutzerprofilen