Lade Inhalt...

Personalisierungstechniken im WWW - Untersuchung der Anforderungen und Möglichkeiten anhand einer prototypischen Umsetzung

Diplomarbeit 2002 131 Seiten

Informatik - Theoretische Informatik

Leseprobe

Inhaltsverzeichnis

1. Einleitung

2. Grundlagen und Gegebenheiten
2.1 Begriff Personalisierung
2.2 Sicherheitsaspekte und Datenschutz
2.2.1 Sicherheitsaspekte bei der Personalisierung
2.2.1.1 Personalisierung mittels unabhängiger Nutzerverwaltung
2.2.1.2 Personalisierung durch gemeinsame Nutzerverwaltung
2.2.2 Datenschutz
2.2.3 Rechtliche Grundlagen
2.2.4 Potentielle Gefahren
2.2.5 Maßnahmen
2.3 Bekannte Techniken zur Personalisierung
2.3.1 Expertengestützte Systeme
2.3.1.1 Uniforme Bewertung
2.3.1.2 Regelbasierte Personalisierung
2.3.2 Nutzergestützte Systeme
2.3.2.1 Einfaches Filtern
2.3.2.2 Inhaltsbasiertes Filtern
2.3.2.3 Kollaboratives Filtern (collaborative filtering)

3. Konzepte zur Lösung
3.1 Datengewinnung
3.1.1 Technischer Ansatz zur kontinuierlichen Nutzerbeobachtung
3.1.2 Beschreibung der Funktionsweise
3.1.2.1 Identifikation der Session bzw. des Nutzers
3.1.2.2 Identifikation der angeforderten
3.1.2.3 Identifikation der Aktionselemente
3.1.2.4 Identifikation aktiver Textdaten
3.1.2.5 Identifikation passiver Textdaten
3.1.2.6 Protokollierung der Seitenanforderung
3.1.2.7 Modifikation des HTML-Quelltextes
3.2 Informationsgewinnung
3.2.1 Informationsgewinnung aus Aktionsdaten
3.2.1.1 Aktionen
3.2.1.2 Seitenwechsel
3.2.1.3 Navigationswege
3.2.2 Textbasierte Informationen
3.2.2.1 Verarbeitung von Textdaten
3.2.2.2 Verarbeitung von textbasierten Informationen
3.3 Wissensgewinnung
3.3.1 Wissen über den Nutzer
3.3.1.1 Erfahrungslevel
3.3.1.2 Interessengebiete
3.3.2 Wissen über die Anwendung
3.3.2.1 Nutzungsschwerpunkte (räumlich/zeitlich)
3.3.2.2 Zielgruppeninformationen
3.4 Integration
3.4.1 Metasprache
3.4.2 API
3.5 Anwendung
3.5.1 Personalisierung
3.5.1.1 Sichtbarkeit
3.5.1.2 Ranking
3.5.1.3 Textuelles Ranking
3.5.1.4 Hotlinks
3.5.1.5 Prefilling
3.5.1.6 Individuelle Rechtschreibkontrolle
3.5.1.7 Inhaltsvorschlag
3.5.1.8 Zusatzinformationen bei intensiver Nutzung
3.5.1.9 Auswahl ähnlicher Inhalte mittels kollaborativen Filterns
3.5.2 Analysen und Statistiken

4. Zusammenfassung und Ausblick

5. Anhänge
5.1 Grundbegriffe zur Computerlinguistik

Abbildungen

Gleichungen

Beispiele

Quellen, Referenzen und Verweise

Ich erkläre an Eides statt, dass ich die vorliegende Arbeit selbständig und ohne fremde Hilfe verfasst, andere als die angegebenen Quellen nicht benutzt und die den verwendeten Quellen wörtlich oder inhaltlich entnommenen Stellen als solche kenntlich gemacht habe.

Leipzig, 18.02.2002 Stefan Kluge Gerald Menzel

1. Einleitung

Warum finden bis heute Techniken zur Personalisierung nur in so geringem Maß Anwendung im WWW? Eine wesentlicher Grund ist die enorm hohe Technologie- und Kostenhürde, die bisher bei der Realisierung eines personalisierten Angebotes zu überwinden ist. Daneben bestehen zusätzlich oft auch große Vorbehalte gegenüber der Personalisierung. Diese beziehen sich neben dem nur schwer definierbaren wirtschaftlichen Nutzen vor allem auf die Datenschutzproblematik.

Dennoch ist ein Trend hin zum verstärkten Einsatz von Personalisierungstechniken erkennbar. Und das nicht nur im WWW. Diesen wachsenden Bedarf nach entsprechenden Lösungen wird mehr und mehr nachgekommen. Vor allem Hersteller von Systemen im Bereich Content Management (CM) und Customer Relation Management (CRM) bieten mittlerweile immer öfter auch Module mit Personalisierungstechniken. So ist die große Mehrzahl der derzeit am Markt präsenten Lösungen meist nur als Bestandteil oder Erweiterung umfangreicher CM- oder CRM-Lösungen einsetzbar. Der Markt für derartige Systeme ist undurchsichtig und lässt sich aufgrund der Vielfalt und rasanten technologischen Veränderungen der Systeme kaum abgrenzen, weshalb an dieser Stelle bewusst keine Aufstellung oder gar ein Vergleich einzelner verfügbarer Systeme gegeben werden soll.[1]

Beispiele für personalisierte Angebote im WWW sind inzwischen zahlreich zu finden. Das Kürzel ‚my’ weist vielerorts auf die Möglichkeit der persönlichen Anpassung des Angebotes hin, so z.B. myYahoo[2]. Ein besonders oft zitiertes Beispiel stellt der Online-Buchversand Amazon[3] dar, welcher schon sehr früh auf Personalisierungstechniken gesetzt hat und damit auch sehr erfolgreich war und ist.

Es fällt auf, dass derzeit hauptsächlich größere eCommerce-Angebote den Querschnitt der personalisierten Angebote im WWW bilden. Dies ist wohl vor allem damit zu begründen, dass der Einsatz von Personalisierungstechniken meist wirtschaftlichen Erwägungen (Stichwort: Kundenbindung) folgt und sich die Hersteller solcher Systeme ausschließlich auf dieses lukrative zentrale Marktsegment konzentrieren.

Grenzbereiche finden dagegen bisher kaum Beachtung. Die meisten CM- Systeme sind mit komplexen Verwaltungsfunktionen, wie z.B. Workflow- Koordinierung oder Mitarbeiterverwaltung, ausgestattet und daher für kleinere Anbieter völlig überdimensioniert bzw. nicht finanzierbar. Auch für das andere Ende des Marktes, z.B. Anbieter mit sehr komplexen Angeboten, kommen die derzeit verfügbaren Lösungen kaum in Frage, da diese oft nicht flexibel genug den individuellen Bedürfnissen angepasst werden können.

Es besteht also Bedarf nach Personalisierungslösungen, die unabhängig von CM-Systemen einsatzfähig sind. Eine solche Lösung müsste leicht und mit nur geringem Aufwand in bestehende Angebote integrierbar, gleichzeitig aber auch flexibel anzupassen und einsetzbar sein. Es müssten damit sowohl komplett dynamische Websites personalisiert werden können als auch Angebote, die teilweise oder gänzlich aus statischen HTML-Dateien bestehen. Dem Personalisierungssystem sollte ein offenes und dadurch transparentes Konzept zugrunde liegen, um Datenschutzbedenken entgegenwirken zu können.

Im Folgenden werden Ansätze für ein solches innovatives Personalisierungskonzept vorgestellt. Eine besondere Rolle spielen dabei auch Methoden der Computerlinguistik.[4] Im Gegensatz zu herkömmlichen Systemen wird ein nicht-integrativer Ansatz, d.h. eine klare Trennung zwischen

Personalisierungssystem und der zu personalisierenden Anwendung, verfolgt. Diese Arbeit untersucht die Möglichkeiten der Informationsgewinnung und skizziert Anwendungsfälle für eine Personalisierung auf Basis dieser Informationen.

2. Grundlagen und Gegebenheiten

2.1 Begriff Personalisierung

Vor dem ‚Wie’ sollen zu Beginn zunächst die Fragen ‚Was ist Personalisierung?’ und ‚Wer braucht sie?’ geklärt werden. Erstere Frage ist nicht leicht zu beantworten, denn es existieren viele verschiedene Definitionen zum Begriff ‚Personalisierung’ in unterschiedlichen Kontexten.

Bezogen auf das Feld der Informationsverarbeitung könnte eine intuitive Definition vielleicht folgendermaßen lauten: ‚Personalisierung bedeutet die Anpassung von Inhalten für ein konkretes Subjekt, z.B. durch Hinzufügen von für dieses Subjekt interessanten und Weglassen von uninteressanten Informationen.’ Ein solches ‚konkretes Subjekt’ könnte als eine reale Person oder auch als eine Gruppe von Personen verstanden werden.

Tatsächlich existieren aber auch hier teilweise sehr verschiedene Definitionen. So findet der Begriff Personalisierung u.a. im Bereich eCommerce Verwendung und meint dort oft nichts anderes als die Möglichkeit, sich als Kunde mit Name, Adress- und Kontoverbindungsdaten zu registrieren, um diese bei späteren Bestellungen nicht erneut eingeben zu müssen. Es bedarf also einer allgemeinen (allumfassenden) Definition des Begriffes Personalisierung für das Feld der Informationsverarbeitung.

Personalisierung bedeutet eine positive Beeinflussung der Art und Weise, wie Information für eine konkrete Person zugänglich ist. Dies schließt z.B. auch die Möglichkeit der Vorauswahl von Informationen ein, abhängig von den Präferenzen der Person - in Anbetracht der zunehmenden Informationsflut eine nicht zu unterschätzende Stärke personalisierter Informationssysteme.

Bei der Entwicklung von Informationssystemen wie z.B. Anwendungsprogrammen, aber auch Angeboten im WWW, wurde bisher meist von einer allgemeinen Zielgruppe ausgegangen, welche, abhängig vom Charakter des Systems, mehr oder weniger groß ist. Der Gruppe werden gewisse Eigenschaften zugeschrieben und diese als für jedes Individuum der Gruppe zutreffend angenommen. Anhand dieses Eigenschaftskataloges findet die Ausrichtung der Schnittstellen und Inhalte des Systems statt. Die Anpassung an den Nutzer (die Zielgruppe) ist also statisch, d.h. einmalig, bei der Entwicklung des Angebotes. Naturgemäß können so jedoch nur elementare und wenig differenzierte Eigenschaften von Personen berücksichtigt werden. Dies sind in den meisten Fällen Eigenschaften wie z.B. Alter, Bildungsstand, Interessengruppe usw.

Im Gegensatz zu diesem klassischen Zielgruppenkonzept, verfolgt die Personalisierung den Gedanken, jeden einzelnen Nutzer als Individuum zu behandeln und die Schnittstellen und Inhalte des Informationssystems nach dessen persönlichen Eigenschaften anzupassen. Natürlich bedeutet dies, dass das Personalisierungssystem Kenntnis der persönlichen Eigenschaften jedes Nutzers haben muss. Diese Daten können auf verschiedene Weise gewonnen werden, vom einfachen Fragebogen bis hin zur automatischen Beobachtung und Auswertung aller Aktionen der Nutzer des Informationssystems. Letzteres Verfahren ist nur mit enormem technischem Aufwand realisierbar, birgt aber großes Potenzial, da sich aus den so gesammelten Daten sehr viele Informationen zu Eigenschaften der Nutzer gewinnen lassen, was wiederum sehr komplexe und effiziente Personalisierungstechniken ermöglicht.

Jedoch müssen persönliche Daten als sensibel eingestuft werden. Begriffe wie ‚Nutzerbeobachtung’ oder ‚Profilerstellung’ können leicht missverstanden werden. Dies fügt der technischen Problematik auch noch einen heiklen rechtlichen Aspekt hinzu und macht die Personalisierung zu einem kontrovers diskutierten Thema. Das folgende Kapitel setzt sich daher zunächst näher mit der Datenschutzproblematik auseinander.

2.2 Sicherheitsaspekte und Datenschutz

2.2.1 Sicherheitsaspekte bei der Personalisierung

Berichtet man von Techniken zur Ermittlung von Nutzergewohnheiten, zur Erstellung von Nutzerprofilen oder zur Individualisierung eines Interfaces, so wird man oft konfrontiert mit Kommentaren wie "Spyware", "Datenspionage" oder "ich will nicht, dass sich meine Oberfläche verändert". An dieser Stelle muss man unterscheiden zwischen der Skepsis über die Qualität eines solchen Systems, die zur vorschnellen Ablehnung führen kann, und über Bedenken bezüglich Datenschutz und Anonymität.

Gründe für das Misstrauen gegenüber einer Interface-Individualisierung können verschiedener Natur sein. Viele Nutzer, vor allem im professionellen Bereich, haben schlechte Erfahrungen mit solchen Techniken gemacht. So sind einige in Microsoft Windows bzw. in den Microsoft Office Produkten integrierten Personalisierungstechniken für bestimmte Zielgruppen nicht geeignet oder sogar produktivitätsmindernd. Als konkretes Beispiel sei an dieser Stelle die Funktion zum automatischen Verbergen selten genutzter Menüpunkte genannt, die in modernen Microsoft Office Produkten integriert ist. Während durchschnittlichen Nutzern durch diese Funktion eine größere Übersichtlichkeit gegeben wird, fühlen sich zahlreiche fortgeschrittene Anwender durch die zusätzlich notwendige Erweiterung der jeweils eingeblendeten Menüleiste, um verborgene Menüpunkte nutzen zu können, behindert. Microsoft hat mit seiner hohen Marktdurchdringung einen großen Einfluss auf die öffentliche Meinungsbildung. Daher sind diese für bestimmte Zielgruppen mangelhaften Konzepte nicht unwesentlich für das Misstrauen dieser Nutzer mitverantwortlich.

Für viele Kritiker sind Bedenken bezüglich der Datenspionage und des Anonymitätsverlustes Gründe für eine Zurückhaltung. Diese Bedenken sind natürlich nicht von der Hand zu weisen. Jedoch muss berücksichtigt werden, dass die Gewährleistung dieser Sicherheit von einem konkreten System abhängt und nicht zu einer Pauschal-Verurteilung der Personalisierung an sich führen kann. Nun ist es Nutzern von personalisierten Systemen allerdings in der Regel nicht möglich, diese auf Einhaltung diverser Sicherheitsanforderungen zu prüfen. Allerdings ist bereits ein Trend erkennbar, dass sich namhafte Firmen immer öfter um eine freiwillige Sicherheitskontrolle durch mehr oder weniger unabhängige Experten, wie dem TÜV für IT-Security, bemühen.

In dieser Arbeit werden modulare Personalisierungssystemkonzepte favorisiert. Es handelt sich dabei um Konzepte, die eine unkomplizierte Erweiterung bestehender Systeme um eben diese Personalisierungskomponente ermöglichen. Sicherheitsaspekte, die für eine konkrete Anwendung dieser Personalisierung relevant sind, müssen nicht zwangsläufig auch für die Personalisierung an sich eine Bedeutung haben. Die gewährleistbare Sicherheit hängt vor allem von der Schnittstelle zwischen dem Personalisierungssystem und der Anwendung ab. Von den Autoren wird im Folgenden ein mehrstufiges Sicherheitskonzept vorgestellt.

2.2.1.1 Personalisierung mittels unabhängiger Nutzerverwaltung

Nutzer des Personalisierungssystems werden völlig losgelöst von den Nutzern der Anwendung betrachtet. Es gibt keinerlei Austausch von Nutzeridentifikationsnummern oder sonstigen Daten, die eine Verbindung zwischen Nutzerdaten des Personalisierungssystems und Nutzerdaten der Anwendung ermöglichen. Damit ist es nicht möglich, Wissen über den Nutzer innerhalb des Personalisierungssystems, auf eine reale Person zu übertragen, da eine Verbindung zur realen Person, wenn überhaupt, nur in der Anwendung existiert. So wäre dies z.B. möglich, wenn in der zu personalisierenden Anwendung Adressinformationen archiviert würden und eine Abkopplung zwischen Nutzer im Personalisierungssystem und Nutzer der Anwendung nicht vorliegen würde.

Vorteil dieser Methode ist die völlige Anonymität personalisierter Daten. Es ist z.B. nicht möglich, Wissen über das Erfahrungslevel eines Nutzers auf eine reale Person zu übertragen. Da dies aus Marketinggründen auch erwünscht sein kann, ist es unter Umständen ebenso ein Nachteil. Ein erheblicher Nachteil kann die mangelhafte Nutzererkennung sein. Das Einloggen ist die einzig sichere und praktikable Möglichkeit zur Identifikation eines Nutzers, da die jeweilige Person sich aktiv auf einem beliebigen Rechner mittels Benutzername und Passwort identifiziert. Für das Personalisierungssystem ist dieses Verfahren in diesem Fall jedoch nicht von Nutzen, daher muss die Identifikation auf der Verwendung von Cookies bzw. nicht persistenten Session-IDs basieren. Cookies sind Dateien, die von einem Server auf dem Client gespeichert werden, wo sie vom Webbrowser verwaltet werden. Diese Dateien können beispielsweise eine Nutzeridentifikationsnummer dauerhaft speichern. Da Cookies durch Nutzer blockierbar sind, kann eine Wiedererkennung von Nutzern nicht garantiert werden. Nicht persistenten Session-IDs sind, wie der Name schon sagt, nur für die Dauer eine Session gültig. Eine solche eindeutige ID wird einem Nutzer bei der ersten Anfrage vergeben und dann bei jeder weiteren Anfrage dieses Nutzers weitergereicht. Für eine Personalisierung ist dieses Verfahren nur bedingt geeignet, da wiederkehrende Nutzer nach Beendigung einer Session nicht wiedererkannt werden können.

Sinnvoll ist die Anwendung der unabhängigen Nutzerverwaltung, wenn im zu personalisierenden System ohnehin keine Nutzerverwaltung implementiert ist. Außerdem gibt es Online-Angebote, die die Annahme von Cookies durch Ihre Anwender voraussetzen. Auch in diesem Fall ist der Einsatz möglich und voraussichtlich nur geringfügig durch mangelhafte Nutzererkennung beeinträchtigt.

2.2.1.2 Personalisierung durch gemeinsame Nutzerverwaltung

Websites mit eigener Nutzerverwaltung können diese über die Schnittstelle zum Personalisierungssystem propagieren. Technisch kann dies vereinfacht als „Durchreichen“ einer eindeutigen Nutzeridentifikationsnummer verstanden werden. Vorteilhaft ist in diesem Fall die eindeutige Nutzererkennung durch Login. Die Möglichkeit, eine Verbindung zwischen nutzerbezogenen Daten des Personalisierungssystems und denen der Anwendung zu schaffen, kann aus Marketing-Sicht erhebliche Vorteile bringen. So können Anwendungsfunktionalitäten implementiert werden, deren Realisierung mit Hilfe einer Personalisierungsmetasprache nicht möglich wäre. Als Beispiel sei das Verschicken von personalisierten Newslettern genannt. Als Nachteil ist der Verlust der Anonymität personalisierter Informationen zu nennen, wenn Informationen zur realen Person in der Anwendung vorliegen.

Generell soll hier darauf hingewiesen werden, dass Nutzerdaten bezüglich einer Personalisierung in dem von uns vorgestellten Sinne im Allgemeinen keine sensiblen persönlichen Informationen sind. Bei einer Diskussion sollte im Auge behalten werden, dass es sich nicht um Konto-, Adress- oder sonstige Informationen mit direktem Bezug zur realen Person handelt. Die Informationen, die auf der Basis des hier vorgestellten Personalisierungskonzeptes gewonnen werden, sind vielmehr als abstraktes Wissen, etwa in Form von Navigationsverhaltensregeln bezüglich einer Website, oder in Form von Interessenschwerpunkten, bezogen auf dynamische Informations-Cluster, zu verstehen.

Einer Entscheidung für eines der beiden Sicherheitskonzepte sollten folgende Überlegungen vorausgehen:

I. Anforderungen an die Personalisierung

Wird das Personalisierungssystem vorwiegend zur Analyse des Kundenverhaltens eingesetzt? Oder kommen aktive Personalisierungsfunktionen zum Einsatz, die beispielsweise Inhalte und Form der Anwendung beeinflussen? Dann spricht dieser Fakt für eine Personalisierung durch gemeinsame Nutzerverwaltung.

II. Nutzerverwaltung der Anwendung

Existiert in der zu personalisierenden Anwendung eine Nutzerverwaltung? Ist dies nicht der Fall, so kommt eine gemeinsame Nutzerverwaltung ohnehin nicht in Frage.

III. Sicherheitsanforderungen an die Anwendung

Bei der Implementierung einer Personalisierungslösung in Anwendungen mit strikten Sicherheitsbestimmungen kann es, z.B. auch aus unternehmenspolitischen Gründen, gefordert werden, die Nutzeridentifikation nicht an ein externes Modul weiterzugeben. Auch in diesem Fall kann keine gemeinsame Nutzerverwaltung zum Einsatz kommen.

2.2.2 Datenschutz

Folgende Betrachtungen des Datenschutzes spielen nur dann eine Rolle, wenn es sich bei den verarbeiteten Daten um personenbezogene Daten handelt. "Personenbezogene Daten sind Einzelangaben über persönliche oder sachliche Verhältnisse einer bestimmten oder bestimmbaren natürlichen Person (Betroffener)."[5] Abhängig vom Einsatz eines Personalisierungssystems ist eine Verbindung zwischen verarbeiteten Daten eines Nutzers und der entsprechenden natürlichen Person nicht immer notwendig. Die Bestimmbarkeit einer natürlichen Person kann dadurch verhindert werden, dass eine solche Verbindung gar nicht erst hergestellt wird. So können Daten über das Navigationsverhalten eines Nutzers verarbeitet werden, ohne dabei Daten über die natürliche Person, die sich hinter diesem Nutzer verbirgt, festzuhalten. In einem solchen Fall spielen rechtliche Grundlagen des Datenschutzes keine Rolle. Da bei einem Personalisierungssystem jedoch eine Verbindung zwischen verarbeiteten Daten und den jeweiligen natürlichen Personen auch gewünscht sein kann, sollen gesetzliche Regelungen an dieser Stelle nun genauer betrachtet werden.

2.2.3 Rechtliche Grundlagen

Die rechtlichen Grundlagen des Datenschutzes in Deutschland sind im Bundesdatenschutzgesetz (BDSG)[6] festgehalten. Speziell im Internet-Bereich spielen außerdem das Teledienstegesetz (TDG)[7], das Teledienstedatenschutzgesetz (TDSSG)[8] und der Mediendienstestaatsvertrag (MDStV)[9] eine Rolle. Im Rahmen eines Urteils des Bundesverfassungsgerichts wurde 1983 erstmals der Begriff der Informationellen Selbstbestimmung (ISR) geprägt, welcher grundlegende Bedeutung für die datenschutzrechtliche Gesetzgebung hat. Es wird argumentiert, dass ein Bürger in seiner Freiheit wesentlich gehemmt sein kann, wenn für ihn nicht überschaubar ist, welche Informationen seiner Umwelt über ihn bekannt sind.

Folgende gesetzliche Vorgaben sollten bei der Konzeption eines Personalisierungssystems beachtet werden:

Es dürfen nur Daten verarbeitet werden, die für den konkreten Fall erforderlich sind (Datensparsamkeit). Daten müssen zweckgebunden gesammelt und vor Zugriffen unberechtigter geschützt werden (Zweckbindung). Personen haben das Recht zu erfahren, welche personenbezogenen Daten über Sie gespeichert werden und zu welchem Zweck dies geschieht. Außerdem können betroffene Personen die Berichtigung, Löschung oder Sperrung der Daten fordern. Die Datenverarbeitung muss so organisiert werden, dass Sie nachvollziehbar ist (Transparenz). Dazu gehört auch die Unterrichtung der betroffenen Personen vor der Erhebung der Daten.

Angaben über die rassische und ethnische Herkunft, politische Meinungen, religiöse oder philosophische Überzeugungen, Gewerkschaftszugehörigkeit, Gesundheit oder Sexualleben unterliegen schärferen Bestimmungen.

Der folgende Ausschnitt der BDSG [§ 46] weist auf einige für die Organisation der Datenverarbeitung wichtigen Anforderungen hin:

"1. Unbefugten den Zutritt zu Datenverarbeitungsanlagen, mit denen personenbezogene Daten verarbeitet oder genutzt werden, zu verwehren (Zutrittskontrolle),

2. zu verhindern, dass Datenverarbeitungssysteme von Unbefugten genutzt werden können (Zugangskontrolle),

3. zu gewährleisten, dass die zur Benutzung eines Datenverarbeitungssystems Berechtigten ausschließlich auf die ihrer Zugriffsberechtigung unterliegenden Daten zugreifen können, und dass personenbezogene Daten bei der Verarbeitung, Nutzung und nach der Speicherung nicht unbefugt gelesen, kopiert, verändert oder entfernt werden können (Zugriffskontrolle),

4. zu gewährleisten, dass personenbezogene Daten bei der elektronischen Übertragung oder während ihres Transports oder ihrer Speicherung auf Datenträger nicht unbefugt gelesen, kopiert, verändert oder entfernt werden können, und dass überprüft und festgestellt werden kann, an welche Stellen eine Übermittlung personenbezogener Daten durch Einrichtungen zur Datenübertragung vorgesehen ist (Weitergabekontrolle),

5. zu gewährleisten, dass nachträglich überprüft und festgestellt werden kann, ob und von wem personenbezogene Daten in Datenverarbeitungssysteme eingegeben, verändert oder entfernt worden sind (Eingabekontrolle),

6. zu gewährleisten, dass personenbezogene Daten, die im Auftrag verarbeitet werden, nur entsprechend den Weisungen des Auftraggebers verarbeitet werden können (Auftragskontrolle),

7. zu gewährleisten, dass personenbezogene Daten gegen zufällige Zerstörung oder Verlust geschützt sind (Verfügbarkeitskontrolle),

8. zu gewährleisten, dass zu unterschiedlichen Zwecken erhobene Daten getrennt verarbeitet werden können."

2.2.4 Potentielle Gefahren

Unberechtigter Zugang zu den Daten

Um nur berechtigten Personen den Zugang zu einem personalisierten System zu ermöglichen, bietet sich ein Passwortschutz an. Abhängig von der konkreten Implementierung wird dies möglicherweise nicht in der Zuständigkeit des Personalisierungssystems liegen, sondern bereits von der zu personalisierenden Anwendung selbst übernommen - zum Beispiel einem Internet-Portal, welches ein Login vorsieht.

Missbrauch der Daten

Die Verwendung von personenbezogenen Daten für nicht vorgesehene Zwecke wiederspricht der gesetzmäßigen Zweckbindung. Für ein Personalisierungssystem bedeutet dies, dass bei der Formulierung des Verwendungszweckes gegenüber den Benutzern entsprechend sorgfältig vorgegangen werden muss. Einerseits erfordert die angestrebte und für das Vertrauen des Nutzers notwendige Transparenz eine deutliche Formulierung des Verwendungszweckes der Daten. Andererseits machen ökonomische Gesichtspunkte eine Skalierbarkeit und Flexibilität eines Personalisierungssystems und der entsprechend verarbeiteten Daten notwendig. Auch hier gilt es eine Verhältnismäßigkeit zu wahren. Das heißt, vor allem bei der Verarbeitung sensibler persönlicher Daten den Verwendungszweck besonders unmissverständlich zu formulieren und ihm strikt zu entsprechen. Schutz vor Datenmissbrauch heißt weiterhin, Maßnahmen zu ergreifen um Unberechtigten den Zugang zu diese Daten zu verwehren. Diese Maßnahmen hängen jedoch stark von der konkreten Anwendung und dem jeweiligen System ab und bedürfen einer individuellen Integration in das entsprechende Sicherheitskonzept.

Manipulation der Daten

Im Gegensatz zur Manipulation etwa von Kontodaten in einer Onlinebanking-Anwendung hat die Veränderung der Daten eines Personalisierungssystems (nur) dessen Fehlfunktion zur Folge. Man muss sich darüber im Klaren sein, dass die Daten der jeweiligen Anwendung völlig unabhängig von den Daten des Personalisierungssystems sind. Eine Manipulation wirkt sich also nicht in der Form aus, dass etwa eine Überweisung innerhalb einer Onlinebanking-Anwendung ein falsches Konto erreichen würde, allerdings wären Fehlfunktionen innerhalb des vom Personalisierungssystem gesteuerten individuellen Nutzer-Interfaces möglich. Wie auch beim Schutz gegen Missbrauch der Daten muss einer Manipulation bereits bei der Integration in das gesamte Sicherheitskonzept der Zielanwendung vorgebeugt werden. Andererseits können auch Anwendungsunabhängige Maßnahmen die Sicherheit des Personalisierungssystems erhöhen. So zum Beispiel die Bildung einer Checksumme über gefährdete Daten, welche dann bei der Verwendung dieser Daten als Dekodierungsschlüssel dient.

Gefahr durch Verknüpfung von Daten

Auch wenn personenbezogene Daten isoliert betrachtet keine unrechtmäßig erlangten Informationen darstellen, so muss beachtet werden, dass die Verknüpfung dieser Daten möglicherweise weitergehende Rückschlüsse zulassen. Ob eine Verknüpfung möglich ist, muss für jedes Datum anhand der konkreten Anwendung geprüft werden. Auch hier gilt der Grundsatz der Verhältnismäßigkeit. So ist die Verknüpfung von IP-Adresse und der entsprechenden natürlichen Person theoretisch zwar möglich, jedoch nur mit erheblichem Aufwand durchsetzbar. Damit ist die Verarbeitung der IP-Adresse im Regelfall vertretbar.

2.2.5 Maßnahmen

Passwort-Schutz

Passwörter gelten als guter Kompromiss zwischen Sicherheit und Benutzerfreundlichkeit. Es lässt sich in jedem Fall folgende Empfehlung für Passwort-Schutzmechanismen aussprechen[10]:Passwörter sind im System verschlüsselt abzulegen und gegen unbefugte Zugriffe zu schützen

- wiederholte Falscheingaben sind zu unterbinden, z.B. durch Sperrung nach dreimaliger Falscheingabe
- Passwörter sollten eine Mindestlänge von 6 Zeichen haben und aus einem alphanumerischen Zeichenmix bestehen.
- Die Eingabe sollte verdeckt erfolgen, das Anzeigen von Ersatzzeichen (*) lässt die Erkennung der Passwortlänge für Dritte zu.
- Falscheingaben sollten dem Nutzer sofort mitgeteilt und vom System protokolliert werden.
- Die Nutzung von Trivialpasswörtern sollte vom System unterbunden werden.

Bei den Maßnahmen ist jeweils abzuwägen, wie stark die Benutzbarkeit des Systems darunter leidet und wie groß der organisatorische Aufwand ist. So ist die Vorgabe einer Mindestlänge von 8 Zeichen zwar der Sicherheit zuträglich, nicht jedoch der Usability. Ebenso ist es einem Systembetreiber unter Umständen aus ökonomischen Gesichtspunkten nicht möglich, bei einer Sperrung eines Nutzer-Profils eine Entsperrung nur nach Kontaktaufnahme mit der jeweiligen Person vorzunehmen. Der Sicherheitsaufwand sollte vor allem im Verhältnis zu den verarbeiteten personenbezogenen Daten stehen.

Verschlüsselung

Passwörter und andere sensible Daten müssen angemessen verschlüsselt werden. Dies gilt auch für die Übertragung dieser Daten. Generell ist es empfehlenswert, sich dabei an standardisierten Konzepten zu orientieren, zum Beispiel einer Verschlüsselung gemäß des Advanced Encryption Standard (AES)[11] und einer Übertragung über Secure Socket Layer (SSL)[12].

Transparenz

Platform for Privacy Preferences (P3P)[13] ist ein Protokoll zur Beschreibung von Daten-Sammlungs-Praktiken einer Website. Dieses Protokoll dient sowohl der Information der Nutzer über private Daten, die auf einer Website über ihn gesammelt werden, als auch der automatischen Verarbeitung dieser Informationen durch den Webbrowser. Browser, die dies unterstützen, können einen automatischen Vergleich mit den Sicherheitseinstellungen der Nutzer vornehmen und den Nutzer ggf. warnen. Microsoft hat diese Unterstützung im IE 6 integriert. P3P ist als Empfehlung des W3C ein offener Standard und kann als vertrauensschaffende Maßnahme dem Betreiber einer Personalisierungstechnik nutzenden Website empfohlen werden. Da das Personalisierungssystem jedoch unabhängig von persönlichen Nutzerdaten arbeitet, ist dies nur indirekt ein Aspekt des Datenschutzes. Indirekt deshalb, weil zu vermuten ist, dass viele Benutzer ein generelles Misstrauen gegenüber personalisierten Systemen aufbringen werden und gerade deshalb durch Transparenz Vertrauen aufgebaut werden sollte.

2.3 Bekannte Techniken zur Personalisierung

Den Kern eines jeden Personalisierungssystems bilden Methoden und Verfahren, die auf verschiedenste Art und Weise die Beziehungen zwischen den Inhalten der Anwendung und deren Nutzern analysieren und beeinflussen - die eigentlichen Personalisierungstechniken. Es existieren verschiedene Ansätze für solche Techniken, wobei die Struktur der Inhalte des Angebotes und der Nutzergruppen bestimmend für die Qualität der erzielten Ergebnisse ist.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: Kriterien zur Auswahl von Personalisierungstechniken [14]

2.3.1 Expertengestützte Systeme

2.3.1.1 Uniforme Bewertung

Bei der Personalisierung mit Hilfe uniformer Bewertungssysteme werden dem Nutzer Entscheidungshilfen zur Auswahl von Inhalten, z.B. zum Kauf eines Produktes oder zur Wahrnehmung einer Dienstleistung, geboten. Die Entscheidungshilfen orientieren sich dabei nicht an den individuellen Präferenzen des Nutzers, sondern an denen der Allgemeinheit, also aller Nutzer.

Definition: Uniforme Präferenzen liegen vor, wenn ein großer Prozentsatz der Nutzer identische Merkmale eines Produktes oder einer Dienstleistung schätzt.

Uniforme Bewertungssysteme sind nicht automatisierbar, d.h. die benötigten Daten werden manuell erhoben. Alle Inhalte müssen durch Nutzerbefragungen, Expertenanalysen oder ähnliche Verfahren regelmäßig neu bewertet werden. Das bedeutet auch, dass sich nicht alle Arten von Inhalten für diese Technik eignen, so z.B. Inhalte mit emotionalen Aspekten.

2.3.1.2 Regelbasierte Personalisierung

Bei der Personalisierung mit Hilfe regelbasierter Systeme werden die über den Benutzer gesammelte Informationen einem Satz von Regeln gegenübergestellt und anhand dieser Regeln ausgewertet. Ein solches Expertensystem ist, wie der Name schon sagt, mit dem Schlussfolgern und Handeln eines Experten vergleichbar.

Die zugrunde liegenden Regeln sind häufig nach folgendem Muster aufgebaut:

Folgerung¬(Bedingung1=wahr)Ù(Bedingung2=wahr)Ù...

Damit lassen sich Bedingungen definieren, wie z.B.:

„Zeigt Nutzer verstärkt Interesse an >Outdoor<, >Camping< und >Gebirge<, dann zeige Bannerwerbung einschlägiger Reiseveranstalter. “ Ein komplexes regelbasiertes Personalisierungssystem besteht aus einer Wissensbasis mit Fakten (Sachverhalte, dargestellt durch Objekt-Attribut-Wert Trippel) und Regeln (in if/then-Struktur), einer Inferenzmaschine (enthält den Schlussfolgerungsmechanismus), einem Wissenserwerbs-Subsystem, einem Erklärungs-Subsystem und einer Benutzerschnittstelle.

Wissensbasis (Fakten und Regeln)

Inferenzmaschine (Schlussfolgerungs- mechanismus

und Steuerung)

Wissenserwerbs- subsystem

Erklärungssubsystem Benutzerschnittstelle

Abbildung 2: Aufbau eines komplexen regelbasierten Personalisierungssystems

Voraussetzung für den Betrieb eines regelbasierten Informationssystems ist ein umfangreiches Inhalts- und Zielgruppen-Know-How seitens des Betreibers, da dieser für die Aufstellung und Pflege der Regeln zuständig ist.

Der große Vorteil eines solchen Systems ist die hohe Flexibilität der Personalisierung durch beliebige Verknüpfungsmöglichkeiten von Fakten und Bedingungen, woraus auch eine gute Überschau- und Steuerbarkeit resultiert.

Diese Vorteile werden allerdings durch einen hohen konzeptionellen Initialaufwand (z.B. Aufstellung der Regelbasis) und die Notwendigkeit einer permanenten - meist manuellen - Aktualisierung erkauft.

2.3.2 Nutzergestützte Systeme

Grundlegendes Arbeitsprinzip der meisten nutzergestützten Personalisierungssysteme (Cognitive- ,Economic- und Social Filtering) ist der Einsatz mehr oder weniger komplexer Filtertechniken. Neben einfachen Filtern lassen sich diese Verfahren hauptsächlich in inhaltsbasierte und bewertungsbasierte Filterverfahren unterteilen. Nutzergestützte Personalisierungssysteme lassen sich oft auch sehr gut mit regelbasierten Systemen kombinieren.

2.3.2.1 Einfaches Filtern

Wie der Name vermuten lässt, handelt es sich hierbei um ein sehr simples Verfahren. Jeder Nutzer wird dabei einer manuell definierten Gruppe zugeordnet und die Eigenschaften dieser Gruppe als für ihn zutreffend angenommen. Beispiel:

„Kunden, die der Gruppe >Premium-Kunden< zugeordnet sind, werden bestimmte Rabatte angeboten.“

Dieses Verfahren erfordert weder einen hohen Initial-, noch eine hohen Aktualisierungsaufwand. Allerdings lassen sich damit auch nur einfachste Personalisierungstechniken realisieren.

2.3.2.2 Inhaltsbasiertes Filtern

Inhaltsbasierte Filtertechniken (auch Cognitive/Content Based Filtering genannt) stellen bereits fortgeschrittenere Methoden zur Personalisierung dar und produzieren gegenüber dem einfachen Filtern schon wesentlich komplexere Ergebnisse.

Grundlegendes Prinzip ist eine Klassifizierung aller Inhalte (z.B. Produkte) des Informationssystems. Dies geschieht, indem jedem Inhalt eine Menge von zutreffenden Attributen zugeordnet wird. Durch Vergleich dieser Attribute lassen sich dann wiederum ähnliche Inhalte einander zuordnen. Die Ermittlung der Präferenzen des Nutzers geschieht durch Beobachtung seiner Auswahl von Inhalten. So können ihm z.B. passende (ähnliche) Inhalte vorgeschlagen werden.

Voraussetzung dafür ist allerdings eine ausreichend gute Klassifizierung der Inhalte. Als Vorteil zeigt sich hier, dass sich diese Klassifizierung in der Regel natürlich ergibt. Leider lassen sich aber eben nicht alle Arten von Inhalten gut klassifizieren. Schwierigkeiten treten z.B. bei Bildern oder Düften auf, da sich solchen Inhalten nur schwer Attribute zuordnen lassen. In jedem Fall ist für die Klassifizierung der Inhalte ein hoher Initialaufwand notwendig.

2.3.2.3 Kollaboratives Filtern (collaborative filtering):

Die Anfänge dieser Technik liegen in den neunziger Jahren. Forschungen an der Universität von Minnesota verfolgten damals das Ziel, die großen Mengen von Beiträgen in Newsgroups zu filtern, um dem Nutzer zu ermöglichen, leichter die für ihn interessanten Beiträge zu finden. Das daraus entstandene Filtersystem war in der Lage, den Nutzerbestand automatisch in passende Gruppen zu gliedern - die „Group Lens“[15]

Das so genannte kollaborative Filtern stellt eine der fortgeschrittensten Filtertechniken dar. Grundlage ist hier nicht eine Klassifizierung der Inhalte, sondern die Beziehung von Nutzern zu Inhalten. Diese Beziehung entsteht, indem Nutzer die Inhalte bewerten. Das kann zum einen aktiv (manuell) geschehen, z.B. durch die Vergabe von Bewertungspunkten durch den Nutzer, oder auch passiv (automatisch). In letzterem Fall muss der Nutzer nicht direkt in Anspruch genommen werden. Vielmehr vergibt er die Bewertungen unbewusst, d.h. schon die bloße Auswahl von Inhalten durch den Nutzer kann als Bewertung interpretiert werden.

Anhand ähnlicher Bewertungsmuster können alle Nutzer dynamisch gebildeten Gruppen (sog. Peer-Gruppen) zugeordnet werden. Jede dieser Gruppen erhält gewisse Eigenschaften, gebildet aus der Summe der Eigenschaften aller der jeweiligen Gruppe zugehörigen Nutzer. Jede der so gewonnenen Eigenschaften einer Gruppe wird nun auch als für jedes Mitglied der Gruppe zutreffend angenommen.

Ein bekanntes Beispiel stellt hier der Online-Buchhandel amazon.de [16] dar. Dieser nutzt die Technik des kollaborativen Filterns z.B. für die Empfehlung von Buchtiteln.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3: Produktempfehlung bei amazon.de (Screenshot)

Die für den Einsatz des kollaborativen Filterns notwendigen Daten können mit Hilfe verschiedenster Techniken gewonnen werden. Zu nennen sei hier vor allem die Technik der Nutzerbeobachtung (Usertracking), auf die später noch näher eingegangen wird.

Da das kollaborative Filtern die zurzeit wohl fortgeschrittenste Technik darstellt, soll hier auf verschiedene bekannte Algorithmen näher eingegangen werden:

Speicherbasiert (Memory-Based)

Bei dieser Technik werden immer alle zugrunde liegenden Daten für die Generierung von Empfehlungen genutzt. Der gesamte Bestand an Bewertungsdaten wird nach Nutzern mit ähnlichem Bewertungsmuster durchsucht. Als Maß für die Ähnlichkeit könnte dabei z.B. der Korrelationskoeffizient nach Pearson dienen.

Dieser ist wie folgt definiert:

Abbildung in dieser Leseprobe nicht enthalten

Gleichung 1: Korrelationskoeffizient nach Pearson

Die Kovarianz zweier Nutzer wird durch deren Standardabweichung dividiert. Der Definitionsbereich ist auf Werte zwischen -1 und +1 beschränkt, wobei Paare mit hohem positivem Korrelationskoeffizienten als zueinander ähnlich gewertet werden.

Abbildung in dieser Leseprobe nicht enthalten

Beispiel 1: Neighbourhood-Methode - Bestand der Bewertungsdaten (Schulnoten) der Nutzer und berechnete Korrelationskoeffizienten (gerundet)

In diesem Beispiel wurden Nutzer1 und Nutzer4 als zueinander sehr ähnlich identifiziert (Korrelationskoeffizient = 0.97). Hier erscheint eine Empfehlung von Inhalt4 an Nutzer1 sinnvoll. Dagegen haben z.B. Nutzer3 und Nutzer4 so gut wie keine Gemeinsamkeiten (Korrelationskoeffizient = -0.65).

Modellbasiert (Model-based)

Im Gegensatz zum speicherbasierten Verfahren, wird bei modellbasierten Techniken nicht ständig auf den gesamten Datenbestand zurückgegriffen.

Stattdessen wird aus den Nutzerdaten ein Modell generiert (geschätzt, gelernt), wofür eine Reihe verschiedener Verfahren (Cluster Model, Gibbs Sampling, Clustered Pearson Algorithm, Bayesian Model, Bayesian Mixed Effects Model) Anwendung finden.

Ob speicher- oder modellbasiert - für den Einsatz kollaborativer Filtertechniken müssen zwei wichtige Vorraussetzungen erfüllt sein: Zum einen bedarf es einer umfangreichen Menge möglichst vielfältiger Inhalte. Zum anderen ist eine große bis sehr große Nutzerzahl zwingend erforderlich, um gute Ergebnisse zu erhalten.

Sind diese Vorraussetzungen erfüllt, stellt die Technik des kollaborativen Filterns ein sehr leistungsfähiges Verfahren dar und bringt eine Reihe von wesentlichen Vorteilen gegenüber den vorher genannten Verfahren:

- Die Kenntnis der Identität des Nutzers ist nicht erforderlich, da nur aus seinem Verhalten Schlüsse gezogen werden - aus datenschutzrechtlicher Sicht ein entscheidender Vorteil.
- Jeder Nutzer kann individuell betrachtet werden.
- Durch Auswertung der Gruppenpräferenzen können dem Nutzer auch neue (ihm unbekannte) Inhalte vorgeschlagen werden.
- Es fällt kein hoher Initialaufwand an, da die zu personalisierenden Inhalte nicht klassifiziert werden müssen.
- Das System muss kaum manuell gepflegt werden, da es aus den Nutzerdaten ständig hinzulernt und so die zugrunde liegenden Daten immer aktuell sind.
- Das System ist sehr flexibel einsetzbar.

Allerdings ist auch der Einsatz dieser Technik mit einer Reihe von Problemen verbunden:

- Nicht die Inhalte der Empfehlungen, sondern nur die Empfehlung selbst wird betrachtet, d.h. es werden keine inhaltlichen Beziehungen berücksichtigt.
- Die Nichtberücksichtigung der Inhalte der Bewertungen birgt das Risiko irrelevanter Vorschläge durch zufällige Zusammenhänge.
- Nur mindestens einmal bewertete Inhalte werden durch das System berücksichtigt, was eine Sonderbehandlung neuer Inhalte erforderlich macht (First-Rater-Problematik).
- Das System kann erst mit Erreichen einer bestimmten Anzahl von Bewertungen zuverlässig arbeiten und gute Vorschläge liefern (kritische Masse). Hierfür ist in der Regel ein längerer Zeitraum erforderlich.
- Für exotische Nutzerprofile werden schlechtere Empfehlungen generiert, da diese keiner ausreichend großen Gruppe bzw. keiner Gruppe ausreichend gut zugeordnet werden können.

3. Konzepte zur Lösung

Das Konzept für eine Personalisierungslösung, das in dieser Arbeit vorgestellt werden soll, verfolgt einen nicht-integrativen und modularen Ansatz. Dies bedeutet nicht nur eine strikte Trennung von Personalisierungssystem und Anwendung. Auch das Personalisierungssystem selbst ist modular aufgebaut und gliedert sich in folgende Bestandteile:

- Datengewinnung
- Informationsgewinnung
- Wissensgewinnung
- Personalisierungstechniken
- Auswertung

Zentraler Bestandteil ist dabei die Datenbank, in der sämtliche Ein- und Ausgabedaten der einzelnen Verarbeitungsschritte abgelegt und verwaltet werden.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 4: Modulare Struktur des Personalisierungssystems

[...]


[1] Dennoch sei auf das Angebot unter www.content-manager.de hingewiesen, welches aktuelle Informationen und Vergleiche zu Produkten aus den Bereichen CM und CRM bietet.

[2] www.yahoo.de

[3] www.amazon.com / www.amazon.de

[4] Einige Grundbegriffe der Computerlinguistik werden im Anhang näher erläutert.

[5] § 3 BDSG

[6] http://www.datenschutz-berlin.de/recht/de/bdsg/bdsg1.htm (abgerufen am 17. Februar 2002)

[7] http://www.bfd.bund.de/information/info5/info5011.htm (abgerufen am 17. Februar 2002)

[8] http://www.bfd.bund.de/information/info5/info5012.htm (abgerufen am 17. Februar 2002)

[9] http://www.iid.de/iukdg/gesetz/mdstv.html (abgerufen am 17. Februar 2002)

[10] siehe auch: http://www.datenschutz-berlin.de/infomat/ratgeber/3ratgeb.htm (abgerufen am 17. Februar 2002)

[11] http://csrc.nist.gov/encryption/aes/ (abgerufen am 17. Februar 2002)

[12] http://www.netscape.com/eng/ssl3/ (abgerufen am 17. Februar 2002)

[13] http://www.w3.org/P3P/ (abgerufen am 10. Dezember 2001)

[14] Quelle: Hanson 2000

[15] siehe auch: http://www.cs.umn.edu/Research/GroupLens/index.html (abgerufen am 7. Januar 2002)

[16] http://www.amazon.de (abgerufen am 20. Januar 2002)

Details

Seiten
131
Jahr
2002
Dateigröße
1.2 MB
Sprache
Deutsch
Katalognummer
v106388
Institution / Hochschule
Hochschule für Technik, Wirtschaft und Kultur Leipzig
Note
sehr gut
Schlagworte
Personalisierungstechniken Untersuchung Anforderungen Möglichkeiten Umsetzung

Autor

Teilen

Zurück

Titel: Personalisierungstechniken im WWW - Untersuchung der Anforderungen und Möglichkeiten anhand einer prototypischen Umsetzung