Lade Inhalt...

Das Verhältnis von Wortschatzkenntnis und lexikalischer Diversität in sprachlichen Äußerungen

Hausarbeit 2016 23 Seiten

Germanistik - Linguistik

Leseprobe

Inhaltsverzeichnis:

1. Einleitung

2. Theoretischer Hintergrund
2.1. Theorie zur Lexikalischen Diversität
2.1.1. Lexikalische Kompetenz
2.1.2. Allgemeines zur Arbeit mit Korpora
2.1.3. Allgemeines zur Wortanalyse in Korpora
2.2. Überblick über die Messmethoden
2.3. Der Guiraud-Index
2.4. Allgemeines zu Wortschatz und Wortschatztests
2.5. Bisherige Forschungsergebnisse

3. Methoden
3.1. Datensammlung
3.2. Messmethode

4. Ergebnisse

5. Diskussion

6. Schlusswort

7. Quellenverzeichnis

1. Einleitung

Ich beschäftige mich in meiner Arbeit mit der Beantwortung einer Forschungsfrage aus dem Themenkreis der Sprachwissenschaft. Der Bereich, auf den ich den Fokus meiner Betrachtung legen möchte, ist die lexikalische Diversität. Ein Blick auf die Unterschiede zwischen L1- und L2-Sprechern wird zwar gegeben sein, da ich verschiedenste Personen für die Untersuchung heranziehen werde, doch darauf wird nicht das Hauptaugenmerk liegen, da es schon viele Untersuchungen zu diesem Thema gibt. Was mich im Besonderen interessiert, ist der Zusammenhang von der Verwendung eines reichhaltigen Wortschatzes in Gesprächssituationen und dem allgemeinen Wortschatzwissen von Personen. Demnach möchte ich herausfinden, ob die Ergebnisse eines Wortschatztestes etwas über die lexikalische Vielfalt in der konkreten Sprachverwendung aussagen. Somit ergibt sich für mich folgende Fragestellung:

- Gibt es einen Zusammenhang zwischen der Leistung im Wortschatztest und der lexikalischen Diversität in sprachlichen Äußerungen?

Ferner ergeben sich noch weitere Unterfragen, die ich in diesem Zusammenhang untersuchen möchte:

- Kann man von guten Ergebnissen im Wortschatztestes auf einen hohen Grad an lexikalischer Vielfalt in sprachlichen Äußerungen schließen?
- Gibt es einen Unterschied hinsichtlich dieses Zusammenhanges bei L1- und L2-Sprechern?
- Welche Rolle spielen die Variablen L1/L2-Sprecher und Bildungsniveau generell für die Leistung im Wortschatztest und der Wortschatzvielfalt in den Äußerungen?

Ich vermute, dass es einen Zusammenhang zwischen den Ergebnissen des Wortschatztestes und der Reichhaltigkeit des Wortschatzes einer Person geben wird. Jedoch gehe ich aufgrund der vielen Einflussfaktoren, die das Ergebnis verfälschen könnten, eher von einer geringen Korrelation aus. Des Weiteren denke ich, dass die universitäre Ausbildung insofern eine Rolle spielt, indem sie generell zu besseren Ergebnissen in beiden Bereichen führt. Bei L1- und L2-Sprechern könnte es möglicherweise größere Unterschiede zwischen Wortschatzreichtum und den Ergebnissen des Wortschatztestes geben, da es meiner Meinung nach schwieriger ist, in einer Nicht-Muttersprache zu sprechen, als nur Wörter erkennen zu müssen. Vermutlich wird der Zusammenhang bei den L2-Sprechern größer sein, da das Sprachniveau auf welchem sie sich gerade befinden, beide Leistungen beeinflussen wird. Eine Person, die in dieser Sprache nur geringe Kenntnisse besitzt, wird sowohl beim Wortschatztest als auch beim Sprechen schlechter abschneiden und je länger sie die Sprache lernt, umso mehr wird sie sich in beiden Bereichen verbessern.

Mit ziemlicher Sicherheit gehe ich davon aus, dass die L1-Sprecher im Wortschatztest bessern abschneiden als die L2-Sprecher. Der Grad der lexikalischen Diversität wird bei den L1-Sprecher ebenfalls höher sein, doch ich denke, dass der Unterschied hier geringer ausfallen wird, da sich auch Muttersprachler beim Sprechen wiederholen und wahrscheinlich nicht gezielt auf einen differenzierten Wortschatz achten. Die Variable „universitäres Umfeld“ wird wahrscheinlich nur einen geringen Einfluss haben. Tendenziell könnten L1-Sprecher mit Uni-Ausbildung bessere Ergebnisse erzielen. Bei den L2-Sprechern hingegen wird diese Variable weniger relevant sein, sondern mehr Faktoren wie: Aufhaltezeit in einem deutschsprachigen Land, Besuchen eines Deutschkurses, wie oft wird deutsch gesprochen, sprechen wichtige Bezugspersonen deutsch, usw.

Vor der Darstellung der Untersuchung möchte ich noch einen kurzen Überblick über das Thema „lexikalische Diversität“ geben, um zu veranschaulichen, wie meine Meinung über den Ausgang der Untersuchung zustande gekommen ist und um generell über das Themengebiet, seine Messmethoden und bisherige Forschungsergebnisse zu informieren. Dabei geht es mir vor allem um die Verdeutlichung der Problematik der Wortschatzmessung, welche mögliche Erklärungen liefern sollte, falls sich meine Vermutungen über den Ausgang der Untersuchung als falsch erweisen würden und sich bei den Ergebnissen keinerlei Zusammenhang zwischen den Ergebnissen des Wortschatztests und den Grad der lexikalischen Vielfalt in den sprachlichen Äußerungen ergeben sollte.

2. Theoretischer Hintergrund

2.1. Theorie zur Lexikalischen Diversität

Unter lexikalischer Diversität (oder auch lexikalischer Vielfalt) versteht man die Reichhaltigkeit des in einem Korpus verwendeten Wortschatzes. In angewandten Disziplinen wie der Spracherwerbsforschung, der Sprachpathologie und der Stilometrie ist das Messen dieser Reichhaltigkeit eine wichtige Methode. Man kann dadurch beispielsweise den wachsenden Wortschatz eines Kindes oder den verminderten Wortschatz von Personen mit Sprachstörungen messen (Vgl. Perkuhn et al 2012).

Read (2000: 200f) unterscheidet zwischen diesen vier Eigenschaften von lexikalischer Vielfalt, die ausschlaggebend für einen in lexikalischer Hinsicht gelungenen Text sind:

- Lexical variation: Darunter versteht man die Verwendung von vielen verschiedenen Wörtern, anstatt einer begrenzte Anzahl von sich immer wieder wiederholenden Wörtern.
- Lexical sophistication: Dies bezeichnet die Auswahl von weniger häufigen Wörtern, die mehr für das Thema und den Stil geeignet sind als der alltägliche Wortschatz. Den Wert der Lexical sophistication kann man berechnen, indem man die Zahl dieser „sophisticated words“ durch die absolute Anzahl der Wörter im Text dividiert.
- Lexical density: Hier geht es darum, einen höheren Prozentsatz von lexikalischen oder Inhaltswörtern im Gegensatz zu grammatischen oder Funktionswörtern zu verwenden.
- Number of errors: Bezeichnet die Anzahl der grammatikalisch oder sinngemäß falsch verwendeten Wörter.

Nach Jarvis (1966: 22fff) basiert die lexikalische Diversität auf unserer Wahrnehmung und ist daher subjektiv. Das bedeutet jedoch nicht, dass sie nur durch subjektive Methoden gemessen werden kann. Jarvis unterscheidet zwischen diesen sechs Komponenten, die beeinflussen, wie wir lexikalische Diversität wahrnehmen:

- Variability: Varianz
- Volume: Textlänge
- Evenness: Bezeichnet die Gleichmäßigkeit, mit der die Token in einem Text auf die Types verteilt sind.
- Rarity: Bedeutet übersetzt Seltenheit; es geht um die Verwendung von weniger gebräuchlichen Wörten.
- Dispersion: Bezeichnet die Streeung der Token eines Types (Sind sie auf engem Raum zusammen oder über den gesamten Text verteilt?).
- Disparity: Bezeichnet die Verschiedenheit und somit den Unterschied zwischen den Wörtern im Text. Redundanz sollte auf formaler und semantischer Ebene vermieden werden.

Man vermutet, dass die Diversität der Wörter in der Sprachverwendung Auskunft darüber gibt, wie komplex das Wortschatzwissen und wie hoch das Level des Sprachniveaus der Person ist. Die Methoden, mit der man die lexikalische Diversität misst, bewähren sich im Hinblick darauf, wie man die Effekte der Aufgabenschwierigkeit überwinden kann und wie man das Sprachwissen und –verhalten vorhersagen kann; weniger jedoch im Zusammenhang damit, die tatsächliche lexikalische Diversität zu messen (Vgl. Jarvis 2013: 87).

2.1.1. Lexikalische Kompetenz

Gemäß des Europäischen Referenzrahmens für Sprachen versteht man unter lexikalischer Kompetenz die Kenntnis des Vokabulars einer Sprache, das aus lexikalischen und aus grammatischen Elementen besteht, sowie die Fähigkeit, es zu verwenden (Trim et al 2001: 111). Zu den lexikalischen Elementen zählen feste Wendungen, idiomatische Wendungen, Kollokationen, feststehende Phrasen und Einzelwörter. Bei den grammatischen Elementen hingegen handelt es sich um geschlossene Wortklassen, wie beispielsweise Artikel. Lexikalische Kompetenz ist demnach die Kenntnis und die Fähigkeit zur richtigen Anwendung dieser beiden Elementklassen (Vgl. ebd. 111f).

Die Erforschung der lexikalischen Kompetenz wurde bis in die 1980er Jahre als nebensächlich erachtet. Seit der kommunikativen Wende 1970 kommt der lexikalischen Kompetenz eine größere Bedeutung zu und ab den 1990er Jahren entwickelte sich dieser Bereich zu einem zentralen Forschungsgebiet (Vgl. Hirzinger-Unterrainer 2014). Nach Lewis (1997: 15) kann man den Wortschatz nicht direkt der Grammatik zuordnen. Für ihn steht die Kommunikation im Zentrum des Sprachenlernens, was jedoch bereits hinreichendes Wortschatzwissen voraussetzt.

2.1.2. Allgemeines zur Arbeit mit Korpora

Das Transkribieren und Auswerten von Gesprächskorpora ist in vielen Anwendungsfeldern der Germanistik eine gängige Methode. Es ist Aufgabe der Korpuslinguistik, Konzepte und Methoden zur Untersuchung und Auswertung dieser Daten zu entwerfen (Vgl. Storrer 2011: 1).

Lemnitzer und Zinsmeister (2006: 7) beschreiben den Begriff „Korpus“ als eine Sammlung schriftlicher oder gesprochener Äußerungen. Die Daten des Korpus sind typischerweise digitalisiert, d. h. auf Rechnern gespeichert und maschinenlesbar. Die Bestandteile des Korpus, die Texte, bestehen aus den Daten selbst sowie möglicherweise aus Metadaten, die diese Daten beschreiben, und aus linguistischen Annotationen, die diesen Daten zugeordnet sind.

Beim Verfassen der Korpora ist es hilfreich, festzulegen, was man genau unter dem Begriff „Wort“ versteht. Der Umfang von Korpora wird meist durch das Zählen von Token, also von Wortvorkommen, bemessen. Ein Grund hierfür ist, dass ansonsten (bei Computerprogrammen) nicht zwischen Wörtern der gleichen Form, welche verschiedene Bedeutungen haben, unterschieden werden kann. Beispielsweise kann das Wort „ein“ einerseits ein unbestimmter Artikel, andererseits ein Wortteil sein (Vgl. Storrer 2011: 2f).

Es gibt vier verschiedene Typen von Korpora. Einerseits unterscheidet man zwischen Gesprächs- und Textkorpora. Diese Abgrenzung geschieht hinsichtlich ihrer medialen Realisierung. Somit liegt bei einem Textkorpus ein Text vor und bei einem Gesprächskorpus eine Audiodatei plus Transkription des Gesprochenen. Die Unterscheidung zwischen Referenzkorpora und Spezialkorpora betrifft den Gegenstandsbereich, den sie umfassen sollen. Dabei repräsentieren Referenzkorpora die Allgemeinsprache eines bestimmten Zeitabschnitts, während sich Spezialkorpora nur auf ausgewählte Textsortenbereiche, Autoren oder Varietäten spezialisieren (Vgl. ebd. 12f).

2.1.3. Allgemeines zur Wortanalyse in Korpora

Bei der Analyse von Wörtern im Text können verschiedene Merkmale berücksichtigt werden. Zum einen kann man die Wortlänge messen – entweder durch Zählen der einzelnen Buchstaben oder Silben. Zum anderen besteht die Möglichkeit, die Wortarten zu ermitteln. Hierbei unterscheidet man zwischen Inhaltswörtern und Funktionswörtern. Zusätzlich könnte man bei den Inhaltswörtern ebenfalls zwischen den Hauptkategorien Substantiv, Verb, Adjektiv und Adverb unterscheiden. Des Weiteren kann die Wortkomplexität festgestellt werden. Hierbei untersucht man, um welche Hauptkategorie der Wortbildung es sich handelt: Simplex, Kompositum, Derivation, Konversion, Kurzwort oder Wortkreuzung. Schließlich gibt es noch die formalen Merkmale der Worthäufigkeit und der Wortwiederholung, welche ermittelt wird, in dem man die Zahl der verschiedenen Wörter mit der Gesamtwortzahl in Verbindung setzt.

Um lexikalische Einheiten näher beschreiben zu können, sollte man ermitteln, ob sie Besonderheiten in ihrem Gebrauch aufweisen. Dies ist vor allem relevant, wenn man bedeutungsverwandte Lexeme unterscheiden möchte. Bezüglich ihrer Auffälligkeit unterscheidet man zwischen markierten und unmarkierten Ausdrücken. Unter unmarkierten Ausdrücken versteht man jene, die in keiner ungewöhnlichen Weise gebraucht werden. Markierte Ausdrücke hingegen sind auf irgendeine Weise besonders; sie gehören beispielsweise einer bestimmten Varietät, Stilschicht oder Sprachverwendungsweise an (Vgl. Adamzik 2016: 297).

2.2. Überblick über die Messmethoden

Das Type-Token-Verhältnis ist die bekannteste Methode, um die Reichhaltigkeit des Wortschatzes zu messen, sowohl bei L1 als auch bei L2-Sprechern. Die Token bezeichnen die Zahl aller vorkommenden Wörter und die Types die Zahl der verschiedenen Wörter; d.h. jedes Wort mit gleicher Gestalt wird nur einmal gezählt. Es werden jedoch auch andere Methoden verwendet; die meisten haben die Eigenschaft, dass es um das Verhältnis der Zahl der Token und der Zahl der Types geht. Eine andere Möglichkeit ist, anstatt von Types die Lemmas zu zählen, das sind jene Wörter die derselben Wortfamilie angehören (z.B. gehen und ging). Eine weitere Variante ist das Zählen der Harpaxes, also der Wörter, die nur einmal im Korpus vorkommen. Token, Types, Lemmas und Harpaxes hängen von der Textlänge ab: Je länger der Text, desto mehr von ihnen kommen vor. Das Problem ist, dass die bisherigen Methoden zur Messung der lexikalischen Diversität nicht immer die gewünschte Reichhaltigkeit des Wortschatzes messen bzw. die Ergebnisse oft verfälscht sind (Vgl. Vermeer 2000: 66ff).

Dennoch ist die Type-Token-Relation immer noch eine sehr gängige Methode. Berechnet wird die TTR indem man die Zahl der Types durch die Zahl der Token dividiert. Der sich ergebende Quotient ist eine Zahl zwischen 0 und 1, welche auch als Prozentsatz angegeben werden kann. Je höher die Zahl oder der Prozentsatz, umso reichhaltiger ist der Wortschatz, denn ein niedriger Wert deutet auf viele Wiederholungen hin (Vgl. Perkuhn et al 2012). Der größte zu erreichende Wert der lexikalischen Diversität ist 1. Dies würde bedeuten, dass jedes Wort nur einmal vorkommt. Die lexikalische Diversität sinkt bei steigender Textlänge. Trotzdem ist sie nicht nur von der Wortanzahl abhängig, sondern auch von der Monotonie des Textes (Vgl. Adamzik 2016: 318). Laut Perkuhn et al (2012) neigen die Werte mit steigender Textlänge dazu, kleiner zu werden, da es mit der Zeit immer schwieriger wird, neue Wörter einzubauen.

Um dem Problem der Textlänge entgegenzuwirken, gibt es als Alternative das Standardisierte Type-Token-Verhältnis (abgekürzt: STTR). Bei dieser Methode wird der gesamte Text segmentiert und die TTR immer für den jeweiligen Abschnitt berechnet. Der STTR-Wert ergibt sich schließlich aus dem Durchschnitt der einzelnen TTR-Werte. Problematisch bei dieser Methode ist, dass am Schluss Wörter übrig bleiben, die nicht mehr ausreichend sind, um ein ganzes Segment zu bilden und somit einfach ignoriert werden. Daher könnten wieder nur STTR-Werte derselben Textlänge verglichen werden, was ebenfalls einen Nachteil darstellt.

Um diesen Schwierigkeiten aus dem Weg zu gehen, wurde eine neue Methode entwickelt: measure of textual lexical diversitiy (abgekürzt: MTLD). Bei dieser Methode wird der Text zwar ebenfalls in Segmente geteilt, doch die Länge kann variieren. Es gilt: Ein Segment ist umso länger, je vielfältiger der in ihm vorkommende Wortschatz ist. Ein Segment endet, sobald die TTR einen zuvor festgelegten Wert unterschreitet. Der einzige Nachteil dieser Methode ist, dass man seine Werte nicht intuitiv charakterisieren kann. TTR-Werte kann man beispielsweise als „Anteil der verschiedenen Token an allen Token“ verstehen und auch so bezeichnen (Vgl. Perkuhn et al 2012).

Den Methoden zur Messung des Wortschatzreichtums werden vor allem zwei Defizite vorgeworfen: Sie gründen auf keiner klaren Theorie, die mit dem Konstrukt der lexikalischen Diversität in Zusammenhang steht und sie können nicht als gültig angesehen werden, wenn es darum geht, die lexikalische Diversität verlässlich zu messen (Vgl. Jarvis 1966: 13). Nach Jarvis (1966: 18) liegt das Problem jedoch nicht in der Methode selbst, sondern in der Passung der Methode zum Konstrukt der lexikalischen Diversität. Scheinbar wisse man zu wenig darüber, um sie geeignet anzupassen. Um eine zielführende Methode zu entwickeln, müsste man alle Dimensionen der lexikalischen Diversität erfassen, verlässliche Methoden für alle Dimensionen entwickeln und diese kombinieren und abgleichen (Vgl. Ebd. S. 22).

2.3. Der Guiraud-Index

Guiraud wollte in Anlehnung an die Gesetze von Zipf ein ähnliches Gesetz für den Wortschatzreichtum aufstellen. Er übernahm die Grundidee von Zipf, Größen in eine Rangfolge zu bringen und ihren Wert daraus abzuschätzen, demnach die Häufigkeit von Wörtern in einem Text zur Rangfolge in Beziehung zu setzen. Als Korpus zog er dafür französische Literatur heran.

Er stellte dafür diese Formel auf: V/ √ N = c

Hierbei steht V für die Zahl der Types, N für die Zahl der Token und c für den Wert der lexikalischen Diversität. Nach Guiraud kann man demnach den Wortschatzreichtum eines Textes berechnen, indem man die Zahl der Types durch die Wurzel der Zahl der Token dividiert.

[...]

Details

Seiten
23
Jahr
2016
ISBN (eBook)
9783668390966
ISBN (Buch)
9783668390973
Dateigröße
665 KB
Sprache
Deutsch
Katalognummer
v352922
Institution / Hochschule
Universität Salzburg
Note
2,00
Schlagworte
verhältnis wortschatzkenntnis diversität äußerungen

Autor

Teilen

Zurück

Titel: Das Verhältnis von Wortschatzkenntnis und lexikalischer Diversität in sprachlichen Äußerungen