Lade Inhalt...

Analyse von Korpora der spanischen Sprache

Hausarbeit (Hauptseminar) 2009 45 Seiten

Romanistik - Spanische Sprache, Literatur, Landeskunde

Leseprobe

Inhalt

Einleitung

1 Womit beschäftigt sich Korpuslinguistik

2 Die Struktur der spanischen Korpora
2.1 Wörterbücher
2.2 Phraseologismen
2.3 Falsche Freunde
2.4 Morphologie
2.5 Literatur
2.6 Syntaktische Korpora
2.7 Volltexte

3 Mögliche Optimierung der Korpora

4 Der Web-Auftritt der spanischen Korpora: Verwendung von Programmiersprachen und Datenbanken
4.1 HTML
4.1.1 HTML-Syntax
4.1.2 HTML - allgemeine Struktur
4.2 ASP
4.2.1 ASP-Syntax
4.3 PHP
4.3.1 PHP-Syntax
4.4 CSS
4.4.1 CSS und HTML
4.4.2 CSS-Anweisungen
4.5 JavaScript
4.5.1 JavaScript-Syntax
4.6 XML
4.7 CMS
4.7.1 Joomla

5 Einsätze der Korpora auf professionellem Gebiet

6 Nützlichkeit der Korpora bei sprachwissenschaftlichen Arbeiten

Zusammenfassung

Literaturverzeichnis

Internetquellen

Einleitung

Das Thema meiner Arbeit ist „Die Analyse von Korpora der spanischen Sprache“. Es wird eine umfangreiche Auswahl von spanischen Korpora präsentiert. Das Ziel der Arbeit besteht darin, spanische Korpora zu analysieren und die Instrumente vorzustellen, mit deren Hilfe diese Korpora erstellt werden.

Bei der Analyse der spanischen Korpora werden nicht nur die linguistische Charakteristik der einzelnen Korpora, sondern auch Metadaten und der konkrete Gebrauch dargestellt. Anschließend werden die Korpora anhand verschiedener Kriterien klassifiziert. Diese Klassifizierung wird helfen, die Korpora im Rahmen derselben Gruppen miteinander zu vergleichen, um festzustellen, welche Eigenschaften die Korpora besitzen und wie sie möglicherweise optimiert werden sollen.

Es wird auch auf den Web-Auftritt der spanischen Korpora eingegangen und die Verwendung von Web-Sprachen, Datenbanken sowie Stilarten vorgeführt. In der Arbeit wird hervorgehoben, welche Vorteile die Entwicklung der Korpuslinguistik für ein professionelles Umfeld und für sprachwissenschaftliche Studiengänge bringt.

Es wird gezeigt, welche Möglichkeiten die Anwendung von Korpora für sprachwissenschaftliche Analysen anbietet.

1 Womit beschäftigt sich Korpuslinguistik

Die Korpuslinguistik ist ein aufstrebender Wissenschaftszweig, der versucht, mit Hilfe von technischen Neuerungen den übergroßen Umfang der Sprachproduktion und deren Komplexität fassbar zu machen und so verlässliche, auf Sprachkorpora basierende Ergebnisse zu erlangen.

In den letzten Jahren hat sich in der Sprachwissenschaft und der Computerlinguistik die Erkenntnis durchgesetzt, dass neben normativen Regelungen der Sprache auch die Aspekte des Sprachgebrauchs ein wesentliches Ziel der Sprachbeschreibung sein müssen. Zu diesem Zweck ist damit begonnen worden, große Textkorpora zu sammeln und für die sprachwissenschaftliche Arbeit zur Verfügung zu stellen.

Diesem Umstand kommt die technologische Entwicklung entgegen, die es mittlerweile gestattet, große Textmengen auf Computern zu speichern und zu verwalten.

Zweck der korpusgestützten Computerlinguistik ist es, den tatsächlichen Sprachgebrauch zu modellieren, die häufig auftretenden Phänomene auch tatsächlich abzudecken und nicht vor lauter Ausnahmen die Regeln zu übersehen. Auf diese Weise wird nicht nur die Qualität der Programme besser, sondern auch ihre Erstellung effektiver.

2 Die Struktur der spanischen Korpora

In den romanisch-sprachigen Ländern wächst das Interesse an Korpuslinguistik. Die Korpora der spanischen Sprache sind auch umfangreich im World Wide Web vertreten.

So findet man verschiedene Korpora des Spanischen wie Digitalbibliotheken, Wörterbücher, Phraseologismen und Regionalismen, syntaktische und grammatische Korpora, regionale Zeitungen und Zeitschriften etc. Phraseologismen und Regionalismen werden bei der Untersuchung von Ideologien und kulturell bedingten Vorstellungen verwendet.

Es werden alle Aspekte des sprachlichen Verhaltens (Phonetik, Intonation, Lexik, Grammatik, Pragmatik etc.) in den spanischen Korpora dargestellt. Angesichts dieser Aspekte werden verschiedenartige spanische Korpora in dieser Arbeit analysiert. Es wird nicht nur eine sprachwissenschaftliche und allgemeine Analyse durchgeführt, sondern auch der Webauftritt von Korpora präsentiert. In nachfolgenden Kapiteln werden die spanischen Korpora klassifiziert und in verschiedene Gruppen (Wörterbücher, Phraseologismen, Falsche Freunde, Morphologie, Literatur, Syntaktische Korpora, Volltexte) aufgeteilt, um genauere Analysen durchzuführen.

2.1 Wörterbücher

http://clave.librosvivos.net/

Abbildung in dieser Leseprobe nicht enthalten

Dieses Korpus ist ein kostenfreies einsprachiges Online-Wörterbuch der Grupo Editorial SM1. Dieses Korpus ist ziemlich umfangreich und seine Größe umfasst ca. 100 000 Lemmata.

Als Probenkorpus bietet es die Satzbeispiele zum konkreten Sprachgebrauch an. Die Darstellung wird in der Form eines Monitorkorpus ausgeprägt, weil das Online- Wörterbuch ständig aktualisiert und ergänzt wird. Es enthält prosodische, morphologische, syntaktische, semantische, etymologische und problemorientierte Annotationen.

Als Sprachmedium ist das Korpus in der Form der geschriebenen Sprache präsentiert. Was zeitlichen Bezug betrifft, wird im Korpus nur Lexikon verwendet, das Gegenwartssprache entspricht.

Das ist ein Referenzkorpus, weil es der Anspruch erhoben wird, auf alle Varietäten der spanischen Sprache einzugehen.

Das Korpus kann bei linguistischen Arbeiten sinnvoll angewendet werden, weil es die Suche nach Wörtern mit bestimmten Affixen ermöglicht, was die Etymologie der Wörter feststellen lässt.

Das Korpus ist in HTML-Sprache mit der Verwendung der ASP-Sprache programmiert und sein Web-Auftritt wird mit Hilfe von framesets2 dargestellt. Das Korpus bietet umfangreiche Recherchemöglichkeiten an, aber mit der Erweiterung der Datenbank, deren Zugriff die ASP-Sprache ermöglicht, wird das Korpus an mehr Effizienz gewinnen.

http://elmundo.es/diccionarios/

Abbildung in dieser Leseprobe nicht enthalten

Das Korpus ist ein kostenfreies mehrsprachiges Online-Wörterbuch der zweitgrößten spanischen Tageszeitung El Mundo. Seine Größe stellt über 203 000 Lemmata dar.

Es handelt sich um ein Probenkorpus, in dem die einzelnen Wörter mit ihren Verwendungen im konkreten Sprachgebrauch angezeigt werden. Die Darstellung wird in Form eines Monitorkorpus ausgeprägt, weil das Online-Wörterbuch immer wieder in unregelmäßigen Abständen aktualisiert und ergänzt wird.

Im Korpus wird nur die geschriebene Sprache verwendet. Auf zeitlicher Ebene arbeitet man in diesem Korpus nur mit Gegenwartssprache. Dies ist auch das Referenzkorpus, in dem besonders die Fachsprache der Medizin berücksichtigt wird.

Das Korpus kann nicht nur bei Übersetzungen ins Englische und Französische sowie umgekehrt genutzt werden, sondern auch bei der Suche nach Wortbedeutungen, Synonymen und Antonymen. Es kann auch das Vorkommen des Wortes in feststehenden Ausdrücken festgestellt und analysiert werden.

Bei der Erstellung des Korpus werden CSS-Design, HTML-Sprache und JavaScript benutzt. Das Korpus besteht aus mehreren Seiten, die ineinander verlinkt sind.

Die mögliche Verbesserung des Korpus könnte darin bestehen, die Datenbanken einzuführen, um seine Pflege zu erleichtern.

http://www.wordreference.com/definicion/fulltext.asp

Abbildung in dieser Leseprobe nicht enthalten

Dieses Korpus ist ein kostenfreies mehrsprachiges Online-Wörterbuch. Seine Größe umfasst über 120 000 Lemmata. WordReference ist eine Webseite mit freien spanischen, italienischen, französischen und englischen Wörterbüchern. Das Lexikon des spanischen Wörterbuches wird ESPASA3 entnommen.

Dies ist ein Probenkorpus, weil es die Satzbeispiele zum konkreten Sprachgebrauch anbietet. Dieses Korpus stellt einen Monitorkorpus dar, weil das Online-Wörterbuch ständig aktualisiert und ergänzt wird.

Das Korpus enthält zusätzliche morphologische Angaben. Was das Sprachmedium betrifft, bildet das Korpus die geschriebene Sprache mit einigen Beispielen zur spanischen Aussprache ab.

Bei zeitlichem Bezug weist das Korpus auf die Gegenwartssprache hin. Das Korpus wird in der Form eines Referenzkorpus ausgeführt und es finden sich auch Hispanoamerikanismen im Wörterbuch.

Das Korpus findet Gebrauch bei Übersetzungen ins Französische, Portugiesische und Englische und auch bei der Suche nach Synonymen, Verbkonjugationen und Angaben zu den Kontexten.

In dem Korpus werden CSS-Design, HTML-Sprache, JavaScript und ASPSprache, mit deren Hilfe auf Datenbank zugegriffen wird, verwendet. Das Korpus kann auf dem linguistischen Niveau verbessert werden, weil der Datenbankzugriff es erlaubt, andere Sprachen einzuführen.

http://www.rae.es/

Abbildung in dieser Leseprobe nicht enthalten

Dieses Korpus wird von der spanischen Sprachakademie Real Academia Española präsentiert, die regelmäßig mehrere Wörterbücher, eine normative Grammatik und Regeln zur Rechtschreibung veröffentlicht.

Gemeinsam mit den 21 Akademien, mit denen sie zusammen die Asociación de Academias de la Lengua Española bildet, arbeitet sie an den Wörterbüchern Diccionario de la lengua española (DRAE) und Diccionario panhispánico de dudas, die nun einen sprachlich übergreifenden Charakter bekommen haben.

Diccionario de la lengua española (DRAE) ist ein Probenkorpus, bei dem allerdings immer auch auf die Quelle verwiesen wird (CREA). Seine Größe umfasst mehr als 17 000 Lemmata. Dieses Korpus ist ein Monitorkorpus, weil das Wörterbuch ständig aktualisiert wird und ergänzt.

Als Sprachmedium wird das Korpus in der Form der geschriebenen Sprache dargestellt.

Bei zeitlichem Bezug weist das Korpus auf die Gegenwartssprache hin. Es ist eine Hierarchie vorhanden, bei der die Texte aus den Jahren 1975-1999 ausgeführt werden.

Das Korpus wird in der Form eines Referenzkorpus dargestellt und es wird der Anspruch erhoben, auf alle Varietäten der spanischen Sprache und auch auf konkrete Beispiele zum Sprachgebrauch einzugehen.

Das Korpus wird bei zahlreichen sprachwissenschaftlichen Forschungsarbeiten angewendet, wie bei der Suche nach Wortbedeutungen, Etymologien, Vorkommen in bestimmten Wendungen, Wortbildungsaffixe, genaue Schreibweise.

Diccionario panhispánico de dudas ist ein Probenkorpus mit Verweisen auf den Korpus der RAE (CREA).

Dieses Korpus verfügt über einen normativen Charakter, weil das Korpus Antworten auf die Fragen zum allgemein üblichen, gebildeten Sprachgebrauch wie Orthografie, Wortschatz und Grammatik enthält.

Das Korpus kann hauptsächlich sprachwissenschaftlich angewendet werden, wie bei der Suche nach umgangssprachlichen Ausdrücken, Klären von Fragen zum korrekten Gebrauch der spanischen Sprache, z. B. Orthografie, Aussprache, Morphologie, Plural, feminine Form, Syntax, Kontext, Fremdwörter und Neologismen.

Das Korpus basiert auf der HTML-Sprache mit Verwendung von JavaScript und sein Design auf der CSS-Sprache. Es wurden keine Programmiersprachen verwendet, die Datenbankzugriff erlauben. Die wichtigsten Seiten wurden einfach ineinander verlinkt. Es wurde auch ein FrontPage4 -Programm bei der Erstellung einzelner Seiten verwendet.

Das CSS-Design kann in dem Korpus verbessert werden, um die Hauptseite des Korpus übersichtlicher zu gestalten. Da es sich in diesem Fall um einen sehr umfangreichen Korpus handelt, könnte ein Datenbankzugriff mit Hilfe von ASPoder PHP-Sprachen auf der ersten Ebene geschaffen werden, um ein höheres Niveau der Datenpflege und Datenstruktur zu erreichen.

http://www.hispanicus.com/drle/index.htm

Abbildung in dieser Leseprobe nicht enthalten

Dieses Korpus ist ein Spezialkorpus der Regionalismen der spanischen Sprache (es wird nur mit der spanischen Sprache in diesem Korpus gearbeitet). Es handelt sich um einen Probenkorpus, der nur Textdateien und keine Volltexte enthält. Die Auswahl von Texten wird von Diccionario de Regionalismos de la Lengua Española, Léxicos Regionales de la Lengua Española, Vocabulario Temático de Regionalismos de la Lengua Española angeboten.

Das Korpus ist ohne Registrierung zugänglich, aber die volle Version ist kostenpflichtig.

Bei zeitlichem Bezug weist das Korpus auf die Gegenwartssprache hin und es wird nur mit geschriebener Sprache gearbeitet.

Das Korpus ist nicht annotiert und statisch, was darauf hinweist, dass es momentan nicht aktualisiert wird.

Das Korpus enthält mehrere Unterseiten und verweist unter anderem auf weitere Web-Seiten, wie z. B. auf Descarga Ebooks.

Bei sprachwissenschaftlichen Arbeiten kann das Korpus sinnvoll eingesetzt werden. Es besteht nicht nur die Möglichkeit, Regionalismen zu erforschen, sondern auch die Suche nach alphabetisch geordneten, nach Themen geordneten oder nach Regionen geordneten Regionalismen durchzuführen.

Bei der Erstellung des Korpus werden CSS-Design, HTML-Sprache und JavaScript benutzt. Das Korpus besteht aus mehreren Seiten, die ineinander verlinkt sind. Im Korpus verwendet man PHP-Sprache, die ihrerseits den Datenbankzugriff erlaubt. Mit der Etablierung eines Datenbankzugriffs könnte das Korpus leistungsfähiger sein.

http://www.academia.org.mx/dicmex.php

Abbildung in dieser Leseprobe nicht enthalten

Das Korpus stellt ein Diccionario Breve de Mexicanismos dar. Seine Größe umfasst 6 200 Lemmata. Dies ist ein Wörterbuch der Academia Mexicana de la Lengua. Als Monitorkorpus wird das Wörterbuch laufend ergänzt und aktualisiert. Bei zeitlichem Bezug wird im Korpus nur auf die Gegenwartssprache zugegriffen.

[...]


1 Herausgeber von Unterrichtsmaterialien und Lehrwerken

2 Ein Frameset ist eine HTML-Datei, die die Aufteilung des Browserfensters in mehrere Frames (Rahmen), in die jeweils eine eigene Datei geladen wird, definiert.

3 Spanische Enzyklopädie

4 Microsoft FrontPage ist ein HTML-Editor, der ein Werkzeug für Webdesign darstellt. Für die Bedienung von Microsoft FrontPage werden keine Programmierkenntnisse vorausgesetzt.

Details

Seiten
45
Jahr
2009
ISBN (Buch)
9783656347903
Dateigröße
9 MB
Sprache
Deutsch
Katalognummer
v207429
Institution / Hochschule
Otto-Friedrich-Universität Bamberg
Note
1,7
Schlagworte
Korpuslinguistik Spanische Sprachwissenschaft Korpora

Autor

Teilen

Zurück

Titel: Analyse von Korpora der spanischen Sprache