You are here: Ressourcen Web>WebHome (09 Nov 2012)
Ressourcen

Die Beteiligten bringen die folgenden Ressourcen in das Netzwerk ein. Darüber hinaus werden in verschiedenen Projekten und Arbeitsgruppen des Netzwerks weitere Ressourcen entwickelt und bestehende Ressourcen erweitert.



1. Korpora und Datensets

1.1 Das BMW-Forum-Korpus

Korpus zur Forenkommunikation, das etwa eine Million Beiträge enthält. Die Beiträge wurden mit Hilfe eigener Skripte tokenisiert, wodurch die Erhaltung von für die IBK-Forschung interessanten Elementen wie Emotikons oder Satzzeichenketten sichergestellt werden konnte. Das Korpus kann – bei vorheriger Anmeldung – online über ein CQP-Interface abgefragt werden https://korpling.german.hu-berlin.de/cqpwi/login.php).

Das BMW-Forum-Korpus wird eingebracht von Anke Lüdeling & Julia Richling .

1.2 Wikipedia-Korpora

Am Ubiquitous Knowledge Processing (UKP) Lab in Darmstadt existiert eine Komplettkopie (Dump) der deutschsprachigen Wikipedia, die mittels des Werkzeugs JWPL (s.u.) erzeugt wurde und unter ftp://ftp.tu-darmstadt.de/pub/tud/informatik/JWPL_data/ auch im Netz zur Verfügung gestellt wird. Der Dump umfasst alle Artikelseiten der Wikipedia in der Version vom 6.2.2007.

Für die Netzwerkarbeit zur Verfügung gestellt werden weiterhin Korpora, die – zusätzlich zu den Artikelseiten – auch die Diskussionsseiten und die Versionengeschichte („revision history“) der deutschsprachigen Wikipedia dokumentieren.

Das Wikipedia-Korpus wird eingebracht von Torsten Zesch .

1.3 CoCoDa (Datenbank zur Computer-Mediated Communication)

Dieses Korpus, das an der WWU Münster unter Leitung von Prof. Dr. Susanne Günthner aufgebaut wird, beinhaltet Diskussionen aus drei verschiedenen Online-Foren seit deren Start in den Jahren 1981, 1986 bzw. 1992 bis heute. Eine Erweiterung auf insgesamt zehn Foren ist für 2010 geplant.

CoCoDa wird eingebracht von Wolfgang Imo .

1.4 Das Dortmunder Chat-Korpus

Das Dortmunder Chat-Korpus umfasst 478 Mitschnitte mit insgesamt 1,06 Millionen laufenden Wortformen mit Daten zu verschiedenen Einsatzformen der Chat-Technologie. Die Mitschnitte sind XML-annotiert: Neben einer einheitlichen Grundstruktur wurden in den Dokumenten ausgewählte chat-typische Stilelemente wie Emotikons, Aktionswörter, Adressierungen und Nicknames ausgezeichnet und unterschiedliche Typen von Teilnehmerbeiträgen unterschieden. Das Korpus steht unter http://www.chatkorpus.tu-dortmund.de zur Verfügung und kann sowohl online genutzt als auch zusammen mit einem Abfragewerkzeug heruntergeladen und offline recherchiert werden.

Das Dortmunder Chat-Korpus wird eingebracht von Michael Beißwenger & Angelika Storrer .

1.5 Das DSA-Korpus

Das DSA (Diskursstrukturanalyse)-Chat-Korpus umfasst zur Zeit 96 Chatlogs, die manuell annotierte Referenzierungen enthalten, mit denen die Bezüge zwischen Beiträgen markiert werden. Das Korpus enthält verschiedene Arten von Chatlogs: Experten-Chats (ein oder mehrere Experten beantworten Fragen oder diskutieren mit dem Publikum: 8-24 Teilnehmer), Themen-Chats (Gruppen diskutieren untereinander ein Thema: 11-117 Teilnehmer), Kleingruppen-Chats (Problemlöse- und Lernchats: 3-9 Teilnehmer) und soziale Chats (öffentliche Webchats: 16-34 Teilnehmer). Das Korpus wird laufend erweitert.

Das DSA-Korpus wird eingebracht von Torsten Holmer .

1.6 Das deWaC-Webkorpus

Das deWaC enthält deutsche Webseiten im Gesamtumfang von mehr als 1,5 Milliarden Wörtern, die im Jahr 2005 archiviert wurden (Baroni et al. 2009). Es liegt am Institut für Kognitionswissenschaft (IKW) der Universität Osnabrück in einer automatisch mit Wortarten annotierten Version vor und kann dort mit dem linguistischen Suchwerkzeug CQP interaktiv abgefragt werden. Zur Zeit wird in Kooperation mit dem CIMeC?, Universität Trento eine aktualisierte Version des Korpus erstellt, in die auch aktuelle Arbeiten zur Verbesserung automatischer Bereinigungs- und Annotierungsverfahren (Giesbrecht & Evert 2009) einfließen.

Das Korpus wird eingebracht von Stefan Evert .

1.7 Transkriptkorpus zur Kommunikationsteilhabe beim Chatten

Das Korpus beinhaltet multimodale Beobachtungsdaten zur Kommunikationsteilhabe beim Chatten und wurde im Rahmen des Dissertationsprojekts „Sprachhandlungskoordination in der Chat-Kommunikation“ erhoben (vgl. Beißwenger 2007). Es umfasst 25 Std. 13 Minuten an Screen Capturing-Daten, die für den Zeitraum der Chat-Teilnahme eines Chatters sämtliche Schnittstellenmanipulationen (Tastatureingaben und Mausaktivitäten) als Bewegtbild-Aufzeichnung wiedergeben, sowie 28 Std. 43 Minuten an Videoaufzeichnungen, die die Gesichtspartie der einzelnen Chatter (insbes. das Blickrichtungsverhalten) dokumentieren. Die Daten wurden im Rahmen eines experimentellen Settings für 32 Teilnehmer/-innen an 18 Chats mit einer Länge von insgesamt 11 Std. 26 Minuten erhoben. Die Schnittstellenmanipulationen und das Blickrichtungsverhalten von insgesamt 17 Proband/-innen liegen in für Analysezwecke angefertigten Transkripten vor. Vier Volltrans­kripte stehen unter http://www.michael-beisswenger.de/sprachhandlungskoordination/ im Netz zur Verfügung.

Das Korpus wird eingebracht von Michael Beißwenger .

2) Werkzeuge und Verfahren

2.1 Annis (Annotation of Information Structure)

Annis ist eine Suchmaschine für Mehrebenen-Korpora, die im Rahmen des SFB 632 „Informationsstruktur: Die sprachlichen Mittel der Gliederung von Äußerung, Satz und Text“ entwickelt wurde und deren Visualisierungsmöglichkeiten von der Anzeige von Syntaxbäumen bis hin zu Video- und Audiodateien reichen. Das Projekt wird fortlaufend an die speziellen Bedürfnisse der zugänglich gemachten Korpora angepasst. URL: http://www.sfb632.uni-potsdam.de/d1/annis/

Annis wird eingebracht von Anke Lüdeling & Julia Richling .

2.2 ChatLine

ChatLine ist eine Software für Import, Referenzierung, Analyse und Visualisierung von Diskursstrukturen in Chatlogs, die bereits in mehreren DFG-Projekten zur Analyse der Kommunikationsstrukturen eingesetzt wurde.

ChatLine wurde entwickelt und wird eingebracht von Torsten Holmer .

2.3 NCleaner

Einfaches und effizientes Werkzeug zur Bereinigung von Webseiten für linguistische Zwecke. NCleaner wird in Kooperation mit Egon Stemle, M.Sc. (CIMeC, Universität Trento) weiterentwickelt und an neue Textsorten angepasst.

URL: http://webascorpus.sourceforge.net/ (unter „Software“)

NCleaner wird eingebracht von Stefan Evert .

2.4 IMS Open Corpus Workbench

Software zu Indexierung und Abfrage großer Textkorpora. Mit dem Suchwerkzeug CQP können umfangreiche Sammlungen von Web-Texten (wie z.B. das deWaC-Korpus) nach linguistischen Mustern durchsucht werden. Zusätzliche Werkzeuge unterstützen die Extraktion von Häufigkeitsdaten, die z.B. für die Entwicklung automatischer Lemmatisierungs- und Taggingverfahren eine wichtige Rolle spielen.

URL: http://cwb.sourceforge.net/

Die IMS Open Corpus Workbench wird eingebracht von Stefan Evert .

2.5 Apache UIMA Tagger

Apache UIMA Tagger ist ein Werkzeug zur automatischen Wortartenannotierung. Der Tagger wurde als eine UIMA-Komponente von Eugenie Giesbrecht entwickelt und wird in Kooperation mit Stefan Evert an IBK angepasst und als Tagger für Web-Daten weiterentwickelt (-> Projekt "Automatisches Part-of-speech-Tagging für die schriftliche internetbasierte Kommunikation").

URL: http://incubator.apache.org/uima/sandbox.html#tagger.annotator

Der Apache UIMA Tagger wird eingebracht von Eugenie Giesbrecht .

2.6 JWPL

Schnittstelle, anhand derer für jedes beliebige Datum seit Start des Wikipedia-Projekts Komplettkopien des Wikipedia-Seitenbestands erzeugt werden können (http://www.ukp.tu-darmstadt.de/software/jwpl/).

JWPL wird eingebracht von Torsten Zesch .

2.7 DKPro

DKPro (Darmstadt Knowledge Processing Software Repository) ist eine Sammlung von interoperablen UIMA-Komponenten zur Verarbeitung von IBK (http://www.ukp.tu-darmstadt.de/software/dkpro/ ).

DKPro wird eingebracht von Torsten Zesch .

Topic revision: r9 - 09 Nov 2012 - 08:50:26 - TorstenZesch
 
Empirikom - Impressum