Ressourcen
Die Beteiligten bringen die folgenden Ressourcen in das Netzwerk ein. Darüber hinaus werden in verschiedenen
Projekten und
Arbeitsgruppen des Netzwerks weitere Ressourcen entwickelt und bestehende Ressourcen erweitert.
1. Korpora und Datensets
1.1 Das BMW-Forum-Korpus
Korpus zur Forenkommunikation, das etwa eine Million Beiträge enthält. Die Beiträge wurden mit Hilfe eigener Skripte tokenisiert, wodurch die Erhaltung von für die IBK-Forschung interessanten Elementen wie Emotikons oder Satzzeichenketten sichergestellt werden konnte. Das Korpus kann – bei vorheriger Anmeldung – online über ein CQP-Interface abgefragt werden https://korpling.german.hu-berlin.de/cqpwi/login.php).
Das BMW-Forum-Korpus wird eingebracht von Anke Lüdeling & Julia Richling .
1.2 Wikipedia-Korpora
Am Ubiquitous Knowledge Processing (UKP) Lab in Darmstadt existiert eine Komplettkopie (Dump) der deutschsprachigen
Wikipedia, die mittels des Werkzeugs JWPL (s.u.) erzeugt wurde und unter
ftp://ftp.tu-darmstadt.de/pub/tud/informatik/JWPL_data/ auch im Netz zur Verfügung gestellt wird. Der Dump umfasst alle Artikelseiten der
Wikipedia in der Version vom 6.2.2007.
Für die Netzwerkarbeit zur Verfügung gestellt werden weiterhin Korpora, die – zusätzlich zu den Artikelseiten – auch die Diskussionsseiten und die Versionengeschichte („revision history“) der deutschsprachigen
Wikipedia dokumentieren.
Das Wikipedia-Korpus wird eingebracht von Torsten Zesch .
1.3 CoCoDa (Datenbank zur Computer-Mediated Communication)
Dieses Korpus, das an der WWU Münster unter Leitung von Prof. Dr. Susanne Günthner aufgebaut wird, beinhaltet Diskussionen aus drei verschiedenen Online-Foren seit deren Start in den Jahren 1981, 1986 bzw. 1992 bis heute. Eine Erweiterung auf insgesamt zehn Foren ist für 2010 geplant.
CoCoDa wird eingebracht von Wolfgang Imo .
1.4 Das Dortmunder Chat-Korpus
Das Dortmunder Chat-Korpus umfasst 478 Mitschnitte mit insgesamt 1,06 Millionen laufenden Wortformen mit Daten zu verschiedenen Einsatzformen der Chat-Technologie. Die Mitschnitte sind XML-annotiert: Neben einer einheitlichen Grundstruktur wurden in den Dokumenten ausgewählte chat-typische Stilelemente wie Emotikons, Aktionswörter, Adressierungen und Nicknames ausgezeichnet und unterschiedliche Typen von Teilnehmerbeiträgen unterschieden. Das Korpus steht unter
http://www.chatkorpus.tu-dortmund.de zur Verfügung und kann sowohl online genutzt als auch zusammen mit einem Abfragewerkzeug heruntergeladen und offline recherchiert werden.
Das Dortmunder Chat-Korpus wird eingebracht von Michael Beißwenger & Angelika Storrer .
1.5 Das DSA-Korpus
Das DSA (Diskursstrukturanalyse)-Chat-Korpus umfasst zur Zeit 96 Chatlogs, die manuell annotierte Referenzierungen enthalten, mit denen die Bezüge zwischen Beiträgen markiert werden. Das Korpus enthält verschiedene Arten von Chatlogs: Experten-Chats (ein oder mehrere Experten beantworten Fragen oder diskutieren mit dem Publikum: 8-24 Teilnehmer), Themen-Chats (Gruppen diskutieren untereinander ein Thema: 11-117 Teilnehmer), Kleingruppen-Chats (Problemlöse- und Lernchats: 3-9 Teilnehmer) und soziale Chats (öffentliche Webchats: 16-34 Teilnehmer). Das Korpus wird laufend erweitert.
Das DSA-Korpus wird eingebracht von Torsten Holmer .
1.6 Das deWaC-Webkorpus
Das deWaC enthält deutsche Webseiten im Gesamtumfang von mehr als 1,5 Milliarden Wörtern, die im Jahr 2005 archiviert wurden (Baroni et al. 2009). Es liegt am Institut für Kognitionswissenschaft (IKW) der Universität Osnabrück in einer automatisch mit Wortarten annotierten Version vor und kann dort mit dem linguistischen Suchwerkzeug CQP interaktiv abgefragt werden. Zur Zeit wird in Kooperation mit dem CIMeC?, Universität Trento eine aktualisierte Version des Korpus erstellt, in die auch aktuelle Arbeiten zur Verbesserung automatischer Bereinigungs- und Annotierungsverfahren (Giesbrecht & Evert 2009) einfließen.
Das Korpus wird eingebracht von Stefan Evert .
1.7 Transkriptkorpus zur Kommunikationsteilhabe beim Chatten
Das Korpus beinhaltet multimodale Beobachtungsdaten zur Kommunikationsteilhabe beim Chatten und wurde im Rahmen des Dissertationsprojekts „Sprachhandlungskoordination in der Chat-Kommunikation“ erhoben (vgl. Beißwenger 2007). Es umfasst 25 Std. 13 Minuten an Screen Capturing-Daten, die für den Zeitraum der Chat-Teilnahme eines Chatters sämtliche Schnittstellenmanipulationen (Tastatureingaben und Mausaktivitäten) als Bewegtbild-Aufzeichnung wiedergeben, sowie 28 Std. 43 Minuten an Videoaufzeichnungen, die die Gesichtspartie der einzelnen Chatter (insbes. das Blickrichtungsverhalten) dokumentieren. Die Daten wurden im Rahmen eines experimentellen Settings für 32 Teilnehmer/-innen an 18 Chats mit einer Länge von insgesamt 11 Std. 26 Minuten erhoben. Die Schnittstellenmanipulationen und das Blickrichtungsverhalten von insgesamt 17 Proband/-innen liegen in für Analysezwecke angefertigten Transkripten vor. Vier Volltranskripte stehen unter http://www.michael-beisswenger.de/sprachhandlungskoordination/ im Netz zur Verfügung.
Das Korpus wird eingebracht von Michael Beißwenger .
2) Werkzeuge und Verfahren
2.1 Annis (Annotation of Information Structure)
Annis ist eine Suchmaschine für Mehrebenen-Korpora, die im Rahmen des SFB 632 „Informationsstruktur: Die sprachlichen Mittel der Gliederung von Äußerung, Satz und Text“ entwickelt wurde und deren Visualisierungsmöglichkeiten von der Anzeige von Syntaxbäumen bis hin zu Video- und Audiodateien reichen. Das Projekt wird fortlaufend an die speziellen Bedürfnisse der zugänglich gemachten Korpora angepasst. URL:
http://www.sfb632.uni-potsdam.de/d1/annis/
Annis wird eingebracht von
Anke Lüdeling &
Julia Richling .
2.2 ChatLine
ChatLine ist eine Software für Import, Referenzierung, Analyse und Visualisierung von Diskursstrukturen in Chatlogs, die bereits in mehreren DFG-Projekten zur Analyse der Kommunikationsstrukturen eingesetzt wurde.
ChatLine wurde entwickelt und wird eingebracht von
Torsten Holmer .
2.3 NCleaner
Einfaches und effizientes Werkzeug zur Bereinigung von Webseiten für linguistische Zwecke. NCleaner wird in Kooperation mit Egon Stemle, M.Sc. (CIMeC, Universität Trento) weiterentwickelt und an neue Textsorten angepasst.
URL:
http://webascorpus.sourceforge.net/ (unter „Software“)
NCleaner wird eingebracht von
Stefan Evert .
2.4 IMS Open Corpus Workbench
Software zu Indexierung und Abfrage großer Textkorpora. Mit dem Suchwerkzeug CQP können umfangreiche Sammlungen von Web-Texten (wie z.B. das deWaC-Korpus) nach linguistischen Mustern durchsucht werden. Zusätzliche Werkzeuge unterstützen die Extraktion von Häufigkeitsdaten, die z.B. für die Entwicklung automatischer Lemmatisierungs- und Taggingverfahren eine wichtige Rolle spielen.
URL:
http://cwb.sourceforge.net/
Die
IMS Open Corpus Workbench wird eingebracht von
Stefan Evert .
2.5 Apache UIMA Tagger
Apache UIMA Tagger ist ein Werkzeug zur automatischen Wortartenannotierung. Der Tagger wurde als eine UIMA-Komponente von Eugenie Giesbrecht entwickelt und wird in Kooperation mit
Stefan Evert an IBK angepasst und als Tagger für Web-Daten weiterentwickelt (-> Projekt "
Automatisches Part-of-speech-Tagging für die schriftliche internetbasierte Kommunikation").
URL:
http://incubator.apache.org/uima/sandbox.html#tagger.annotator
Der
Apache UIMA Tagger wird eingebracht von
Eugenie Giesbrecht .
2.6 JWPL
Schnittstelle, anhand derer für jedes beliebige Datum seit Start des
Wikipedia-Projekts Komplettkopien des Wikipedia-Seitenbestands erzeugt werden können (
http://www.ukp.tu-darmstadt.de/software/jwpl/).
JWPL wird eingebracht von
Torsten Zesch .
2.7 DKPro
DKPro (Darmstadt Knowledge Processing Software Repository) ist eine Sammlung von interoperablen UIMA-Komponenten zur Verarbeitung von IBK (
http://www.ukp.tu-darmstadt.de/software/dkpro/ ).
DKPro wird eingebracht von
Torsten Zesch .