Korpora des gesprochenen Deutsch

Statistik digitalisierter Materialien

Statistische Auswertungen der Archiv-Bestände zielen zum einen auf die Darstellung der Umfänge der Bestandteile, zum anderen dienen sie zur Analyse des Materials. Als Beispiel dafür werden hier die 100 häufigsten Wortformen präsentiert.

In dieser Tabelle werden zwar alle digital dokumentierten Korpora des DSAv aufgeführt, aber nur die Materialien berücksichtigt, die schon in digitalisierter Form (nach den Konventionen des DSAv) vorliegen.

Korpus Aufnahmen Transkripte
Anzahl Dauer Anzahl Umfang
Wörter Wortformen kB
Summe
Mittel
min
max
Summe
Mittel
min
max
Summe
Mittel
min
max
Summe
Mittel
min
max
BA Brasiliendeutsche Mundarten  

 





BB Deutsche Mundarten: Kreis Böblingen  

 





BG Beratungsgespräche  

 





BR Biographische und Reiseerzählungen  7 5h 29m 56s
47m 08s
23m 15s
1h 46m 54s
 





DR Deutsche Mundarten: DDR  

 





DS Dialogstrukturen  71 15h 18m 49s
12m 56s
1m 40s
1h 00m 53s
 72 162.540
2.258
179
11.526
14.709
630
108
2.085
758
11
1
53
FR Grundstrukturen: Freiburger Korpus  222 68h 06m 18s
18m 24s
0m 37s
1h 53m 27s
 221 593.335
2.685
150
16.001
39.889
743
83
2.925
3.104
14
1
90
GF Gespräche im Fernsehen:
Talkshows, Diskussionen, Interviews
 

 





HE Deutsche Mundarten: Herforder Korpus  

 





HL Deutsche Hochlautung  

 





IS Emigrantendeutsch in Israel  124 209h 28m 23s
1h 41m 21s
21m 04s
5h 08m 49s
 15 220.922
14.728
9.288
22.754
15.321
2.405
1.579
3.451
1.061
71
45
108
KO Deutsche Standardsprache: König‑Korpus  44 71h 17m 12s
1h 37m 13s
1h 02m 18s
2h 07m 11s
 





MA Stadtsprache: Mannheim  

 





MV Binnen- und auslandsdeutsche Mundarten: Varia  

 





NA Deutsch in Nordamerika  

 





OS Deutsche Mundarten: ehemalige deutsche Ostgebiete  982 462h 05m 09s
28m 14s
5m 20s
1h 15m 58s
 280 832.740
2.974
703
5.908
27.978
719
289
1.163
3.807
14
3
28
PF Deutsche Umgangssprachen: Pfeffer‑Korpus  398 79h 13m 42s
11m 57s
6m 08s
37m 04s
 398 645.540
1.622
664
4.752
42.075
559
306
1.469
3.200
8
4
24
RS Russlanddeutsche Mundarten  

 





RU Rumäniendeutsche Mundarten  

 





SA Kindersprache: Saarbrücker Korpus  48 4h 32m 17s
5m 40s
1m 29s
13m 34s
 





SG Schlichtungs- und Gerichtsverhandlungen  1 38m 59s
38m 59s
38m 59s
38m 59s
 1 7.236
7.236
7.236
7.236
1.686
1.686
1.686
1.686
34
34
34
34
SR Slawische Mundarten im Ruhrgebiet  

 





SV Deutsche Mundarten: Südwestdeutschland und Vorarlberg  

 





SW Deutsche Mundarten: Schwarzwald  

 





WA Wandel im gesprochenen Deutsch  

 





WE Deutsche Mundarten: Wenkersätze  954 115h 57m 43s
7m 18s
2m 48s
16m 02s
 





ZW Deutsche Mundarten: Zwirner‑Korpus  5.767 1076h 55m 50s
11m 12s
1m 22s
1h 15m 42s
 2.134 3.292.132
1.543
130
8.564
85.841
467
81
1.284
15.072
7
1
38

 Anzahl :  

 DSAv‑Summe :  
 DSAv‑Mittel :  

 DSAv‑min :  
 DSAv‑max :  

 8.618 2109h 4m 18s
14m 41s
0m 37s
5h 8m 49s
 3.121 5.754.445
1.844
130
22.754
145.995 *
534 *
81
3.451
27.037
9
1
108

Legende

Dauerwird gemessen in Stunden, Minuten und Sekunden (##h ##m ##s).
Wörter=tokens (= „Zeichenfolgen“).
Wortformen=types (= „Zeichenmuster“).
Eine Lemmatisierung liegt nicht vor, deshalb werden hier flektierte Formen nicht identifiziert, sondern jeweils als eigene Wortform gezählt.
Außerdem werden hier Wörter in Gross- und Kleinschreibung nicht unterschieden. Da keine Lemmatisierung vorliegt, lassen sich dann die typischen Verwechslungen „unfreiwilliger“ Homographen nicht vermeiden: „Der Gefangene floh!“ => „der gefangene floh“ <= „der gefangene Floh“.
kB=Kilo-Byte (= 1000 Zeichen). Hier werden nur die Buchstaben der Wörter als Zeichen gezählt, mit denen das Gesprochene verschriftlicht wurde.
Leer- und Satzzeichen oder Zeichen zur Kodierung von Annotationen oder der Transkriptstruktur (Sprecher-Siglen usw.) werden nicht mitgezählt.
Summe=Summe über alle Aufnahmen bzw. Transkripte eines Korpus.
DSAv‑Summe=Summe über alle Aufnahmen bzw. Transkripte aller Korpora.
*Die Anzahl aller Wortformen in allen Transkripten eines Korpus ist wegen des häufigen Gebrauchs bestimmter Wörter, die in vielen Interaktionen verwendet werden, für das Korpus insgesamt aber nur einmal zu zählen sind, normalerweise sehr viel kleiner als die über alle Transkripte des Korpus summierten Anzahlen der Wortformen jedes Transkripts.
Mittel=Korpus‑Mittelwert = durchschnittlicher, mittlerer Wert für alle Aufnahmen bzw. Transkripte eines Korpus.
DSAv‑Mittel=Archiv‑Mittelwert = durchschnittlicher, mittlerer Wert für alle Aufnahmen bzw. Transkripte aller Korpora.
min=minimaler Wert für alle Aufnahmen bzw. Transkripte aus einem Korpus.
DSAv‑min=minimaler Wert für alle Aufnahmen bzw. Transkripte aus allen Korpora.
max=maximaler Wert für alle Aufnahmen bzw. Transkripte aus einem Korpus.
DSAv‑max=maximaler Wert für alle Aufnahmen bzw. Transkripte aus allen Korpora.


  ©  1999-2006  IDS, Mannheim,  Impressum,  E-Mail:  DSAv@IDS-Mannheim.de,   generiert am: 2006-02-24