Statistische Auswertungen der Archiv-Bestände zielen zum einen auf die Darstellung der Umfänge der Bestandteile, zum anderen dienen sie zur Analyse des Materials. Als Beispiel dafür werden hier die 100 häufigsten Wortformen präsentiert.
In dieser Tabelle werden zwar alle digital dokumentierten Korpora des DSAv aufgeführt, aber nur die Materialien berücksichtigt, die schon in digitalisierter Form (nach den Konventionen des DSAv) vorliegen.
| Korpus | Aufnahmen | Transkripte | |||||||||||
| Anzahl | Dauer | Anzahl | Umfang | ||||||||||
| Wörter | Wortformen | kB | |||||||||||
| Summe Mittel |
min max |
Summe Mittel |
min max |
Summe Mittel |
min max |
Summe Mittel |
min max |
||||||
| BA | Brasiliendeutsche Mundarten | ||||||||||||
| BB | Deutsche Mundarten: Kreis Böblingen | ||||||||||||
| BG | Beratungsgespräche | ||||||||||||
| BR | Biographische und Reiseerzählungen | 7 | 5h 29m 56s 47m 08s |
23m 15s 1h 46m 54s |
|||||||||
| DR | Deutsche Mundarten: DDR | ||||||||||||
| DS | Dialogstrukturen | 71 | 15h 18m 49s 12m 56s |
1m 40s 1h 00m 53s |
72 | 162.540 2.258 |
179 11.526 |
14.709 630 |
108 2.085 |
758 11 |
1 53 |
||
| FR | Grundstrukturen: Freiburger Korpus | 222 | 68h 06m 18s 18m 24s |
0m 37s 1h 53m 27s |
221 | 593.335 2.685 |
150 16.001 |
39.889 743 |
83 2.925 |
3.104 14 |
1 90 |
||
| GF | Gespräche im Fernsehen: Talkshows, Diskussionen, Interviews |
||||||||||||
| HE | Deutsche Mundarten: Herforder Korpus | ||||||||||||
| HL | Deutsche Hochlautung | ||||||||||||
| IS | Emigrantendeutsch in Israel | 124 | 209h 28m 23s 1h 41m 21s |
21m 04s 5h 08m 49s |
15 | 220.922 14.728 |
9.288 22.754 |
15.321 2.405 |
1.579 3.451 |
1.061 71 |
45 108 |
||
| KO | Deutsche Standardsprache: König‑Korpus | 44 | 71h 17m 12s 1h 37m 13s |
1h 02m 18s 2h 07m 11s |
|||||||||
| MA | Stadtsprache: Mannheim | ||||||||||||
| MV | Binnen- und auslandsdeutsche Mundarten: Varia | ||||||||||||
| NA | Deutsch in Nordamerika | ||||||||||||
| OS | Deutsche Mundarten: ehemalige deutsche Ostgebiete | 982 | 462h 05m 09s 28m 14s |
5m 20s 1h 15m 58s |
280 | 832.740 2.974 |
703 5.908 |
27.978 719 |
289 1.163 |
3.807 14 |
3 28 |
||
| PF | Deutsche Umgangssprachen: Pfeffer‑Korpus | 398 | 79h 13m 42s 11m 57s |
6m 08s 37m 04s |
398 | 645.540 1.622 |
664 4.752 |
42.075 559 |
306 1.469 |
3.200 8 |
4 24 |
||
| RS | Russlanddeutsche Mundarten | ||||||||||||
| RU | Rumäniendeutsche Mundarten | ||||||||||||
| SA | Kindersprache: Saarbrücker Korpus | 48 | 4h 32m 17s 5m 40s |
1m 29s 13m 34s |
|||||||||
| SG | Schlichtungs- und Gerichtsverhandlungen | 1 | 38m 59s 38m 59s |
38m 59s 38m 59s |
1 | 7.236 7.236 |
7.236 7.236 |
1.686 1.686 |
1.686 1.686 |
34 34 |
34 34 |
||
| SR | Slawische Mundarten im Ruhrgebiet | ||||||||||||
| SV | Deutsche Mundarten: Südwestdeutschland und Vorarlberg | ||||||||||||
| SW | Deutsche Mundarten: Schwarzwald | ||||||||||||
| WA | Wandel im gesprochenen Deutsch | ||||||||||||
| WE | Deutsche Mundarten: Wenkersätze | 954 | 115h 57m 43s 7m 18s |
2m 48s 16m 02s |
|||||||||
| ZW | Deutsche Mundarten: Zwirner‑Korpus | 5.767 | 1076h 55m 50s 11m 12s |
1m 22s 1h 15m 42s |
2.134 | 3.292.132 1.543 |
130 8.564 |
85.841 467 |
81 1.284 |
15.072 7 |
1 38 |
||
Anzahl : |
DSAv‑Summe : |
DSAv‑min : |
8.618 | 2109h 4m 18s 14m 41s |
0m 37s 5h 8m 49s |
3.121 | 5.754.445 1.844 |
130 22.754 |
145.995 * 534 * |
81 3.451 |
27.037 9 |
1 108 |
|
| Dauer | wird gemessen in Stunden, Minuten und Sekunden (##h ##m ##s). | |
| Wörter | = | tokens (= „Zeichenfolgen“). |
| Wortformen | = | types (= „Zeichenmuster“). |
| Eine Lemmatisierung liegt nicht vor, deshalb werden hier flektierte Formen nicht identifiziert, sondern jeweils als eigene Wortform gezählt. Außerdem werden hier Wörter in Gross- und Kleinschreibung nicht unterschieden. Da keine Lemmatisierung vorliegt, lassen sich dann die typischen Verwechslungen „unfreiwilliger“ Homographen nicht vermeiden: „Der Gefangene floh!“ => „der gefangene floh“ <= „der gefangene Floh“. | ||
| kB | = | Kilo-Byte (= 1000 Zeichen). Hier werden nur die Buchstaben der Wörter als Zeichen gezählt, mit denen das Gesprochene verschriftlicht wurde. Leer- und Satzzeichen oder Zeichen zur Kodierung von Annotationen oder der Transkriptstruktur (Sprecher-Siglen usw.) werden nicht mitgezählt. |
| Summe | = | Summe über alle Aufnahmen bzw. Transkripte eines Korpus. |
| DSAv‑Summe | = | Summe über alle Aufnahmen bzw. Transkripte aller Korpora. |
| * | Die Anzahl aller Wortformen in allen Transkripten eines Korpus ist wegen des häufigen Gebrauchs bestimmter Wörter, die in vielen Interaktionen verwendet werden, für das Korpus insgesamt aber nur einmal zu zählen sind, normalerweise sehr viel kleiner als die über alle Transkripte des Korpus summierten Anzahlen der Wortformen jedes Transkripts. | |
| Mittel | = | Korpus‑Mittelwert = durchschnittlicher, mittlerer Wert für alle Aufnahmen bzw. Transkripte eines Korpus. |
| DSAv‑Mittel | = | Archiv‑Mittelwert = durchschnittlicher, mittlerer Wert für alle Aufnahmen bzw. Transkripte aller Korpora. |
| min | = | minimaler Wert für alle Aufnahmen bzw. Transkripte aus einem Korpus. |
| DSAv‑min | = | minimaler Wert für alle Aufnahmen bzw. Transkripte aus allen Korpora. |
| max | = | maximaler Wert für alle Aufnahmen bzw. Transkripte aus einem Korpus. |
| DSAv‑max | = | maximaler Wert für alle Aufnahmen bzw. Transkripte aus allen Korpora. |