Einführung in die Statistik der Textdateien
Im April 2001 veröffentlichte ich erstmals mein Webangebot. Schon
zwei Monate später keimte in mir der Gedanke, das Webangebot einer
statistischen Untersuchung zu unterziehen. Leider gingen bis 2009 einige
Daten, die ich bereits gespeichert (aber noch nicht veröffentlicht)
hatte, verloren, so daß es erst ab 2009 zu einer zeitlich verdichteteren
Datensammlung kommen konnte.
Um eine Struktur für die Textdateien zu bekommen, ordnetete ich
sie zunächst bestimmten Kategorien zu: 1.
Grad, 2. Grad, 3.
Grad, 4. Grad, Zitate,
Verzeichnisse, Navigatoren,
Rest. Diese Zuordnung wurde nicht nur
nach subjektiven, sondern auch nach objektiven Kriterien getroffen, z.B.
orientiert an der Frage nach den Zugriffsmöglichkeiten auf
die Textdateien (diesem Aspekt gab ich den Namen Zugriff).
der Bedeutung für Natur, Kultur, Technik, Wissenschaft, Wirtschaft,
Politik, Kunst, insbesondere bezüglich deren Entwicklungen (Evolution/Geschichte)
und der Theoriebiuldung (diesem Aspekt gab ich den Namen Bedeutung)
oder einem Mix aus beidem (diesen Aspekt gab ich dem Namen Zugriff/Bedeutung-Mix).
Des weiteren stellte sich die Frage nach den Beziehungen der Textadateien
zueinander und zu deren Kategorien sowie auch und immer mehr der Kategerien
zueinander.
Nach ich die diachronen (historischen) Daten mit dem Titel Veränderungen
seit April 2001 von den synchronen (aktuellen) Daten getrennt hatte
erschein mir jene Trennung innerhalb dieser, die den eben schon erwähnten
Zusammenhang mit den Aspekten berücksichtigt, sehr sinnvoll zu sein,
bevor ich diese Beziehungen (wieder) in die Statistik integrierte: Anzahl
und Größe einerseits und Verweise
und Anker andererseits, weil ich bei der Erstellung der Statistik
von den vier Datenmerkmalen Anzahl, Größe, Linkanzahl, Ankeranzahl
ausging und auch deren Beziehungen untereinander untersuchen wollte.
Sehr angetan war ich dabei von der Idee, daß jede oder fast jede
Verteilung der Textdateien und Textadateienkategorien eine Pareto-Verteilung
(20/80-Regel) beinhalte, weshalb ich jeden Aspekt und jedes
Datenmerkmal daraufhin überprüfte, wie sich an den Exkursen
2 und 3 besonders gut erkennen läßt. Zwar läßt sich
die Pareto-Verteilung vorschnell und leichtfertig in alles
hineindeuten, aber als Tendenz ist sie tatsächlich in vielen Phänomenen
enthalten. Für mein Internetangebot sollte sich bezüglich der
Aspekte heraustellen, daß die Pareto-Verteilung am meisten
auf die Aspekte Bedeutung (),
Zugriff (),
Zugriff/Bedeutung-Mix ()
und Textdateien-Seitenverweise-Verhältnis (),
etwas weniger bezüglich des Aspekt Anzahl und Größe
von der »Größendurchschnittstextdatei« aus gesehen
()
und am wenigsten auf den Aspekt Anzahl-Größe-Verhältnis
()
zutrifft ().
Was die Verweise als Datenmerkmal angeht, so sollte sich herausstellen,
daß es gleich mehrere Verhältnisse gibt, die darauf schließen
lassen, daß hier eine Pareto-Verteilung gegeben ist,
z.B.das der internen und externen zu allen Links
(),
wenn vorausgesetzt wird, daß interne Links ein Indiz dafür
seien, daß externe Links auf sie bzw. die sie beherbergenden
Textdateien verweisen, oder das der Anker zu den externen Links (),
wenn vorausgesetzt wird, daß Anker ein Indiz dafür seien, daß
externe Links auf sie bzw. die sie beherbergenden Textdateien verweisen.
Eröffnungsbilanz
(Muster)
Aktiva | |
I) | AV: Datenmerkmal Anzahl und
Größe | | II) | UV:
Datenmerkmal Link- und Ankeranzahl | | | | | |
| | Summe: | | |
| | | | |
| | | | |
| | Passiva |
| I) | EK:
Aspekte T. o. L. u. A. | | II) | FK:
Aspekte T. m. L. u. A. | | | | | |
| | Summe: | | |
| | | | |
| | | | |
|
|