Ich gebe gerne zu, in der Mathematik habe ich den Ball immer eher flach gehalten und war selten über der Note vier. Dementsprechend brauche ich jetzt ein paar zweckdienliche Hinweise zur statistischen Auswertung meiner Datensätze.

Die Ausgangslage ist, dass wir einen Satz Bücher haben und in unserem Projekt feststellen sollten, wie viele Personenstunden das Scannen und zu durchsuchbaren PDFs konvertierenden derselbigen benötigen würde.

Die Bestände können grob in zwei Kategorien geteilt werden: Bestände vor ca. 1950, und Bestände, die danach gedruckt wurden. Die Einteilung ist insofern sinnvoll, wie vor den 1950er noch sehr of anscheinend nicht digital verfügbare Antiqua- und Frakturartige Typen verwendet wurden. Diese werden von uns nur gescannt und nachgeschönt und dann an eine weitere Stelle weitergereicht. Alles andere wird von Anfang bis ans Ende in unserer Abteilung bearbeitet.

Die von uns erstellten Datensätze enthalten dementsprechend gescannte Seitenzahl, benötigte Zeit bis zum durchsuchbaren PDF und Schrifttyp. Die Frage ist nun, welche statistischen Werte und Berechnungen (Mittel, Streuungsparameter bzw induktive Ableitungen aus denselbigen) sinnvoll sind.