Statistik what do

**Ianus** · 07.08.2013 21:13

Ich gebe gerne zu, in der Mathematik habe ich den Ball immer eher flach gehalten und war selten über der Note vier. Dementsprechend brauche ich jetzt ein paar zweckdienliche Hinweise zur statistischen Auswertung meiner Datensätze.

Die Ausgangslage ist, dass wir einen Satz Bücher haben und in unserem Projekt feststellen sollten, wie viele Personenstunden das Scannen und zu durchsuchbaren PDFs konvertierenden derselbigen benötigen würde.

Die Bestände können grob in zwei Kategorien geteilt werden: Bestände vor ca. 1950, und Bestände, die danach gedruckt wurden. Die Einteilung ist insofern sinnvoll, wie vor den 1950er noch sehr of anscheinend nicht digital verfügbare Antiqua- und Frakturartige Typen verwendet wurden. Diese werden von uns nur gescannt und nachgeschönt und dann an eine weitere Stelle weitergereicht. Alles andere wird von Anfang bis ans Ende in unserer Abteilung bearbeitet.

Die von uns erstellten Datensätze enthalten dementsprechend gescannte Seitenzahl, benötigte Zeit bis zum durchsuchbaren PDF und Schrifttyp. Die Frage ist nun, welche statistischen Werte und Berechnungen (Mittel, Streuungsparameter bzw induktive Ableitungen aus denselbigen) sinnvoll sind.

**Zelretch** · 08.08.2013 00:51

Also ich nehme mal an dass du durch eine allgemeine Funktion abschätzen möchtest wie lange der Druck abhängig von der Seitenzahl dauert?

Ich würde für den einfachsten Fall eines linearen Zusammenhangs (was auch naheliegend ist) mal eine lineare Regression versuchen. Man kann sich das so vorstellen dass du auf der X Achse die Seitenzahl und auf der Y Achse die Zeit aufgetragen hast und die Messdaten (also deine Datensätze) dann einzelne Punkte in dem Graphen darstellen. Durch die lineare Regression wird dann eine gerade ermittelt die den kürzesten Abstand von allen Punkten hat also etwa so:

Klicke auf die Grafik für eine größere Ansicht

Name: regr5.gif
Hits: 125
Größe: 1,3 KB
ID: 18406

So weit ich weiß kann Excel diese lineare Regression durchführen.

**noRkia** · 08.08.2013 14:43

Ich würde das Ganze sowohl für die alten Bücher als auch für die neueren erstmal separat machen.

Grund ist,dass ich nicht weis wie hoch der zeitliche Unterschied ist und wie das Verhältniss von neuen und alten Büchern ist.Dies kann eure Abschätzung stark beinflussen.

Auch würde ich zu allererst einen Graph nur für die Scanzeit und dann für die Konvertierungszeit machen und dann die Zeiten der jeweiligen Altersklasse der Bücher addieren.
Da sieht man einfach mehr.

**Ianus** · 27.08.2013 19:29

Also nee.

Was ich an Daten habe ist die Seitenzahl und die Scannzeit, jetzt jeweils unterteilt nach Schriftfamilien (Moderne, Antiqua und Frakturartige) und was ich haben will ist ein Wert, den ich mit der Gesamtzahl an Büchern im Bestand multiplizieren kann um eine Abschätzung darüber zu bekommen, wie lange wir insgesamt brauchen um alles zu scannen.

Den Inneren Aufbau des Gesamtbestandes (also das Verhältnis von Modernen : Antiqa : Frakturartigen) kann ich nicht feststellen. Dazu hatten wir die Zeit nicht. Was ich aus meinem Datenbestand nicht machen kann, ist den Anteil der Antiqua und Frakturen abzuleiten. Ich habe sehr viele der Frakturatigen aus einem anderen Bestand genommen, um mehr Daten über Scannzeiten zu bekommen.

Was ich also machen möchte, ist zweierlei:

Erstens für jede Schriftffamilie einen Wert dafür, wie lange man durchschnittlich für ein "typisches Buch" braucht. Das damit FALLS jemand noch mal eine gute Abschätzung des Aufbaus des Bestandes macht, er diese Werte benutzen kann um einen genauere Gesamtscannzeit zu errechnen.

Zweitens aus diesen drei Werten kombiniert abgeleitet einee Zahl die, multipliziert mit der Gesamtzahl an Büchern im Bestand, aussagen kann wie lange man braucht, um den gesamten Bestand durchzuarbeiten.

Frage ist nun, wie komme ich dahin?

**Niolon** · 29.08.2013 13:40

Intuitiv hätte ich eine durchschnittliche Scangeschwindigkeit mit Standardabweichung bestimmt. Das heisst für jedes Buch einer Schriftart Seitenzahl / Zeit und dann per Excel Mittelwert und Standartabweichung (STABWN) des jeweiligen Datensatzes ausgewertet. dann hast du einen Wert und einen Fehlerintervall in dem der Wert mit 68% Wahrscheinlichkeit liegt. Mit doppelter Standartabweichung kommst du dann auf 95,5 %. Das ist dann mit der Gesamtseitenanzahl multipliziert deine Gesamtdauer.

Da du die Gesamtseitenzahl allerdings ja scheinbar gar nicht kennst / auch nur aus der Stichprobe abschätzen kannst aus der du die Geschwindigkeit bestimmst, kannst du auch einfach eine durschschnittliche Scandauer (also keine Geschwindigkeit) eines Buches als Mittelwert mit Fehler (Standartabweichung) bestimmen und das hochrechnen auf die Gesamtzahl der Bücher. Die Geschwindigkeit hat für dich ja keinen Wert wenn die Stichprobe aus der du eine durchschnittliche Seitenzahl ziehst nicht größer/ die gleiche ist, aus der du auch die Geschwindigkeit bestimmst. Also würd ich diese Möglichkeit anwenden.

Die Verhältnisse der Schriftarten kannst du aus dem Datensatz den du hast nicht bestimmen. Das heißt wenn du nicht irgendwo Daten dazu herbekommen kannst, gibt es nur die Möglichkeit zu schätzen. Statistisch ist das so wie du es beschrieben hast nicht zugänglich (woher auch) also entweder hast du irgendwo Informationen in welchen Jahrzehnten mit welchen Schriftarten gedruckt wurde oder du kannst dich (leider) nur auf dein Bauchgefühl verlassen. Statistik kann ja leider auch nur das auswerten was du an Daten aufgenommen hast. Du musst die Werte also generieren oder anderweitig organisieren. Hat vielleicht Google über Books Infos irgendwo darüber?

Naja das ist nur wie ich das als Naturwissenschaftler machen würd. Normalerweise werte ich andere Dinge aus ^^

**Zelretch** · 10.09.2013 11:20

Zitat von Ianus

Also nee.

Was ich an Daten habe ist die Seitenzahl und die Scannzeit, jetzt jeweils unterteilt nach Schriftfamilien (Moderne, Antiqua und Frakturartige) und was ich haben will ist ein Wert, den ich mit der Gesamtzahl an Büchern im Bestand multiplizieren kann um eine Abschätzung darüber zu bekommen, wie lange wir insgesamt brauchen um alles zu scannen.

Den Inneren Aufbau des Gesamtbestandes (also das Verhältnis von Modernen : Antiqa : Frakturartigen) kann ich nicht feststellen. Dazu hatten wir die Zeit nicht. Was ich aus meinem Datenbestand nicht machen kann, ist den Anteil der Antiqua und Frakturen abzuleiten. Ich habe sehr viele der Frakturatigen aus einem anderen Bestand genommen, um mehr Daten über Scannzeiten zu bekommen.

Was ich also machen möchte, ist zweierlei:

Erstens für jede Schriftffamilie einen Wert dafür, wie lange man durchschnittlich für ein "typisches Buch" braucht. Das damit FALLS jemand noch mal eine gute Abschätzung des Aufbaus des Bestandes macht, er diese Werte benutzen kann um einen genauere Gesamtscannzeit zu errechnen.

Zweitens aus diesen drei Werten kombiniert abgeleitet einee Zahl die, multipliziert mit der Gesamtzahl an Büchern im Bestand, aussagen kann wie lange man braucht, um den gesamten Bestand durchzuarbeiten.

Frage ist nun, wie komme ich dahin?

Geht alles mit Linearer Regression, einfach fuer jede Schriftfamilie ein mal die Koeffizienten berechnen. Da es in der natur des Sachverhalts liegt dass die resultierende Funktion durch den Ursprung gehen muss kannst du den (vermutlich ohnehin recht kleinen) korrekturwert (bei der linearen funktion (ax+b) das b) einfach weg lassen. Es bleibt also nur noch der Wert der Steigung (a) und das ist dann diese Zahl mit der du die Seitenanzahl multiplizieren musst um auf die etwagige Scannzeit zu kommen. Kann hier aus dem Internetcafe leider keine genauen Ausfuehrungen machen, aber im selbststudium sind das keine 30 minuten.

**Ianus** · 21.09.2013 23:59

Okay... Ich lade das Zeugs mal hoch, damit wir nicht aneinander vorbei reden.

Sollten im Browser zu öffnen sein:
http://www.mediafire.com/view/9ccc9c...teiltmicro.xls
http://www.mediafire.com/view/9msvhh...en-geteilt.ods

Sollten herunterladbar sein:
http://www.mediafire.com/download/9c...teiltmicro.xls
http://www.mediafire.com/download/9m...en-geteilt.ods

Ich habe die ganze Sache mal für die erste Reihe durchgerechnet aber... soweit ich das jetzt ausm Nachschlagen mitbekommen habe, nutzt mir das nur begrenzt etwas, da mir diese Daten nur sagen, wie lange ich für das Scannen von Seitenzahlen benötige. Die Gesamtseitenzahl kann ich aber schwer abschätzen, bzw die Formel ist anscheinend nur bis circa maximal 12 Seiten genau.

Was ich nun also tun müsste, ist einen Mittelwert der Seitenzahlen in einem Buch zu finden zu finden (in diesem Beispiel liegt der bei 2,03), aus dem mit der Formel die Scannzeit für dieses Durchschnittsbuch berechnen (ca. 04:42 min) und DIESE 04:42 dann mit meiner Gesamtzahl an zu scannenden Büchern multiplizieren. Bin ich damit komplett auf dem Holzweg?

**Zelretch** · 22.09.2013 11:11

Ne was du zuletzt geschilderst hast sollte schon so stimmen.

Allerdings wird die Abschätzung sehr grob und ungenau sein, weil der Zusammenhang zwischen Seitenanzahl und Scannzeit nur sehr geringfügig linear ist. (Das Bestimmtheitsmaß hat einen Wert nahe 0). Das kommt daher dass es Bücher gibt die 2 Seiten haben aber ein mal nur circa 1 Minute zum Scannen benötigen und ein mal über 20 Minuten. Eine andere Trendlinie (logarithmisch etc) würde da auch nicht helfen, es wäre allerdings eine Möglichkeit die Bücher aus den Daten zu entfernen die besonderst lange aufgrund von Computerproblemen oder Photoshoparbeit benötigt haben.

**Ianus** · 22.09.2013 12:18

Ja, darüber habe ich auch schon nachgedacht. 0,3 is ein wirklich arg wenig und ich weiß ja noch, warum wir an denen so lange ohne Ergebnis rumgemacht haben (Die Software war nicht darauf eingestellt, zweilagigen PDFs zu erstellen)

**Ianus** · 22.09.2013 16:16

http://www.mediafire.com/view/pq2k9a...01/antiqua.xls
http://www.mediafire.com/view/rjc48p...7c/antiqua.ods

http://www.mediafire.com/download/pq...01/antiqua.xls
http://www.mediafire.com/download/rj...7c/antiqua.ods

Okay, da ergab sich noch was seltsames. Ich bekomme einen negativen Wert in der Zeit für den Wert "b" und wenn ich dann den Mittelwert der Seitenzahlen einsetze, sagt mir die Formel, dass ich über sechzig Stunden an den drei Blättern dran wäre. Was zur Hölle ist hier falsch gelaufen?

**Zelretch** · 22.09.2013 20:05

Ich glaube du hast die Spalten nicht sorgfältig markiert oder sonst irgendwie einen fehler in der Umsetzung gemacht. Das kam bei mir raus als ich es eben getestet habe. Der Mittelwert mit 3,19 stimmt allerdings. Wenn man hier 3,19 einsetzt dürfte irgend was um die 8 Minuten raus kommen.

Klicke auf die Grafik für eine größere Ansicht

Name: Clipboard02.png
Hits: 10
Größe: 15,5 KB
ID: 18804

**Ianus** · 22.09.2013 20:38

Das Problem ist, dass wenn ich das ganze halbautomatisch durchrechne (damit mir in der Formel die Zeit auch als MM:SS-Angabe erhalten bleibt), ich auf dieses Ergebnis komme:

Die Formel ist dann Y=0,79*x-00:00:39,97

(Wobei X die Seiten und Y die Zeit ist)

Und für x=3 ergibt sich 56 Stunden, 53 Minuten und 28 Sekunden. Das kann schwerlich korrekt sein.

**Zelretch** · 22.09.2013 20:56

Hm, es wäre vielleicht sinnvoll die Uhrzeiten vom H:M:S Format in Sekunden um zu rechnen. Habe auf meinem Notebook leider gerade kein Excel aber hier wird zB beschrieben wie das funktioniert. So wie ich das verstanden habe musst du per rechtsklick auf "Zelle Formatieren", dann "Zahl"/"Standard" auswählen und jede Zelle dann noch mit 86400 multiplizieren.

Ich glaube es tut der Lösung nicht gut wenn man versucht zwei unterschiedliche Zahlensysteme (uhrzeit und dezimalsystem) zu verheiraten...(Ja den selben Fehler habe ich oben auch gemacht)

**Ianus** · 22.09.2013 21:08

Und wie lese ich die 0,0080211984 dann aus? 00:08:02,12?

**Zelretch** · 22.09.2013 21:16

Wo stehen die 0,0080211984 (=0,802...%)? Wenn das nach dem ändern der Formatierung der Zellen da steht bedeutet es afair 0,802% von 24h (oder 0,802% von 1440 Min oder 0,082% von 86400 Sek)

**Ianus** · 22.09.2013 21:28

Ich habe den Mittelwert von Y mit den 86400 multipliziert und dann mit den 690.70 weiter gerechnet. Das neue Ergebnis ist dann 693,031543494 was durch 86400 = 0,0080211984

Ich versuche solchen Konvertierungen aus dem Weg zu gehen, weil sie zusätzliche Fehlerquellen in die Rechnung bringen und ich in der Schule definitiv zu wenig Zeit in die Mathematik gesteckt habe.

**Zelretch** · 22.09.2013 21:28

Also ich hab dir hier mal für Antiqa die Zeit in Minuten umgerechnet.
http://www.file-upload.net/download-...tiqua.ods.html

Dazu markierst du die ganze Zeit-Spalte, wählst "Zellen formatieren" , dann Standard und bekommst dann diese ganz kleinen Dezimalzahlen. Danach nimmst du eine beliebige Zelle und schreibst dort 24 wenn du die Angaben in Stunden haben willst, 1440 wenn du die Angaben in Minuten haben willst und 86400 wenn du die Angaben in Sekunden haben willst. Danach kopierst du die Zelle in die du den Zahlenwert gerade geschrieben hast (mit Strg + c). Danach markierst du noch mal die ganze Spalte wo neuerdings Dezimalzahlen stehen. Jetzt Rechtsklick und dann "Inhalte Einfügen" (bei Open Office) und dann "Multiplizieren" auswählen.

Edit: Den Mittelwert von Y brauchst du nicht zu verändern es geht ausschließlich darum die Zeitangaben die in diesem "00:00:00" Zeitformat gegeben sind in das Dezimalsystem zu überführen. Die Seitenzahlen sind im Dezimalsystem und die Zeiten müssen es auch sein damit die Ergebnisse plausibel sind.

**Ianus** · 22.09.2013 22:04

Okay....und wie bekomme ich den Wert dann zurück in den 00:00:00-Format? Ich habe jetzt versucht das Ergebnis einfach blos wieder mit der "Zelle formatieren" zurückzustellen und kam damit auf 16 Stunden. Ich habe auch versucht, das ganze wieder zurückzuführe, indem ich den Wert wieder durch die 1440 Minuten dividiere, aber das Ergebnis liegt dann bei 00:01:42, was ebenfalls nicht plausibel ist.

Ich hoffe, du kannst mir nachsehen, dass ich hier solch blöde Fragen stelle...

**Zelretch** · 22.09.2013 22:18

Um zurück in das 00:00:00 Format zu kommen musst du den Wert durch 24/1440/86400 teilen und dann über "Zelle Formatieren" wieder das 00:00:00 Format wählen.(Reihenfolge beachten)

Was du jetzt nach dem du die Zeit-Spalte in Minuten oder Sekunden oder Stunden umgerechnet hast als erstes tun musst ist eine neue Regressionsgerade bestimmen. Dann sollte eigentlich auch alles stimmen...

**Ianus** · 22.09.2013 22:39

Ja, soweit kann ich folgen und das habe ich auch versucht (also die 1,7079804/1440 und dann wieder das Zellenformat ändern), nur war das Ergebnis davon 00:01:42, was IMO nicht plausibel ist.

Thema: Statistik what do

Themen-Optionen

Anzeige

Statistik what do

Berechtigungen