Statistik what do [Archiv]

Ianus

07.08.2013, 20:13

Ich gebe gerne zu, in der Mathematik habe ich den Ball immer eher flach gehalten und war selten über der Note vier. Dementsprechend brauche ich jetzt ein paar zweckdienliche Hinweise zur statistischen Auswertung meiner Datensätze.

Die Ausgangslage ist, dass wir einen Satz Bücher haben und in unserem Projekt feststellen sollten, wie viele Personenstunden das Scannen und zu durchsuchbaren PDFs konvertierenden derselbigen benötigen würde.

Die Bestände können grob in zwei Kategorien geteilt werden: Bestände vor ca. 1950, und Bestände, die danach gedruckt wurden. Die Einteilung ist insofern sinnvoll, wie vor den 1950er noch sehr of anscheinend nicht digital verfügbare Antiqua- und Frakturartige Typen verwendet wurden. Diese werden von uns nur gescannt und nachgeschönt und dann an eine weitere Stelle weitergereicht. Alles andere wird von Anfang bis ans Ende in unserer Abteilung bearbeitet.

Die von uns erstellten Datensätze enthalten dementsprechend gescannte Seitenzahl, benötigte Zeit bis zum durchsuchbaren PDF und Schrifttyp. Die Frage ist nun, welche statistischen Werte und Berechnungen (Mittel, Streuungsparameter bzw induktive Ableitungen aus denselbigen) sinnvoll sind.

Zelretch

07.08.2013, 23:51

Also ich nehme mal an dass du durch eine allgemeine Funktion abschätzen möchtest wie lange der Druck abhängig von der Seitenzahl dauert?

Ich würde für den einfachsten Fall eines linearen Zusammenhangs (was auch naheliegend ist) mal eine lineare Regression versuchen. Man kann sich das so vorstellen dass du auf der X Achse die Seitenzahl und auf der Y Achse die Zeit aufgetragen hast und die Messdaten (also deine Datensätze) dann einzelne Punkte in dem Graphen darstellen. Durch die lineare Regression wird dann eine gerade ermittelt die den kürzesten Abstand von allen Punkten hat also etwa so:
18406

So weit ich weiß kann Excel diese lineare Regression durchführen.

noRkia

08.08.2013, 13:43

Ich würde das Ganze sowohl für die alten Bücher als auch für die neueren erstmal separat machen.

Grund ist,dass ich nicht weis wie hoch der zeitliche Unterschied ist und wie das Verhältniss von neuen und alten Büchern ist.Dies kann eure Abschätzung stark beinflussen.

Auch würde ich zu allererst einen Graph nur für die Scanzeit und dann für die Konvertierungszeit machen und dann die Zeiten der jeweiligen Altersklasse der Bücher addieren.
Da sieht man einfach mehr.

Ianus

27.08.2013, 18:29

Niolon

29.08.2013, 12:40

Intuitiv hätte ich eine durchschnittliche Scangeschwindigkeit mit Standardabweichung bestimmt. Das heisst für jedes Buch einer Schriftart Seitenzahl / Zeit und dann per Excel Mittelwert und Standartabweichung (STABWN) des jeweiligen Datensatzes ausgewertet. dann hast du einen Wert und einen Fehlerintervall in dem der Wert mit 68% Wahrscheinlichkeit liegt. Mit doppelter Standartabweichung kommst du dann auf 95,5 %. Das ist dann mit der Gesamtseitenanzahl multipliziert deine Gesamtdauer.

Da du die Gesamtseitenzahl allerdings ja scheinbar gar nicht kennst / auch nur aus der Stichprobe abschätzen kannst aus der du die Geschwindigkeit bestimmst, kannst du auch einfach eine durschschnittliche Scandauer (also keine Geschwindigkeit) eines Buches als Mittelwert mit Fehler (Standartabweichung) bestimmen und das hochrechnen auf die Gesamtzahl der Bücher. Die Geschwindigkeit hat für dich ja keinen Wert wenn die Stichprobe aus der du eine durchschnittliche Seitenzahl ziehst nicht größer/ die gleiche ist, aus der du auch die Geschwindigkeit bestimmst. Also würd ich diese Möglichkeit anwenden.

Die Verhältnisse der Schriftarten kannst du aus dem Datensatz den du hast nicht bestimmen. Das heißt wenn du nicht irgendwo Daten dazu herbekommen kannst, gibt es nur die Möglichkeit zu schätzen. Statistisch ist das so wie du es beschrieben hast nicht zugänglich (woher auch) also entweder hast du irgendwo Informationen in welchen Jahrzehnten mit welchen Schriftarten gedruckt wurde oder du kannst dich (leider) nur auf dein Bauchgefühl verlassen. Statistik kann ja leider auch nur das auswerten was du an Daten aufgenommen hast. Du musst die Werte also generieren oder anderweitig organisieren. Hat vielleicht Google über Books Infos irgendwo darüber?

Naja das ist nur wie ich das als Naturwissenschaftler machen würd. Normalerweise werte ich andere Dinge aus ^^

Zelretch

10.09.2013, 10:20

Also nee.

Was ich an Daten habe ist die Seitenzahl und die Scannzeit, jetzt jeweils unterteilt nach Schriftfamilien (Moderne, Antiqua und Frakturartige) und was ich haben will ist ein Wert, den ich mit der Gesamtzahl an Büchern im Bestand multiplizieren kann um eine Abschätzung darüber zu bekommen, wie lange wir insgesamt brauchen um alles zu scannen.

Den Inneren Aufbau des Gesamtbestandes (also das Verhältnis von Modernen : Antiqa : Frakturartigen) kann ich nicht feststellen. Dazu hatten wir die Zeit nicht. Was ich aus meinem Datenbestand nicht machen kann, ist den Anteil der Antiqua und Frakturen abzuleiten. Ich habe sehr viele der Frakturatigen aus einem anderen Bestand genommen, um mehr Daten über Scannzeiten zu bekommen.

Was ich also machen möchte, ist zweierlei:

Erstens für jede Schriftffamilie einen Wert dafür, wie lange man durchschnittlich für ein "typisches Buch" braucht. Das damit FALLS jemand noch mal eine gute Abschätzung des Aufbaus des Bestandes macht, er diese Werte benutzen kann um einen genauere Gesamtscannzeit zu errechnen.

Zweitens aus diesen drei Werten kombiniert abgeleitet einee Zahl die, multipliziert mit der Gesamtzahl an Büchern im Bestand, aussagen kann wie lange man braucht, um den gesamten Bestand durchzuarbeiten.

Frage ist nun, wie komme ich dahin?

Geht alles mit Linearer Regression, einfach fuer jede Schriftfamilie ein mal die Koeffizienten berechnen. Da es in der natur des Sachverhalts liegt dass die resultierende Funktion durch den Ursprung gehen muss kannst du den (vermutlich ohnehin recht kleinen) korrekturwert (bei der linearen funktion (ax+b) das b) einfach weg lassen. Es bleibt also nur noch der Wert der Steigung (a) und das ist dann diese Zahl mit der du die Seitenanzahl multiplizieren musst um auf die etwagige Scannzeit zu kommen. Kann hier aus dem Internetcafe leider keine genauen Ausfuehrungen machen, aber im selbststudium sind das keine 30 minuten.

Ianus

21.09.2013, 22:59

Okay... Ich lade das Zeugs mal hoch, damit wir nicht aneinander vorbei reden.

Sollten im Browser zu öffnen sein:
http://www.mediafire.com/view/9ccc9c2w6tx0je3/scannzeiten-geteiltmicro.xls
http://www.mediafire.com/view/9msvhh1ss3dt2l6/scannzeiten-geteilt.ods

Sollten herunterladbar sein:
http://www.mediafire.com/download/9ccc9c2w6tx0je3/scannzeiten-geteiltmicro.xls
http://www.mediafire.com/download/9msvhh1ss3dt2l6/scannzeiten-geteilt.ods

Ich habe die ganze Sache mal für die erste Reihe durchgerechnet aber... soweit ich das jetzt ausm Nachschlagen mitbekommen habe, nutzt mir das nur begrenzt etwas, da mir diese Daten nur sagen, wie lange ich für das Scannen von Seitenzahlen benötige. Die Gesamtseitenzahl kann ich aber schwer abschätzen, bzw die Formel ist anscheinend nur bis circa maximal 12 Seiten genau.

Was ich nun also tun müsste, ist einen Mittelwert der Seitenzahlen in einem Buch zu finden zu finden (in diesem Beispiel liegt der bei 2,03), aus dem mit der Formel die Scannzeit für dieses Durchschnittsbuch berechnen (ca. 04:42 min) und DIESE 04:42 dann mit meiner Gesamtzahl an zu scannenden Büchern multiplizieren. Bin ich damit komplett auf dem Holzweg?

Zelretch

22.09.2013, 10:11

Ne was du zuletzt geschilderst hast sollte schon so stimmen.

Allerdings wird die Abschätzung sehr grob und ungenau sein, weil der Zusammenhang zwischen Seitenanzahl und Scannzeit nur sehr geringfügig linear ist. (Das Bestimmtheitsmaß (http://de.wikipedia.org/wiki/Bestimmtheitsma%C3%9F#Interpretation) hat einen Wert nahe 0). Das kommt daher dass es Bücher gibt die 2 Seiten haben aber ein mal nur circa 1 Minute zum Scannen benötigen und ein mal über 20 Minuten. Eine andere Trendlinie (logarithmisch etc) würde da auch nicht helfen, es wäre allerdings eine Möglichkeit die Bücher aus den Daten zu entfernen die besonderst lange aufgrund von Computerproblemen oder Photoshoparbeit benötigt haben.

Ianus

22.09.2013, 11:18

Ja, darüber habe ich auch schon nachgedacht. 0,3 is ein wirklich arg wenig und ich weiß ja noch, warum wir an denen so lange ohne Ergebnis rumgemacht haben (Die Software war nicht darauf eingestellt, zweilagigen PDFs zu erstellen)

Ianus

22.09.2013, 15:16

http://www.mediafire.com/view/pq2k9av8h9v9201/antiqua.xls
http://www.mediafire.com/view/rjc48ptikhuzr7c/antiqua.ods

http://www.mediafire.com/download/pq2k9av8h9v9201/antiqua.xls
http://www.mediafire.com/download/rjc48ptikhuzr7c/antiqua.ods

Okay, da ergab sich noch was seltsames. Ich bekomme einen negativen Wert in der Zeit für den Wert "b" und wenn ich dann den Mittelwert der Seitenzahlen einsetze, sagt mir die Formel, dass ich über sechzig Stunden an den drei Blättern dran wäre. Was zur Hölle ist hier falsch gelaufen?

Zelretch

22.09.2013, 19:05

Ich glaube du hast die Spalten nicht sorgfältig markiert oder sonst irgendwie einen fehler in der Umsetzung gemacht. Das kam bei mir raus als ich es eben getestet habe. Der Mittelwert mit 3,19 stimmt allerdings. Wenn man hier 3,19 einsetzt dürfte irgend was um die 8 Minuten raus kommen.
18804

Ianus

22.09.2013, 19:38

Das Problem ist, dass wenn ich das ganze halbautomatisch durchrechne (damit mir in der Formel die Zeit auch als MM:SS-Angabe erhalten bleibt), ich auf dieses Ergebnis komme:

http://s22.postimg.org/u4kh1njv5/von_hand.jpg

Die Formel ist dann Y=0,79*x-00:00:39,97

(Wobei X die Seiten und Y die Zeit ist)

Und für x=3 ergibt sich 56 Stunden, 53 Minuten und 28 Sekunden. Das kann schwerlich korrekt sein.

Zelretch

22.09.2013, 19:56

Hm, es wäre vielleicht sinnvoll die Uhrzeiten vom H:M:S Format in Sekunden um zu rechnen. Habe auf meinem Notebook leider gerade kein Excel aber hier (http://www.ms-office-forum.net/forum/showthread.php?t=56700) wird zB beschrieben wie das funktioniert. So wie ich das verstanden habe musst du per rechtsklick auf "Zelle Formatieren", dann "Zahl"/"Standard" auswählen und jede Zelle dann noch mit 86400 multiplizieren.

Ich glaube es tut der Lösung nicht gut wenn man versucht zwei unterschiedliche Zahlensysteme (uhrzeit und dezimalsystem) zu verheiraten...(Ja den selben Fehler habe ich oben auch gemacht)

Ianus

22.09.2013, 20:08

Und wie lese ich die 0,0080211984 dann aus? 00:08:02,12?

Zelretch

22.09.2013, 20:16

Wo stehen die 0,0080211984 (=0,802...%)? Wenn das nach dem ändern der Formatierung der Zellen da steht bedeutet es afair 0,802% von 24h (oder 0,802% von 1440 Min oder 0,082% von 86400 Sek)

Ianus

22.09.2013, 20:28

http://s24.postimg.org/51edr0cj9/von_hand.jpg

Ich habe den Mittelwert von Y mit den 86400 multipliziert und dann mit den 690.70 weiter gerechnet. Das neue Ergebnis ist dann 693,031543494 was durch 86400 = 0,0080211984

Ich versuche solchen Konvertierungen aus dem Weg zu gehen, weil sie zusätzliche Fehlerquellen in die Rechnung bringen und ich in der Schule definitiv zu wenig Zeit in die Mathematik gesteckt habe.

Zelretch

22.09.2013, 20:28

Also ich hab dir hier mal für Antiqa die Zeit in Minuten umgerechnet.
http://www.file-upload.net/download-8105610/antiqua.ods.html

Dazu markierst du die ganze Zeit-Spalte, wählst "Zellen formatieren" , dann Standard und bekommst dann diese ganz kleinen Dezimalzahlen. Danach nimmst du eine beliebige Zelle und schreibst dort 24 wenn du die Angaben in Stunden haben willst, 1440 wenn du die Angaben in Minuten haben willst und 86400 wenn du die Angaben in Sekunden haben willst. Danach kopierst du die Zelle in die du den Zahlenwert gerade geschrieben hast (mit Strg + c). Danach markierst du noch mal die ganze Spalte wo neuerdings Dezimalzahlen stehen. Jetzt Rechtsklick und dann "Inhalte Einfügen" (bei Open Office) und dann "Multiplizieren" auswählen.

Edit: Den Mittelwert von Y brauchst du nicht zu verändern es geht ausschließlich darum die Zeitangaben die in diesem "00:00:00" Zeitformat gegeben sind in das Dezimalsystem zu überführen. Die Seitenzahlen sind im Dezimalsystem und die Zeiten müssen es auch sein damit die Ergebnisse plausibel sind.

Ianus

22.09.2013, 21:04

Okay....und wie bekomme ich den Wert dann zurück in den 00:00:00-Format? Ich habe jetzt versucht das Ergebnis einfach blos wieder mit der "Zelle formatieren" zurückzustellen und kam damit auf 16 Stunden. Ich habe auch versucht, das ganze wieder zurückzuführe, indem ich den Wert wieder durch die 1440 Minuten dividiere, aber das Ergebnis liegt dann bei 00:01:42, was ebenfalls nicht plausibel ist.

http://s24.postimg.org/ao7iwv4hh/von_hand.jpg

Ich hoffe, du kannst mir nachsehen, dass ich hier solch blöde Fragen stelle...

Zelretch

22.09.2013, 21:18

Um zurück in das 00:00:00 Format zu kommen musst du den Wert durch 24/1440/86400 teilen und dann über "Zelle Formatieren" wieder das 00:00:00 Format wählen.(Reihenfolge beachten)

Was du jetzt nach dem du die Zeit-Spalte in Minuten oder Sekunden oder Stunden umgerechnet hast als erstes tun musst ist eine neue Regressionsgerade bestimmen. Dann sollte eigentlich auch alles stimmen...

Ianus

22.09.2013, 21:39

Ja, soweit kann ich folgen und das habe ich auch versucht (also die 1,7079804/1440 und dann wieder das Zellenformat ändern), nur war das Ergebnis davon 00:01:42, was IMO nicht plausibel ist.

Zelretch

23.09.2013, 07:38

Sorry ich war gestern zu müde um das noch fertig zu machen, ich hab das hier jetzt mit Antiqa und Minuten mal durchgerechnet:
http://www.file-upload.net/download-8106408/antiqua.xls.html
Als Ergebnis kommt: 3,8174x - 0,6662 für die Regressionsfunktion und (durch Einsetzen von 3,2) 11,54948 Minuten als die zu erwartende Scannzeit für ein durchschnittliches Buch heraus. Ich hoffe du findest deinen Fehler in obiger Excel Tabelle.

Niolon

23.09.2013, 22:45

11,54 Minuten ist aber ironischerweise nahezu der Mittelwert der Scanzeit der in der Tabelle betrachteten Bücher (11,51 min) was ja auch logisch ist. Die Abweichung würde ich auf Ungenauigkeiten bei der hin und her Rechnerei mit der Regression zurückführen.

Wenn ihr hier nichts über die durchschnittliche Scanzeit pro Seite lernen wollt (was ja auch interessant sein kann) sondern euch nur für die pro Buch interessiert braucht ihr das ganze Tam Tam mit der Regression nicht. Es reicht die mittlere Scanzeit pro BUCH zu bestimmen. Dazu am besten noch einen Fehler in Form einer Standartabweichung angeben. Ich hab dann raus 11,51 +- 13,00 min. So lange die Stichprobe aus der ihr alle statistischen Werte zieht immer die gleiche ist, muss am Ende auch das gleiche Rauskommen. Die durchschnittliche Scandauer pro Seite ist nur interessant wenn ihr irgendwo einen genaueren Wert für die durchschnittliche Seitenzahl herbekommt, oder eben eine Gesamtseitenzahl, so hat sie aber keinen Wert für das gesuchte Ergebnis.

Das heißt 65% der Bücher sind in irgendwas zwischen 0 und 24 min zu Scannen. Das ist kein schönes Ergebnis für eine Statistik. Der Fehler ist größer als der Wert und damit ist die zu gewinnende Information sehr gering. Wenn man rausbekommt warum die Abweichung einiger so groß ist (ob also eine zweite Untergruppe besser einzeln statistisch behandelt wird,) kann man vielleicht mehr Information gewinnen.

Zelretch

24.09.2013, 08:48

Wenn ihr hier nichts über die durchschnittliche Scanzeit pro Seite lernen wollt (was ja auch interessant sein kann) sondern euch nur für die pro Buch interessiert braucht ihr das ganze Tam Tam mit der Regression nicht.
Es ist anhand des Scatterplots und der Regressionsgerade allerdings anschaulicher Fehlerquellen zu identifizieren als anhand der Varianz

Niolon

24.09.2013, 14:53

Ich gestehe: Ich mag Regression mit Excel nicht. Das Maß für Bestimmtheit als R^2 ist für mich einfach unanschaulich, ganz im Gegensatz zu einer Varianz. Plots mach ich mit Origin was mir auch wieder einen Fehler ausgibt. Wenn man sich allerdings nicht entschließt Werte auszuschließen (und das muss man ja für jeden Wert begründen) ist ein Plot zwar hübsch, hat aber keinen Mehrwert, im Gegenteil die Information wie groß die Abweichung vom so erhaltenen Wert ist kann Excel meines Wissens zwar auch irgendwie ausrechnen, ist aber in dem Plot nicht enthalten. Ohne einen Fehler ist die Aussagekraft eines Mittelwerts jedoch gering (wie ja dieses Beispiel anschaulich zeigt). Ich setz mich vielleicht noch mal an die Tabelle und schau ob mir nicht was schlaues einfällt.

Zudem würde ich rein egoistisch immer die einfachste Methode bevorzugen und einen Mittelwert mit Standardabweichung zu bestimmen geht halt einfach fix. :D

Zelretch

24.09.2013, 15:12

Naja selbst wenn man keine Werte ausschließt ist es dennoch ganz praktisch um den Trendverlauf zu erkennen. Wenn ich mich nicht irre dürfte bei einer exponentiellen Trendlinie (zB) eine erkenntliche Abweichung zum Mittelwert entstehen. Ich bin leider gerade nicht so sehr in der Materie drinnen um das mit absoluter Sicherheit sagen zu können, aber es erscheint mir gerade plausibel.

Die allgemeine Bedeutung von Plots möchtest du hoffentlich nicht abstreiten, denn in diesem Fall würdest dich wirklich irren.

Niolon

24.09.2013, 15:52

Klar ich habe oft genug einfach Sachen geplottet um zu sehen ob sich da Verläufe erkennen lassen die nicht linear sind. Zusammenhänge mit anderen Funktionen haben ja jeweils ein ziemlich charakteristisches Aussehen. Wenn man wissenschaftlich arbeitet und sowas dann sieht muss man aber auch theoretisch begründen warum meine Werte sich exponentiell, polynomisch, logarithmisch oder sonst wie verhalten. Mit Polynomen hohen grades kann ich ja fast alles fitten. Einzelne Werte die stark von einem sonst schönen Plot streuen können auch ein Hinweis sein das bei den Werten etwas schief gelaufen ist, das ist richtig. Was da schief gelaufen ist muss ich dann aber trotzdem herausfinden und idealerweise mein Experiment wiederholen unter Ausschluss des Fehlers (hängt natürlich vom experimentellen Aufwand ab, ob das getan wird).

Was ich also mit meinen bisherigen Posts aussagen wollte war, dass ich in diesem Fall den Mehrwert durch den Plot nicht sehe. Oft genug ist ja die Steigung das gesuchte um Vorraussagen über größere Systeme treffen zu können. Man muss sich aber klar machen ob die Information die man erhält einen auch wirklich weiterbringt. Hier will Ianus das ganze eh nur mit einer größeren Bücherzahl hochrechnen, ergo bringt ihm ein Wert pro Seite gar nichts.

Wenn man einen Plot machen will würde ich den Achsenabschnitt auf Null festsetzen. Null Seiten zu Scannen sollte Null Zeit dauern (theoretisch.) Das Bestimmtheitsmaß nimmt dann etwas ab, das ist aber zu erwarten wenn ich einen Freiheitsgrad rausnehme.

Ich verwende zum Plotten aufgrund der von mir genannten Probleme mit Excel übrigens ein anderes Programm (Origin Pro 8 ). Excel ist halt für den kaufmännischen Bereich gemacht nicht für den wissenschaftlichen.

Zelretch

24.09.2013, 17:14

Was ich also mit meinen bisherigen Posts aussagen wollte war, dass ich in diesem Fall den Mehrwert durch den Plot nicht sehe. Oft genug ist ja die Steigung das gesuchte um Vorraussagen über größere Systeme treffen zu können. Man muss sich aber klar machen ob die Information die man erhält einen auch wirklich weiterbringt. Hier will Ianus das ganze eh nur mit einer größeren Bücherzahl hochrechnen, ergo bringt ihm ein Wert pro Seite gar nichts.

Wenn man einen Plot machen will würde ich den Achsenabschnitt auf Null festsetzen. Null Seiten zu Scannen sollte Null Zeit dauern (theoretisch.) Das Bestimmtheitsmaß nimmt dann etwas ab, das ist aber zu erwarten wenn ich einen Freiheitsgrad rausnehme.

Ich verwende zum Plotten aufgrund der von mir genannten Probleme mit Excel übrigens ein anderes Programm (Origin Pro 8 ). Excel ist halt für den kaufmännischen Bereich gemacht nicht für den wissenschaftlichen.
Wie bereits gesagt , erst durch den Plot wird Anschaulich dass sich die Scannzeiten bei einer fixen Seitenzahl sehr stark streuen, es ist durchaus bedeutsam diese Fälle aus der Auswahl zu entfernen um eine möglichst genaue Abschätzung zu erhalten. Es geht hierbei tatsächlich darum einen möglichst guten Schätzwert zu erhalten, und bei einem Bestimmtheitsmaß von nahe 0 hat dieser Schätzwert einen relativ kleinen Nutzen, sodass es nur sinnvoll sein kann die Ausnahmen die besonderst aufwendige Photoshoparbeit , oder die Ausnahmen bei denen der Computer defekt war, aus dem Datensatz zu entfernen.

Die Achse muss tatsächlich nicht durch den Nullpunkt gehen, weil man Bspws zum Anschalten der Gerätschaften Zeit aufwenden muss die nicht von der Seitenzahl abhängig ist. Natürlich müsste man bei 0 Seiten dann diesen Zeitaufwand nicht erbringen, aber der geschätzte Wert bei 0 Seiten interessiert in diesem Fall auch niemanden.

Niolon

24.09.2013, 18:04

Wie bereits gesagt , erst durch den Plot wird Anschaulich dass sich die Scannzeiten bei einer fixen Seitenzahl sehr stark streuen, es ist durchaus bedeutsam diese Fälle aus der Auswahl zu entfernen um eine möglichst genaue Abschätzung zu erhalten. Es geht hierbei tatsächlich darum einen möglichst guten Schätzwert zu erhalten, und bei einem Bestimmtheitsmaß von nahe 0 hat dieser Schätzwert einen relativ kleinen Nutzen, sodass es nur sinnvoll sein kann die Ausnahmen die besonderst aufwendige Photoshoparbeit , oder die Ausnahmen bei denen der Computer defekt war, aus dem Datensatz zu entfernen.
Es ist richtig das bei einem so schlechten Bestimmtheitsmaß kein guter Schätzwert zu ermitteln ist. Daraus lässt sich aber nicht schließen das die Bücher mit starker Abweichung aus der Stichprobe zu entfernen sind. Auch im vollständigen Bestand gibt es ja Bücher, die einen solchen Aufwand benötigen und auch die muss ich erfassen. Ein hohes Bestimmtheitsmaß ist ja kein Selbstzweck. In dem Moment ist dann zwar der Wert für die noch übrig bleibende Stichprobe genauer, das erkaufe ich mir aber dadurch das meine Stichprobe nicht mehr repräsentativ ist. Was anderes ist es wenn ein Gerätefehler (Computer defekt) vorliegt. In diesem Fall kann ich tatsächlich Werte verwerfen, weil das durch einen äußeren Einfluss und nicht durch die Schwierigkeit des Scannens an sich bedingt ist.

Die Achse muss tatsächlich nicht durch den Nullpunkt gehen, weil man Bspws zum Anschalten der Gerätschaften Zeit aufwenden muss die nicht von der Seitenzahl abhängig ist. Natürlich müsste man bei 0 Seiten dann diesen Zeitaufwand nicht erbringen, aber der geschätzte Wert bei 0 Seiten interessiert in diesem Fall auch niemanden.

Wenn ich Zeit für das Anschalten der Geräte bräuchte wäre der Achsenabschnitt allerdings positiv und nicht negativ. Wie gesagt ich seh das immer aus der naturwissenschaftlichen Perspektive, aber ein Wert der physikalisch nicht möglich ist, ist nicht besser als ein physikalisch möglicher.

Zelretch

24.09.2013, 18:50

Es ist richtig das bei einem so schlechten Bestimmtheitsmaß kein guter Schätzwert zu ermitteln ist. Daraus lässt sich aber nicht schließen das die Bücher mit starker Abweichung aus der Stichprobe zu entfernen sind. Auch im vollständigen Bestand gibt es ja Bücher, die einen solchen Aufwand benötigen und auch die muss ich erfassen. Ein hohes Bestimmtheitsmaß ist ja kein Selbstzweck. In dem Moment ist dann zwar der Wert für die noch übrig bleibende Stichprobe genauer, das erkaufe ich mir aber dadurch das meine Stichprobe nicht mehr repräsentativ ist. Was anderes ist es wenn ein Gerätefehler (Computer defekt) vorliegt. In diesem Fall kann ich tatsächlich Werte verwerfen, weil das durch einen äußeren Einfluss und nicht durch die Schwierigkeit des Scannens an sich bedingt ist.

Doch das macht durchaus Sinn und wird auch in der wirtschaft häufig gemacht. Es geht darum die relevante Komponente zu isolieren. Wir betrachten in diesem Fall ein "durchschnittliches Buch" also keine Bücher die komplett modrig, verwelkt oder aus irgend einem anderen Grund offensichtlich aufwendige Photoshoparbeit benötigen bevor sie gescannt werden können, das sind schließlich auch die wenigen Ausnahmen, sondern wollen wissen wie lange das Scannen unter üblichen Umständen (kein Computer Defekt) für ein normales Buch dauert.

Wenn ich Zeit für das Anschalten der Geräte bräuchte wäre der Achsenabschnitt allerdings positiv und nicht negativ. Wie gesagt ich seh das immer aus der naturwissenschaftlichen Perspektive, aber ein Wert der physikalisch nicht möglich ist, ist nicht besser als ein physikalisch möglicher.
Naja also bei einem Bestimmtheitsmaß von 0,2 kann man von der Regressionsgeraden auch keine realistischen Verlauf erwarten, ich meinte natürlich den allgemeinen Fall wenn die Werte tatsächlich sehr linear verlaufen würden. In dem Fall wäre ein positiver Achsenabschnitt zu erwarten. Durch den Ursprung muss die Funktion nicht zwangsweise gehen.

Niolon

24.09.2013, 21:28

Doch das macht durchaus Sinn und wird auch in der wirtschaft häufig gemacht. Es geht darum die relevante Komponente zu isolieren. Wir betrachten in diesem Fall ein "durchschnittliches Buch" also keine Bücher die komplett modrig, verwelkt oder aus irgend einem anderen Grund offensichtlich aufwendige Photoshoparbeit benötigen bevor sie gescannt werden können, das sind schließlich auch die wenigen Ausnahmen, sondern wollen wissen wie lange das Scannen unter üblichen Umständen (kein Computer Defekt) für ein normales Buch dauert.

Sorry, irgendwie kommt mir das spanisch vor. Also nochmal auf Anfang das wir wirklich über eine Sache reden hier. Das Ziel der ganzen Aktion ist es abzuschätzen wie viel zeit ich für einen fixen kompletten Satz Bücher brauche. Dafür haben wir eine repräsentative Stichprobe an Büchern anhand derer wir einen Wert ermitteln wollen für den Gesamtbestand. Wovon ich ausgehe ist, dass man sich nicht auf die beschränken will, die gut zu scannen sind.

Ich gehe nicht davon aus das irgendwo ein Computerdefekt beim Ziehen dieser Stichprobe vorlag, stattdessen wurde unter den Umständen gearbeitet, anhand derer auch hinterher die Arbeit stattfindet.

In dem Fall ist für mich relevant wie lange es tatsächlich dauert den Gesamtbestand zu scannen. Dafür möchtest du bestimmte Bücher aus der Stichprobe entfernen, einfach aus dem Grund das sie dir die Statistik versauen, um dann ein "durchschnittliches normales Buch" zu bekommen. In dem hinterher zu scannenden Bestand gibt es aber auch nicht "normale Bücher," die du aus Vereinfachungsgründen einfach mal unterschlägst. Das meinte ich damit, dass du die Repräsentativität reduzierst. Nachdem du diese Werte, nicht aufgrund eines äußeren Kriteriums wie "lag schief drauf," also etwas, dass man hinterher beim eigentlichen Scannen vermeiden/isolieren kann, aussortierst, sondern einfach aufgrund ihrer unterwarteten Position in deiner Statistik.

Vielleicht hab ich dich falsch verstanden, aber so erhälst du zwar einen hübscheren Wert, der aber schlechter auf das zu lösende Problem anzuwenden ist. Du machst da eine Vereinfachung, die die Aussagekraft deines Wertes stärker reduziert, als der Gewinn an Signifikanz einzuschätzen ist. Im Gegenteil, während du bei der Statistik eine Idee hast wie Ungenau dein Wert um den wahren Wert streut, kannst du nach deiner Vereinfachung darüber keine Aussage mehr treffen.

Den Nebenkriegsschauplatz mit dem Achsenabschnitt mach ich mal zu, du hast recht bei der statistischen Unsicherheit, ist das eigentlich egal.

Zelretch

24.09.2013, 22:45

Nein du hast mich wohl nicht richtig verstanden. Wenn wir deine Methode nehmen und stumpf den Mittelwert berechnen und die Varianz berücksichtigen haben wir bei einer großen Varianz einen Schätzwert der vermutlich kaum Aussagekräftig ist, das hast du so wie ich das verstanden habe bereits selber fest gestellt. Die Sache ist nun dass man bei der Regressionsgeraden und dem Scatterplot die Möglichkeit hat die einzelnen Ausreißer gezielt zu identifizieren und aus der Statistik "auszudiskutieren". Denn die Grundannahme damit ein solcher Schätzwert überhaupt Sinn macht ist dass das Scannen von x Seiten auch immer circa y Minuten dauert. In diesem Fall ist es allerdings so dass das Scannen von x Seiten unnatürlich oft deutlich länger als y Minuten dauert und diese Werte muss man sich genauer ansehen. Wenn es durch einen Computerdefekt passiert ist kann man den Wert gleich raus nehmen. Wenn es eine antike verwelkte Schrift war die in dieser Art nur ein mal auf der Welt existiert ebenfalls. Natürlich kann man nicht alles raus nehmen bis es eine schöne gerade ergibt aber man hat in dem einen Fall der Aussortierung einen präziseren Schätzwert bei dem man weiß welche Fälle er abdeckt und im anderen Fall einen Schätzwert von dem man weiß dass er viel zu ungenau ist.