Statistik what do

**Zelretch** · 23.09.2013 08:38

Sorry ich war gestern zu müde um das noch fertig zu machen, ich hab das hier jetzt mit Antiqa und Minuten mal durchgerechnet:
http://www.file-upload.net/download-...tiqua.xls.html
Als Ergebnis kommt: 3,8174x - 0,6662 für die Regressionsfunktion und (durch Einsetzen von 3,2) 11,54948 Minuten als die zu erwartende Scannzeit für ein durchschnittliches Buch heraus. Ich hoffe du findest deinen Fehler in obiger Excel Tabelle.

**Niolon** · 23.09.2013 23:45

11,54 Minuten ist aber ironischerweise nahezu der Mittelwert der Scanzeit der in der Tabelle betrachteten Bücher (11,51 min) was ja auch logisch ist. Die Abweichung würde ich auf Ungenauigkeiten bei der hin und her Rechnerei mit der Regression zurückführen.

Wenn ihr hier nichts über die durchschnittliche Scanzeit pro Seite lernen wollt (was ja auch interessant sein kann) sondern euch nur für die pro Buch interessiert braucht ihr das ganze Tam Tam mit der Regression nicht. Es reicht die mittlere Scanzeit pro BUCH zu bestimmen. Dazu am besten noch einen Fehler in Form einer Standartabweichung angeben. Ich hab dann raus 11,51 +- 13,00 min. So lange die Stichprobe aus der ihr alle statistischen Werte zieht immer die gleiche ist, muss am Ende auch das gleiche Rauskommen. Die durchschnittliche Scandauer pro Seite ist nur interessant wenn ihr irgendwo einen genaueren Wert für die durchschnittliche Seitenzahl herbekommt, oder eben eine Gesamtseitenzahl, so hat sie aber keinen Wert für das gesuchte Ergebnis.

Das heißt 65% der Bücher sind in irgendwas zwischen 0 und 24 min zu Scannen. Das ist kein schönes Ergebnis für eine Statistik. Der Fehler ist größer als der Wert und damit ist die zu gewinnende Information sehr gering. Wenn man rausbekommt warum die Abweichung einiger so groß ist (ob also eine zweite Untergruppe besser einzeln statistisch behandelt wird,) kann man vielleicht mehr Information gewinnen.

**Zelretch** · 24.09.2013 09:48

Zitat von Niolon

Wenn ihr hier nichts über die durchschnittliche Scanzeit pro Seite lernen wollt (was ja auch interessant sein kann) sondern euch nur für die pro Buch interessiert braucht ihr das ganze Tam Tam mit der Regression nicht.

Es ist anhand des Scatterplots und der Regressionsgerade allerdings anschaulicher Fehlerquellen zu identifizieren als anhand der Varianz

**Niolon** · 24.09.2013 15:53

Ich gestehe: Ich mag Regression mit Excel nicht. Das Maß für Bestimmtheit als R^2 ist für mich einfach unanschaulich, ganz im Gegensatz zu einer Varianz. Plots mach ich mit Origin was mir auch wieder einen Fehler ausgibt. Wenn man sich allerdings nicht entschließt Werte auszuschließen (und das muss man ja für jeden Wert begründen) ist ein Plot zwar hübsch, hat aber keinen Mehrwert, im Gegenteil die Information wie groß die Abweichung vom so erhaltenen Wert ist kann Excel meines Wissens zwar auch irgendwie ausrechnen, ist aber in dem Plot nicht enthalten. Ohne einen Fehler ist die Aussagekraft eines Mittelwerts jedoch gering (wie ja dieses Beispiel anschaulich zeigt). Ich setz mich vielleicht noch mal an die Tabelle und schau ob mir nicht was schlaues einfällt.

Zudem würde ich rein egoistisch immer die einfachste Methode bevorzugen und einen Mittelwert mit Standardabweichung zu bestimmen geht halt einfach fix.

**Zelretch** · 24.09.2013 16:12

Naja selbst wenn man keine Werte ausschließt ist es dennoch ganz praktisch um den Trendverlauf zu erkennen. Wenn ich mich nicht irre dürfte bei einer exponentiellen Trendlinie (zB) eine erkenntliche Abweichung zum Mittelwert entstehen. Ich bin leider gerade nicht so sehr in der Materie drinnen um das mit absoluter Sicherheit sagen zu können, aber es erscheint mir gerade plausibel.

Die allgemeine Bedeutung von Plots möchtest du hoffentlich nicht abstreiten, denn in diesem Fall würdest dich wirklich irren.

**Niolon** · 24.09.2013 16:52

Klar ich habe oft genug einfach Sachen geplottet um zu sehen ob sich da Verläufe erkennen lassen die nicht linear sind. Zusammenhänge mit anderen Funktionen haben ja jeweils ein ziemlich charakteristisches Aussehen. Wenn man wissenschaftlich arbeitet und sowas dann sieht muss man aber auch theoretisch begründen warum meine Werte sich exponentiell, polynomisch, logarithmisch oder sonst wie verhalten. Mit Polynomen hohen grades kann ich ja fast alles fitten. Einzelne Werte die stark von einem sonst schönen Plot streuen können auch ein Hinweis sein das bei den Werten etwas schief gelaufen ist, das ist richtig. Was da schief gelaufen ist muss ich dann aber trotzdem herausfinden und idealerweise mein Experiment wiederholen unter Ausschluss des Fehlers (hängt natürlich vom experimentellen Aufwand ab, ob das getan wird).

Was ich also mit meinen bisherigen Posts aussagen wollte war, dass ich in diesem Fall den Mehrwert durch den Plot nicht sehe. Oft genug ist ja die Steigung das gesuchte um Vorraussagen über größere Systeme treffen zu können. Man muss sich aber klar machen ob die Information die man erhält einen auch wirklich weiterbringt. Hier will Ianus das ganze eh nur mit einer größeren Bücherzahl hochrechnen, ergo bringt ihm ein Wert pro Seite gar nichts.

Wenn man einen Plot machen will würde ich den Achsenabschnitt auf Null festsetzen. Null Seiten zu Scannen sollte Null Zeit dauern (theoretisch.) Das Bestimmtheitsmaß nimmt dann etwas ab, das ist aber zu erwarten wenn ich einen Freiheitsgrad rausnehme.

Ich verwende zum Plotten aufgrund der von mir genannten Probleme mit Excel übrigens ein anderes Programm (Origin Pro 8 ). Excel ist halt für den kaufmännischen Bereich gemacht nicht für den wissenschaftlichen.

**Zelretch** · 24.09.2013 18:14

Zitat von Niolon

Was ich also mit meinen bisherigen Posts aussagen wollte war, dass ich in diesem Fall den Mehrwert durch den Plot nicht sehe. Oft genug ist ja die Steigung das gesuchte um Vorraussagen über größere Systeme treffen zu können. Man muss sich aber klar machen ob die Information die man erhält einen auch wirklich weiterbringt. Hier will Ianus das ganze eh nur mit einer größeren Bücherzahl hochrechnen, ergo bringt ihm ein Wert pro Seite gar nichts.

Wenn man einen Plot machen will würde ich den Achsenabschnitt auf Null festsetzen. Null Seiten zu Scannen sollte Null Zeit dauern (theoretisch.) Das Bestimmtheitsmaß nimmt dann etwas ab, das ist aber zu erwarten wenn ich einen Freiheitsgrad rausnehme.

Ich verwende zum Plotten aufgrund der von mir genannten Probleme mit Excel übrigens ein anderes Programm (Origin Pro 8 ). Excel ist halt für den kaufmännischen Bereich gemacht nicht für den wissenschaftlichen.

Wie bereits gesagt , erst durch den Plot wird Anschaulich dass sich die Scannzeiten bei einer fixen Seitenzahl sehr stark streuen, es ist durchaus bedeutsam diese Fälle aus der Auswahl zu entfernen um eine möglichst genaue Abschätzung zu erhalten. Es geht hierbei tatsächlich darum einen möglichst guten Schätzwert zu erhalten, und bei einem Bestimmtheitsmaß von nahe 0 hat dieser Schätzwert einen relativ kleinen Nutzen, sodass es nur sinnvoll sein kann die Ausnahmen die besonderst aufwendige Photoshoparbeit , oder die Ausnahmen bei denen der Computer defekt war, aus dem Datensatz zu entfernen.

Die Achse muss tatsächlich nicht durch den Nullpunkt gehen, weil man Bspws zum Anschalten der Gerätschaften Zeit aufwenden muss die nicht von der Seitenzahl abhängig ist. Natürlich müsste man bei 0 Seiten dann diesen Zeitaufwand nicht erbringen, aber der geschätzte Wert bei 0 Seiten interessiert in diesem Fall auch niemanden.

**Niolon** · 24.09.2013 19:04

Zitat von Zelretch

Wie bereits gesagt , erst durch den Plot wird Anschaulich dass sich die Scannzeiten bei einer fixen Seitenzahl sehr stark streuen, es ist durchaus bedeutsam diese Fälle aus der Auswahl zu entfernen um eine möglichst genaue Abschätzung zu erhalten. Es geht hierbei tatsächlich darum einen möglichst guten Schätzwert zu erhalten, und bei einem Bestimmtheitsmaß von nahe 0 hat dieser Schätzwert einen relativ kleinen Nutzen, sodass es nur sinnvoll sein kann die Ausnahmen die besonderst aufwendige Photoshoparbeit , oder die Ausnahmen bei denen der Computer defekt war, aus dem Datensatz zu entfernen.

Es ist richtig das bei einem so schlechten Bestimmtheitsmaß kein guter Schätzwert zu ermitteln ist. Daraus lässt sich aber nicht schließen das die Bücher mit starker Abweichung aus der Stichprobe zu entfernen sind. Auch im vollständigen Bestand gibt es ja Bücher, die einen solchen Aufwand benötigen und auch die muss ich erfassen. Ein hohes Bestimmtheitsmaß ist ja kein Selbstzweck. In dem Moment ist dann zwar der Wert für die noch übrig bleibende Stichprobe genauer, das erkaufe ich mir aber dadurch das meine Stichprobe nicht mehr repräsentativ ist. Was anderes ist es wenn ein Gerätefehler (Computer defekt) vorliegt. In diesem Fall kann ich tatsächlich Werte verwerfen, weil das durch einen äußeren Einfluss und nicht durch die Schwierigkeit des Scannens an sich bedingt ist.

Zitat von Zelretch

Die Achse muss tatsächlich nicht durch den Nullpunkt gehen, weil man Bspws zum Anschalten der Gerätschaften Zeit aufwenden muss die nicht von der Seitenzahl abhängig ist. Natürlich müsste man bei 0 Seiten dann diesen Zeitaufwand nicht erbringen, aber der geschätzte Wert bei 0 Seiten interessiert in diesem Fall auch niemanden.

Wenn ich Zeit für das Anschalten der Geräte bräuchte wäre der Achsenabschnitt allerdings positiv und nicht negativ. Wie gesagt ich seh das immer aus der naturwissenschaftlichen Perspektive, aber ein Wert der physikalisch nicht möglich ist, ist nicht besser als ein physikalisch möglicher.

**Zelretch** · 24.09.2013 19:50

Zitat von Niolon

Es ist richtig das bei einem so schlechten Bestimmtheitsmaß kein guter Schätzwert zu ermitteln ist. Daraus lässt sich aber nicht schließen das die Bücher mit starker Abweichung aus der Stichprobe zu entfernen sind. Auch im vollständigen Bestand gibt es ja Bücher, die einen solchen Aufwand benötigen und auch die muss ich erfassen. Ein hohes Bestimmtheitsmaß ist ja kein Selbstzweck. In dem Moment ist dann zwar der Wert für die noch übrig bleibende Stichprobe genauer, das erkaufe ich mir aber dadurch das meine Stichprobe nicht mehr repräsentativ ist. Was anderes ist es wenn ein Gerätefehler (Computer defekt) vorliegt. In diesem Fall kann ich tatsächlich Werte verwerfen, weil das durch einen äußeren Einfluss und nicht durch die Schwierigkeit des Scannens an sich bedingt ist.

Doch das macht durchaus Sinn und wird auch in der wirtschaft häufig gemacht. Es geht darum die relevante Komponente zu isolieren. Wir betrachten in diesem Fall ein "durchschnittliches Buch" also keine Bücher die komplett modrig, verwelkt oder aus irgend einem anderen Grund offensichtlich aufwendige Photoshoparbeit benötigen bevor sie gescannt werden können, das sind schließlich auch die wenigen Ausnahmen, sondern wollen wissen wie lange das Scannen unter üblichen Umständen (kein Computer Defekt) für ein normales Buch dauert.

Zitat

Wenn ich Zeit für das Anschalten der Geräte bräuchte wäre der Achsenabschnitt allerdings positiv und nicht negativ. Wie gesagt ich seh das immer aus der naturwissenschaftlichen Perspektive, aber ein Wert der physikalisch nicht möglich ist, ist nicht besser als ein physikalisch möglicher.

Naja also bei einem Bestimmtheitsmaß von 0,2 kann man von der Regressionsgeraden auch keine realistischen Verlauf erwarten, ich meinte natürlich den allgemeinen Fall wenn die Werte tatsächlich sehr linear verlaufen würden. In dem Fall wäre ein positiver Achsenabschnitt zu erwarten. Durch den Ursprung muss die Funktion nicht zwangsweise gehen.

**Niolon** · 24.09.2013 22:28

Zitat von Zelretch

Doch das macht durchaus Sinn und wird auch in der wirtschaft häufig gemacht. Es geht darum die relevante Komponente zu isolieren. Wir betrachten in diesem Fall ein "durchschnittliches Buch" also keine Bücher die komplett modrig, verwelkt oder aus irgend einem anderen Grund offensichtlich aufwendige Photoshoparbeit benötigen bevor sie gescannt werden können, das sind schließlich auch die wenigen Ausnahmen, sondern wollen wissen wie lange das Scannen unter üblichen Umständen (kein Computer Defekt) für ein normales Buch dauert.

Sorry, irgendwie kommt mir das spanisch vor. Also nochmal auf Anfang das wir wirklich über eine Sache reden hier. Das Ziel der ganzen Aktion ist es abzuschätzen wie viel zeit ich für einen fixen kompletten Satz Bücher brauche. Dafür haben wir eine repräsentative Stichprobe an Büchern anhand derer wir einen Wert ermitteln wollen für den Gesamtbestand. Wovon ich ausgehe ist, dass man sich nicht auf die beschränken will, die gut zu scannen sind.

Ich gehe nicht davon aus das irgendwo ein Computerdefekt beim Ziehen dieser Stichprobe vorlag, stattdessen wurde unter den Umständen gearbeitet, anhand derer auch hinterher die Arbeit stattfindet.

In dem Fall ist für mich relevant wie lange es tatsächlich dauert den Gesamtbestand zu scannen. Dafür möchtest du bestimmte Bücher aus der Stichprobe entfernen, einfach aus dem Grund das sie dir die Statistik versauen, um dann ein "durchschnittliches normales Buch" zu bekommen. In dem hinterher zu scannenden Bestand gibt es aber auch nicht "normale Bücher," die du aus Vereinfachungsgründen einfach mal unterschlägst. Das meinte ich damit, dass du die Repräsentativität reduzierst. Nachdem du diese Werte, nicht aufgrund eines äußeren Kriteriums wie "lag schief drauf," also etwas, dass man hinterher beim eigentlichen Scannen vermeiden/isolieren kann, aussortierst, sondern einfach aufgrund ihrer unterwarteten Position in deiner Statistik.

Vielleicht hab ich dich falsch verstanden, aber so erhälst du zwar einen hübscheren Wert, der aber schlechter auf das zu lösende Problem anzuwenden ist. Du machst da eine Vereinfachung, die die Aussagekraft deines Wertes stärker reduziert, als der Gewinn an Signifikanz einzuschätzen ist. Im Gegenteil, während du bei der Statistik eine Idee hast wie Ungenau dein Wert um den wahren Wert streut, kannst du nach deiner Vereinfachung darüber keine Aussage mehr treffen.

Den Nebenkriegsschauplatz mit dem Achsenabschnitt mach ich mal zu, du hast recht bei der statistischen Unsicherheit, ist das eigentlich egal.

**Zelretch** · 24.09.2013 23:45

Nein du hast mich wohl nicht richtig verstanden. Wenn wir deine Methode nehmen und stumpf den Mittelwert berechnen und die Varianz berücksichtigen haben wir bei einer großen Varianz einen Schätzwert der vermutlich kaum Aussagekräftig ist, das hast du so wie ich das verstanden habe bereits selber fest gestellt. Die Sache ist nun dass man bei der Regressionsgeraden und dem Scatterplot die Möglichkeit hat die einzelnen Ausreißer gezielt zu identifizieren und aus der Statistik "auszudiskutieren". Denn die Grundannahme damit ein solcher Schätzwert überhaupt Sinn macht ist dass das Scannen von x Seiten auch immer circa y Minuten dauert. In diesem Fall ist es allerdings so dass das Scannen von x Seiten unnatürlich oft deutlich länger als y Minuten dauert und diese Werte muss man sich genauer ansehen. Wenn es durch einen Computerdefekt passiert ist kann man den Wert gleich raus nehmen. Wenn es eine antike verwelkte Schrift war die in dieser Art nur ein mal auf der Welt existiert ebenfalls. Natürlich kann man nicht alles raus nehmen bis es eine schöne gerade ergibt aber man hat in dem einen Fall der Aussortierung einen präziseren Schätzwert bei dem man weiß welche Fälle er abdeckt und im anderen Fall einen Schätzwert von dem man weiß dass er viel zu ungenau ist.

**Niolon** · 25.09.2013 00:42

Alles klar dann hab ich dir zu sehr Vereinfachung unterstellt. Natürlich kann man sich die Bücher die ausreißen nochmal ansehen und schauen ob sie einmalig sind. Ein Ausreißen kann ja ein Hinweis auf eine Fehlfunktion sein. Wenn aber keine Besonderheit vorliegt kann man sie eben nicht aussortieren.

**Ianus** · 26.09.2013 20:20

Zitat von Zelretch

Sorry ich war gestern zu müde um das noch fertig zu machen, ich hab das hier jetzt mit Antiqa und Minuten mal durchgerechnet:
http://www.file-upload.net/download-...tiqua.xls.html
Als Ergebnis kommt: 3,8174x - 0,6662 für die Regressionsfunktion und (durch Einsetzen von 3,2) 11,54948 Minuten als die zu erwartende Scannzeit für ein durchschnittliches Buch heraus. Ich hoffe du findest deinen Fehler in obiger Excel Tabelle.

Okay, danke. Ich habe es jetzt.

Thema: Statistik what do

Themen-Optionen

Anzeige

Berechtigungen