Ergebnis 1 bis 20 von 33

Thema: Statistik what do

Hybrid-Darstellung

Vorheriger Beitrag Vorheriger Beitrag   Nächster Beitrag Nächster Beitrag
  1. #1
    Zitat Zitat von Niolon Beitrag anzeigen
    Es ist richtig das bei einem so schlechten Bestimmtheitsmaß kein guter Schätzwert zu ermitteln ist. Daraus lässt sich aber nicht schließen das die Bücher mit starker Abweichung aus der Stichprobe zu entfernen sind. Auch im vollständigen Bestand gibt es ja Bücher, die einen solchen Aufwand benötigen und auch die muss ich erfassen. Ein hohes Bestimmtheitsmaß ist ja kein Selbstzweck. In dem Moment ist dann zwar der Wert für die noch übrig bleibende Stichprobe genauer, das erkaufe ich mir aber dadurch das meine Stichprobe nicht mehr repräsentativ ist. Was anderes ist es wenn ein Gerätefehler (Computer defekt) vorliegt. In diesem Fall kann ich tatsächlich Werte verwerfen, weil das durch einen äußeren Einfluss und nicht durch die Schwierigkeit des Scannens an sich bedingt ist.
    Doch das macht durchaus Sinn und wird auch in der wirtschaft häufig gemacht. Es geht darum die relevante Komponente zu isolieren. Wir betrachten in diesem Fall ein "durchschnittliches Buch" also keine Bücher die komplett modrig, verwelkt oder aus irgend einem anderen Grund offensichtlich aufwendige Photoshoparbeit benötigen bevor sie gescannt werden können, das sind schließlich auch die wenigen Ausnahmen, sondern wollen wissen wie lange das Scannen unter üblichen Umständen (kein Computer Defekt) für ein normales Buch dauert.

    Zitat Zitat
    Wenn ich Zeit für das Anschalten der Geräte bräuchte wäre der Achsenabschnitt allerdings positiv und nicht negativ. Wie gesagt ich seh das immer aus der naturwissenschaftlichen Perspektive, aber ein Wert der physikalisch nicht möglich ist, ist nicht besser als ein physikalisch möglicher.
    Naja also bei einem Bestimmtheitsmaß von 0,2 kann man von der Regressionsgeraden auch keine realistischen Verlauf erwarten, ich meinte natürlich den allgemeinen Fall wenn die Werte tatsächlich sehr linear verlaufen würden. In dem Fall wäre ein positiver Achsenabschnitt zu erwarten. Durch den Ursprung muss die Funktion nicht zwangsweise gehen.

  2. #2
    Zitat Zitat von Zelretch Beitrag anzeigen
    Doch das macht durchaus Sinn und wird auch in der wirtschaft häufig gemacht. Es geht darum die relevante Komponente zu isolieren. Wir betrachten in diesem Fall ein "durchschnittliches Buch" also keine Bücher die komplett modrig, verwelkt oder aus irgend einem anderen Grund offensichtlich aufwendige Photoshoparbeit benötigen bevor sie gescannt werden können, das sind schließlich auch die wenigen Ausnahmen, sondern wollen wissen wie lange das Scannen unter üblichen Umständen (kein Computer Defekt) für ein normales Buch dauert.
    Sorry, irgendwie kommt mir das spanisch vor. Also nochmal auf Anfang das wir wirklich über eine Sache reden hier. Das Ziel der ganzen Aktion ist es abzuschätzen wie viel zeit ich für einen fixen kompletten Satz Bücher brauche. Dafür haben wir eine repräsentative Stichprobe an Büchern anhand derer wir einen Wert ermitteln wollen für den Gesamtbestand. Wovon ich ausgehe ist, dass man sich nicht auf die beschränken will, die gut zu scannen sind.

    Ich gehe nicht davon aus das irgendwo ein Computerdefekt beim Ziehen dieser Stichprobe vorlag, stattdessen wurde unter den Umständen gearbeitet, anhand derer auch hinterher die Arbeit stattfindet.

    In dem Fall ist für mich relevant wie lange es tatsächlich dauert den Gesamtbestand zu scannen. Dafür möchtest du bestimmte Bücher aus der Stichprobe entfernen, einfach aus dem Grund das sie dir die Statistik versauen, um dann ein "durchschnittliches normales Buch" zu bekommen. In dem hinterher zu scannenden Bestand gibt es aber auch nicht "normale Bücher," die du aus Vereinfachungsgründen einfach mal unterschlägst. Das meinte ich damit, dass du die Repräsentativität reduzierst. Nachdem du diese Werte, nicht aufgrund eines äußeren Kriteriums wie "lag schief drauf," also etwas, dass man hinterher beim eigentlichen Scannen vermeiden/isolieren kann, aussortierst, sondern einfach aufgrund ihrer unterwarteten Position in deiner Statistik.

    Vielleicht hab ich dich falsch verstanden, aber so erhälst du zwar einen hübscheren Wert, der aber schlechter auf das zu lösende Problem anzuwenden ist. Du machst da eine Vereinfachung, die die Aussagekraft deines Wertes stärker reduziert, als der Gewinn an Signifikanz einzuschätzen ist. Im Gegenteil, während du bei der Statistik eine Idee hast wie Ungenau dein Wert um den wahren Wert streut, kannst du nach deiner Vereinfachung darüber keine Aussage mehr treffen.

    Den Nebenkriegsschauplatz mit dem Achsenabschnitt mach ich mal zu, du hast recht bei der statistischen Unsicherheit, ist das eigentlich egal.

  3. #3
    Nein du hast mich wohl nicht richtig verstanden. Wenn wir deine Methode nehmen und stumpf den Mittelwert berechnen und die Varianz berücksichtigen haben wir bei einer großen Varianz einen Schätzwert der vermutlich kaum Aussagekräftig ist, das hast du so wie ich das verstanden habe bereits selber fest gestellt. Die Sache ist nun dass man bei der Regressionsgeraden und dem Scatterplot die Möglichkeit hat die einzelnen Ausreißer gezielt zu identifizieren und aus der Statistik "auszudiskutieren". Denn die Grundannahme damit ein solcher Schätzwert überhaupt Sinn macht ist dass das Scannen von x Seiten auch immer circa y Minuten dauert. In diesem Fall ist es allerdings so dass das Scannen von x Seiten unnatürlich oft deutlich länger als y Minuten dauert und diese Werte muss man sich genauer ansehen. Wenn es durch einen Computerdefekt passiert ist kann man den Wert gleich raus nehmen. Wenn es eine antike verwelkte Schrift war die in dieser Art nur ein mal auf der Welt existiert ebenfalls. Natürlich kann man nicht alles raus nehmen bis es eine schöne gerade ergibt aber man hat in dem einen Fall der Aussortierung einen präziseren Schätzwert bei dem man weiß welche Fälle er abdeckt und im anderen Fall einen Schätzwert von dem man weiß dass er viel zu ungenau ist.

    Geändert von Zelretch (24.09.2013 um 22:50 Uhr)

  4. #4
    Alles klar dann hab ich dir zu sehr Vereinfachung unterstellt. Natürlich kann man sich die Bücher die ausreißen nochmal ansehen und schauen ob sie einmalig sind. Ein Ausreißen kann ja ein Hinweis auf eine Fehlfunktion sein. Wenn aber keine Besonderheit vorliegt kann man sie eben nicht aussortieren.

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •