Sorry, irgendwie kommt mir das spanisch vor. Also nochmal auf Anfang das wir wirklich über eine Sache reden hier. Das Ziel der ganzen Aktion ist es abzuschätzen wie viel zeit ich für einen fixen kompletten Satz Bücher brauche. Dafür haben wir eine repräsentative Stichprobe an Büchern anhand derer wir einen Wert ermitteln wollen für den Gesamtbestand. Wovon ich ausgehe ist, dass man sich nicht auf die beschränken will, die gut zu scannen sind.
Ich gehe nicht davon aus das irgendwo ein Computerdefekt beim Ziehen dieser Stichprobe vorlag, stattdessen wurde unter den Umständen gearbeitet, anhand derer auch hinterher die Arbeit stattfindet.
In dem Fall ist für mich relevant wie lange es tatsächlich dauert den Gesamtbestand zu scannen. Dafür möchtest du bestimmte Bücher aus der Stichprobe entfernen, einfach aus dem Grund das sie dir die Statistik versauen, um dann ein "durchschnittliches normales Buch" zu bekommen. In dem hinterher zu scannenden Bestand gibt es aber auch nicht "normale Bücher," die du aus Vereinfachungsgründen einfach mal unterschlägst. Das meinte ich damit, dass du die Repräsentativität reduzierst. Nachdem du diese Werte, nicht aufgrund eines äußeren Kriteriums wie "lag schief drauf," also etwas, dass man hinterher beim eigentlichen Scannen vermeiden/isolieren kann, aussortierst, sondern einfach aufgrund ihrer unterwarteten Position in deiner Statistik.
Vielleicht hab ich dich falsch verstanden, aber so erhälst du zwar einen hübscheren Wert, der aber schlechter auf das zu lösende Problem anzuwenden ist. Du machst da eine Vereinfachung, die die Aussagekraft deines Wertes stärker reduziert, als der Gewinn an Signifikanz einzuschätzen ist. Im Gegenteil, während du bei der Statistik eine Idee hast wie Ungenau dein Wert um den wahren Wert streut, kannst du nach deiner Vereinfachung darüber keine Aussage mehr treffen.
Den Nebenkriegsschauplatz mit dem Achsenabschnitt mach ich mal zu, du hast recht bei der statistischen Unsicherheit, ist das eigentlich egal.