Intuitiv hätte ich eine durchschnittliche Scangeschwindigkeit mit Standardabweichung bestimmt. Das heisst für jedes Buch einer Schriftart Seitenzahl / Zeit und dann per Excel Mittelwert und Standartabweichung (STABWN) des jeweiligen Datensatzes ausgewertet. dann hast du einen Wert und einen Fehlerintervall in dem der Wert mit 68% Wahrscheinlichkeit liegt. Mit doppelter Standartabweichung kommst du dann auf 95,5 %. Das ist dann mit der Gesamtseitenanzahl multipliziert deine Gesamtdauer.

Da du die Gesamtseitenzahl allerdings ja scheinbar gar nicht kennst / auch nur aus der Stichprobe abschätzen kannst aus der du die Geschwindigkeit bestimmst, kannst du auch einfach eine durschschnittliche Scandauer (also keine Geschwindigkeit) eines Buches als Mittelwert mit Fehler (Standartabweichung) bestimmen und das hochrechnen auf die Gesamtzahl der Bücher. Die Geschwindigkeit hat für dich ja keinen Wert wenn die Stichprobe aus der du eine durchschnittliche Seitenzahl ziehst nicht größer/ die gleiche ist, aus der du auch die Geschwindigkeit bestimmst. Also würd ich diese Möglichkeit anwenden.

Die Verhältnisse der Schriftarten kannst du aus dem Datensatz den du hast nicht bestimmen. Das heißt wenn du nicht irgendwo Daten dazu herbekommen kannst, gibt es nur die Möglichkeit zu schätzen. Statistisch ist das so wie du es beschrieben hast nicht zugänglich (woher auch) also entweder hast du irgendwo Informationen in welchen Jahrzehnten mit welchen Schriftarten gedruckt wurde oder du kannst dich (leider) nur auf dein Bauchgefühl verlassen. Statistik kann ja leider auch nur das auswerten was du an Daten aufgenommen hast. Du musst die Werte also generieren oder anderweitig organisieren. Hat vielleicht Google über Books Infos irgendwo darüber?

Naja das ist nur wie ich das als Naturwissenschaftler machen würd. Normalerweise werte ich andere Dinge aus ^^