Man könnte natürlich verschiedene Datensätze erstellen - einmal einen ohne Stopwortliste und dann einen mit; das sollte in PHP ruckzuck gehen.
Hmm... Mit ein paar ordentlichen Klassifikatoren und gestaffelten Datensätzen (beispielsweise insgesamt/im letzten Jahr/im letzten Monat/pro (Jahr/Monat)) könnte man ein paar nette Statistiken aufstellen - beispielsweise, welche Sprachen wann am populärsten waren und wie viel Prozent aller Substantive eigentlich Fachjargon sind.
(BTW, da müßte man mal einen Admin anhauen, ob der einem über Nacht mal einen selektiven Datenbankdump anfertigen könnte (mit anonymisierten UIDs, versteht sich); das würde das Preprocessing stark vereinfachen.)
Ah. Code nicht gelesen und einen allgemeinen Vorschlag gemacht.Zitat






Andere Möglichkeit: du baust sie selbst ein, ist schließlich OSS.
Aber evtl. kann ich ja eine benutzerdefinierte Stopwortliste implementieren, und falls du eine zur Verfügung stellen kannst, die als Starthilfe beilegen. ^^
Zitieren