So, ich habe gerade einen wichtigen Bug behoben, wodurch ich einem Release näher komme. Und zwar kam FeedNormalizer (eine Ruby-Bibliothek, die RSS-Feeds parst) nicht wirklich damit klar, wenn im Feed kaputtes HTML vorkam und hat dann wesentlich zu viel gelöscht.
Kurzes Beispiel aus dem German-Bash Feed:
Wird nach dem Unescapen zu:
Wie man sieht, fehlen da an mehreren Stellen die </p> Tags. FeedNormalizer hat das ganz radikal zu folgendem zusammengestrichen:
Mit Sanitize dagegen kriege ich folgendes Ergebnis:
Das sieht schon deutlich besser aus.
Edit: ich habe mal manuell Zeilenumbrüche eingefügt, damit man besser erkennt, was Sache ist.