Firefox - Webseiten offline lesen [Archiv]

Shinigami

17.03.2005, 15:33

Da ich für eine längere Zeit ohne Inet sein werde, ich aber trotzdem auf gewisse Nachschlagewerke im Internet zugreifen möchte, würde ich gerne erfahren, ob es für den Firefox 0.9.3 irgendeine Erweiterung gibt, die es mir erlaubt, eine Webseite quasi abzugrasen und mitsamt ihren Unterlinks/Unterseiten abzuspeichern. Mit der Hand würde das natürlich sehr lange dauern und das Resultat wäre eher unkomfortabel.
Ich glaube mich sogar zu erinnern, dass es in irgendeiner IE Version möglich war.

Chocwise

17.03.2005, 17:56

Du brauchst einen Webspider.
Ich persönlich würde definitiv wget (http://allserv.ugent.be/~bpuype/wget/) für Windows empfehlen. Das Problem ist nur, das es etwas Fummelarbeit ist, weil das Programm Commandlinebasiert ist.

Notfalls können wir das so machen, dass du uns die entsprechende Website nennst und wir dir einen Befehl für wget erstellen mit dem du die Page spiegeln kannst.

Shinigami

17.03.2005, 20:20

Oi, doch so kompliziert, ja? Hatte mir das ganze leichter vorgestellt. Aber eigentlich wäre ich schon dankbar wenn diese Seite (http://www.boeckler.de/cps/rde/xchg/SID-3D0AB75D-7B9239/hbs/hs.xsl/275.html) offline auf meinem PC zur Verfügung stehen würde.
Von wget habe ich noch nie etwas gehört, weiss demnach weder wie es funktioniert, noch wie gross der Umfang für so eine Seitenspiegelung ist. Aber wenn du mir einen Befehl für obige Seite basteln könntest, würde ich mir sogar überlegen, eine Runde Füsse küssen springen zu lassen :D

Chocwise

17.03.2005, 20:55

Oi, doch so kompliziert, ja? Hatte mir das ganze leichter vorgestellt. Aber eigentlich wäre ich schon dankbar wenn diese Seite (http://www.boeckler.de/cps/rde/xchg/SID-3D0AB75D-7B9239/hbs/hs.xsl/275.html) offline auf meinem PC zur Verfügung stehen würde.
Von wget habe ich noch nie etwas gehört, weiss demnach weder wie es funktioniert, noch wie gross der Umfang für so eine Seitenspiegelung ist. Aber wenn du mir einen Befehl für obige Seite basteln könntest, würde ich mir sogar überlegen, eine Runde Füsse küssen springen zu lassen :D
Mit Bilder oder ohne?

Vorteil ohne Bilder: Die Spiegelung geht wesentlich schneller von statten.

Nunja, wärend ich den Befehl für beide Variationen bastel und dann später hier reineditiere bzw. Poste, wenn jemand nach mir gepostet hat, besorg dir schonmal die wget.exe (http://allserv.ugent.be/~bpuype/cgi-bin/fetch.pl?dl=wget/wget.exe)-Datei.
Dann öffne mal die DOS-Eingabeaufforderung (Start -> Programme -> Zubehör -> Eingabeaufforderung/Kommandozeile/MS-DOS/Whatever) und geb dort dies ein:
path

schieb die wget.exe dann in irgendeinen der daraufhin ausgegebenen Pfade. Die Pfade sind über ein Semikolon (";") getrennt. Bei mir würde ich es z.B. in C:\WINDOWS\COMMAND\ schieben, nur weiß ich nicht wie das bei WinXP ausschaut.

UPDATE: Hmja... *kratzambart* Da hast du eine Seite erwischt die mit GET-Variablen arbeitet die unauff#llig in die URL eingebettet sind. Da haben, zumindest die Spiderprogramme die ich kenne, gerne Probleme mit. XD
Somit wird's noch komplizierter.
wget kann die Seite zwwar spiegeln, nur sind die Links in der Seite dann falsch und man kann sich nicht bequem durch rumklicken auf der Seite durch die Seite navigieren sondern muss die .html-Dateien deren Dateinamen nicht sonderlich aussagekräftig sind, einzelnd öffnen.
Oder man benutzt einen Kniff und benutzt z.B. den Dateieditor Proton um innerhalb der Dateien diesen text: /cps/rde/xchg/SID-3D0AB75D-D1EEDACF/hbs/hs.xsl/ durch nichts ersetzen zu lassen.
Wenn du das machen möchtest, hier der Code für wget:
wget -m -k -nd --accept=.html,.php,.htm --level=9 -np --domains=www.boeckler.de http://www.boeckler.de/cps/rde/xchg
(ohne Bilder)

wget -m -k -nd --accept=".html, .php, .htm, .jpg, .png, .gif" --level=9 -np --domains=www.boeckler.de http://www.boeckler.de/cps/rde/xchg
(mit Bilder)

Einen der Befehle pack in eine Textdatei, benenn diese in suck.bat um, und pack die Datei in einen leeren Ordner. Führ die Datei dann per Doppelklick aus.
Proton bekommt man kostenlos hier:
http://www.meybohm.de/

Alternativ kannst du auch warten bis jemand eine andere, vielleicht bequemere Softwarelösung hier postet. Weil zugegeben, ist schon recht kompliziert und gar nicht so einfach nachzuvollziehen für jemanden der sich ncht häufig damit und mit Webtechnik beschäuftigt hat. ;)

R-Craven

18.03.2005, 06:52

Nimm doch die Extension Spiderzilla (http://spiderzilla.mozdev.org/) her ... sie benutzt HTTrack (http://www.httrack.com/) um die gewünschte Site herunterzuladen.

Bei der Windows-Version mußt du HTTrack nicht mal herunterladen, da es in der Extension schon integriert ist. Falls du mit der Fx-Erweiterung Probleme hast, kannst du ja immer noch HTTrack als Stand-Alone-Version testen :).

Shinigami

19.03.2005, 14:09

² Chochwise
Erstmal ein fettes Dankeschön an dich! Es las sich schwieriger, als es im Endeffekt war, die Seiten befinden sich jetzt schön unordentlich auf meiner Festplatte. Auch wenn das Navigieren eine Herausforderung darstellt, bin ich froh, dass ich überhaupt offline über die Quelltexte verfügen kann ^_^

² R-Craven
Die Erweiterung konnte ich installieren, probeweise habe ich auch mal versucht eine Seite "runterzuladen", allerdings kann ich mit dem Ergebnis recht wenig anfangen. Ich finde keine ausführbare Datei in jegwelcher Form. Ich hab mir zwar eine index.html erstellen lassen, allerdings zeigt die mir nur einen Fehler an, mehr nicht.

Chocwise

19.03.2005, 15:32

² Chochwise
Erstmal ein fettes Dankeschön an dich! Es las sich schwieriger, als es im Endeffekt war, die Seiten befinden sich jetzt schön unordentlich auf meiner Festplatte. Auch wenn das Navigieren eine Herausforderung darstellt, bin ich froh, dass ich überhaupt offline über die Quelltexte verfügen kann ^_^
...
Proton (http://www.meybohm.de/) könnte dem Ganzen noch den letzten Schliff geben und dir auch die Navigation innerhalb der Seiten erlauben, habs getestet. ;)
Wenn du Proton hast, öffne es, klick auf:
Bearbeiten -> Dateiübergreifendes Ersetzen -> Dateien auswählen -> Den Ordner mit den gesaugten .html-Dateien in das rechte Fenster ziehen -> Liste übernehmen.
Dann markier alle Dateien. Das geht am schnellsten wenn du die erste Datei anklickst, runterscrollst unddie letzte Datei in der Liste mit gedrückter Shift-Taste anklickst.

Jetzt im Feld "Zu ersetzender Text" füg die Ordnerstruktur ein die im Quelltext der Dateien in den Linktags stehen. Müsste nach diesem Schema sein:
/cps/rde/xchg/SID-[CODE]-[NOCH'N CODE]/hbs/hs.xsl/
Du wirst eine andere SessionID haben als ich bei meinem Testsaugvorgang. ;)
Den Text ersetzt du einfach durch nichts, also einfach das Feld "Text ersetzen durch" leer lassen.
Dann auf "Ersetzen", bestätigen und warten. ;)

Shinigami

19.03.2005, 16:13

Jetzt im Feld "Zu ersetzender Text" füg die Ordnerstruktur ein die im Quelltext der Dateien in den Linktags stehen. Müsste nach diesem Schema sein:
/cps/rde/xchg/SID-[CODE]-[NOCH'N CODE]/hbs/hs.xsl/

Also bis hierher hat noch alles geklappt, aber sehe ich das richtig, dass ich von jeder der Seiten den Linktag rauskopieren müsste? Zumindest haben die Seiten alle unterschiedliche Tags.

Chocwise

19.03.2005, 16:24

Also bis hierher hat noch alles geklappt, aber sehe ich das richtig, dass ich von jeder der Seiten den Linktag rauskopieren müsste? Zumindest haben die Seiten alle unterschiedliche Tags.
Hmh? Echt? Die Adressen sind immer unterschiedlich? O_o
Verdammt, ich dachte die SID bleibt immer gleich, solange die Session aktiv bleibt.
Hmja, dann gehts scheinbar doch nicht. :S

Shinigami

19.03.2005, 17:01

Hmh? Echt? Die Adressen sind immer unterschiedlich? O_o
Verdammt, ich dachte die SID bleibt immer gleich, solange die Session aktiv bleibt.
Hmja, dann gehts scheinbar doch nicht. :S
Trotzdem danke ^^
Konnte auch nicht deren ganze Webseite runterladen, bei 120 MB dachte ich, ich zieh mal die Bremse. Will ja keinen Ärger bekommen, wenn ich soviel Traffic verursache ^^;

Seh ich das richtig, das auf der Seite von der ich wget runtergeladen habe, auch der eine oder andere Kniff zum Selberschreiben von diversen Befehlen versteckt ist?

R-Craven

19.03.2005, 21:47

Also ich hab die Site boeckler.de grad mal mit Spiderzilla ne Zeit lang gesaugt und sie funktioniert bei mir einwandfrei. Die "File not Found"-Meldung(en) bekomm ich nur, wenn ich schon während des Downloads in dem Offline-Archiv surfen will.

Chocwise

19.03.2005, 23:59

Trotzdem danke ^^
Konnte auch nicht deren ganze Webseite runterladen, bei 120 MB dachte ich, ich zieh mal die Bremse. Will ja keinen Ärger bekommen, wenn ich soviel Traffic verursache ^^;

Seh ich das richtig, das auf der Seite von der ich wget runtergeladen habe, auch der eine oder andere Kniff zum Selberschreiben von diversen Befehlen versteckt ist?
Nunja, was heißt Kniff. wget ist wie ein Baukasten. Man kann sich aus einem Repertoire von Befehlen bedienen um sich den Befehl zusammenzubasteln, der einem am Besten passt.
Wenn du dich dafür interessierst, lass dir das Manual in einer Datei ausspucken:
wget --help > wget.txt
Das gibt das Manual wgets in einer Textdatei aus. Die Textdatei wird im Working Directory gespeichert. Also in dem Verzeichnis das vor dem Prompt der Eingabeaufforderung angezeigt wird.
C:\Verzeichnis> z.B..

Am besten schaust du dir dann meinen Befehl an und vergleichst ihn mit dem Manual um zu sehen was ich da getan hab. ;)

Und wegen dem Ärger wenn man zu viel saugt: Well... du hackst kein Passwort. :D Es ist sicherlich nicht ganz fein eine Seite zu spiegeln weil so manche Projekte eh am Traffic zu knabbern haben, aber Ärger gibts da nicht. Du nutzt nur den freien Zugang zu legalen Informationen. Dafür das die Bandbreite nicht überschritten wird, haben Projekte selbst zu sorgen.

Shinigami

21.03.2005, 11:50

² R-Craven
Als ich es bei Destatis ausprobiert habe, hat es auch plötzlich einwandfrei geklappt. Hab vielleicht doch zu früh versucht die Dateien zu öffnen. Danke nochmals für den Tipp.

²Chocwise
Danke für die "Anleitung" zur "Anleitung" :p