Ich weiß zwar nicht so ganz, was ihr da so vorhabt, aber wie ich das verstehe, braucht ihr dann lediglich nur den clientseitigen Quellcode.
Der serverseitige Quellcode generiert ja den clientseitigen Code (den ihr ja über den Browser seht). HTML ist ja keine dynamische Scriptsprache, sondern eine statische Auszeichnungssprache. Man kann ja mit HTML z.B. keine Verbindung zu einer Datenbank aufbauen. Dies machen dann andere Sprachen, wie z.B. php, aber mit den php-Scripten könnt ihr eh nur wenig anfangen, weil ihr dann dafür einen Webserver braucht und selbst dann bringt euch das wenig, weil ihr die Datenbank nicht besitzt.

Ein Crawler ruft also die Webseite auf, wie ein Browser und durchsucht dann den HTML-Code nach weiteren Links, die er dann folgen kann.Es könnte bei den Crawlern aber zu Problemen kommen, wenn Links mittels JavaScript erzeugt werden, da die Crawler lediglich den HTML-Code nach Links durchsuchen und nicht den JavaScript-Code analysieren.

Da der HTML-Code meist sehr unstrukturiert generiert wird, und für Menschen etwas unleserlich ist, gibt es Tools, die den Code dann zurechtrücken. Wie z.B. die Web-App Dirty Markup.