Ich möchte eine umfangreiche Sammlung (annähernd 200.000 Dokumente) von Programmbeschreibungen bzw. Tipps & Tricks archivieren.
Die Dokumente liegen überwiegend in HTML vor und haben fast ausschließlich nichtssagende Titel.
Der struktuelle Aufbau von HTML würde es m.E. erlauben, die Überschrift jedes Artikels zu identifizieren. Am Anfang kommt ein Haufen Formalkram (welche sprachlichen Regeln für das Dokument gelten und grundsätzliches zum Seitenaufbau, Notizen des Verfassers). Aber dann kommt irgendwann die Zeichenfolge -body- (wobei die Bindestriche durch eckige Klammern auf/zu zu ersetzen werden, was ich hier lieber nicht mache, weil das zu merkwürdigen Ergebnissen führen könnte). Hier beginnt der eigentliche Inhalt der Seite, also das, was man auf dem Bildschirm sieht.
In der Regel folgt jetzt -h1- (eckige Klammern) danach die Überschrift gefolgt von -/h1-
Ich benötigte also ein Script, welches diese Überschrift ausliest und die Datei entsprechend umbenennt.
denke mir das in etwa so:
vom 1. Element
Dokument einlesen
Zeichenkette -body--h1- suchen
folgenden String auslesen bis -/h1-
Dokument schließen
Dokument umbenennen
nächstes Dokument
bis letztes Element
Hab nur keine Ahnung, wie man so etwas kodiert, weil ich auf dem Pc bislang noch keine Programmiersprache gelernt habe. (Ist in Planung, aber Gesundheit und Zeit wollen nicht immer so wie ich.)
Wäre Euch sehr dankbar, wenn Ihr mir helfen könntet. (würde viel Zeit sparen z.B. zum Lernen)
Peter Bachmann Gast |