Forum
Tipps
News
Menu-Icon

Script/Pgm zur automatischen Umbenennung von Dokumenten

Ich möchte eine umfangreiche Sammlung (annähernd 200.000 Dokumente) von Programmbeschreibungen bzw. Tipps & Tricks archivieren.
Die Dokumente liegen überwiegend in HTML vor und haben fast ausschließlich nichtssagende Titel.

Der struktuelle Aufbau von HTML würde es m.E. erlauben, die Überschrift jedes Artikels zu identifizieren. Am Anfang kommt ein Haufen Formalkram (welche sprachlichen Regeln für das Dokument gelten und grundsätzliches zum Seitenaufbau, Notizen des Verfassers). Aber dann kommt irgendwann die Zeichenfolge -body- (wobei die Bindestriche durch eckige Klammern auf/zu zu ersetzen werden, was ich hier lieber nicht mache, weil das zu merkwürdigen Ergebnissen führen könnte). Hier beginnt der eigentliche Inhalt der Seite, also das, was man auf dem Bildschirm sieht.
In der Regel folgt jetzt -h1- (eckige Klammern) danach die Überschrift gefolgt von -/h1-

 Ich benötigte also ein Script, welches diese Überschrift ausliest und die Datei entsprechend umbenennt.

denke mir das in etwa so:
vom 1. Element
        Dokument einlesen
        Zeichenkette -body--h1- suchen
        folgenden String auslesen bis -/h1-
        Dokument schließen
        Dokument umbenennen
        nächstes Dokument
bis letztes Element

Hab nur keine Ahnung, wie man so etwas kodiert, weil ich auf dem Pc bislang noch keine Programmiersprache gelernt habe. (Ist in Planung, aber Gesundheit und Zeit wollen nicht immer so wie ich.)
Wäre Euch sehr dankbar, wenn Ihr mir helfen könntet. (würde viel Zeit sparen z.B. zum Lernen)


Antworten zu Script/Pgm zur automatischen Umbenennung von Dokumenten:

Hat dir diese Antwort geholfen?

Danke ButtonHilfreiche Antwort Button

Hi

? Hab ich das recht verstanden ?

Du hast "millionen" von HTML-Dateien im Format nnnn.html oder xxxx-nnn.html.

? Ja ?

Jede dieser Dateien hat "im Body ein Heading" -
welches man für einen eindeutigen, neuen DateiNamen verwenden könnte.

? Ja ?

Dann zitiere hier bitte den signifikanten Abschnitt aus dem Body einer deiner Dateien,
dass wir uns was vorstellen können.

Ich gehe davon aus, dass du nicht den <title>-Tag meinst,
weil der steht auch nicht im Body 8)

Erwin Billmaier

Weiß zwar nicht, wie Du von knapp 100.000 auf millionen kommst, aber gut.

Meines Wissens (wobei man sich die Bindestriche als eckige Klammern vorstellen muß,weil das sonst ein mittleres Chaos gäbe)hat ein Html-Dokument folgenden Aufbau:

Html-Dialekt
globale Format-angaben
Titel

und dann:
-body-
-h1-Überschrift-/h1-

Inhalt

-/body-

gemeint ist der Text zwischen dem einleitenden Tag h1 und dem abschließenden Tag /h1

Hat dir diese Antwort geholfen?

Danke ButtonHilfreiche Antwort Button

Naja, im Kopfrechnen war ich noch nie gut ;)

Zitat von: Peter Bachmann  date=1235251283

... mehr als 89.000 Tipps und noch nicht gezählten Programm-Beschreibungen ...
 

Sei's drum.

Einfach wird das ganze nicht; mit einem einfachen Script ist das nicht getan.

Zumal es sich um versch. Zeitschriften, versch. Jahrgänge
und mit Sicherheit versch. Aufbauten handelt,
wird m.E. nach eine höhere Programmiersprache herhalten müssen,
die die HTML-Dokumente als Textdatei "abarbeitet" und
sich gleichzeitig um das DateiManagement kümmert.

@WEbMaster -
wenn Du nochmal den Thread verschiebst, während ich antworte, dann .... >:(>:(>:(

« Visual Basic.Net Win XP: Meldefenster bei Programmende oder beim windows herunterfahren »
 

Schnelle Hilfe: Hier nach ähnlichen Fragen und passenden Tipps suchen!

Fremdwörter? Erklärungen im Lexikon!
Grundstrich
Der Begriff des Grundstrichs im Bereich der Typografie, bezeichnet den senkrechten Strich der Buchstaben. Bei Schriftarten mit variabler Strichstärke, wie zum Beispi...

Haarstrich
Der Begriff Haarstrich stammt aus dem Bereich der Typographie. Bei Schriften, wie zum Beispiel der Antiquaschrift mit unterschiedlichen Strichstärken, wird zwischen ...

Hypertext Dokumente
Als Hypertext Dokumente bezeichnet man Texte, in denen bestimmte Stichworte zu anderen Textstellen Querverweise bilden. Auf Knopfdruck lassen sich diese Absätze aufr...