Script/Pgm zur automatischen Umbenennung von Dokumenten

Peter Bachmann
Gast

« am: 22.02.09, 11:07:43 »

Ich möchte eine umfangreiche Sammlung (annähernd 200.000 Dokumente) von Programmbeschreibungen bzw. Tipps & Tricks archivieren.
Die Dokumente liegen überwiegend in HTML vor und haben fast ausschließlich nichtssagende Titel.

Der struktuelle Aufbau von HTML würde es m.E. erlauben, die Überschrift jedes Artikels zu identifizieren. Am Anfang kommt ein Haufen Formalkram (welche sprachlichen Regeln für das Dokument gelten und grundsätzliches zum Seitenaufbau, Notizen des Verfassers). Aber dann kommt irgendwann die Zeichenfolge -body- (wobei die Bindestriche durch eckige Klammern auf/zu zu ersetzen werden, was ich hier lieber nicht mache, weil das zu merkwürdigen Ergebnissen führen könnte). Hier beginnt der eigentliche Inhalt der Seite, also das, was man auf dem Bildschirm sieht.
In der Regel folgt jetzt -h1- (eckige Klammern) danach die Überschrift gefolgt von -/h1-

Ich benötigte also ein Script, welches diese Überschrift ausliest und die Datei entsprechend umbenennt.

denke mir das in etwa so:
vom 1. Element
Dokument einlesen
Zeichenkette -body--h1- suchen
folgenden String auslesen bis -/h1-
Dokument schließen
Dokument umbenennen
nächstes Dokument
bis letztes Element

Hab nur keine Ahnung, wie man so etwas kodiert, weil ich auf dem Pc bislang noch keine Programmiersprache gelernt habe. (Ist in Planung, aber Gesundheit und Zeit wollen nicht immer so wie ich.)
Wäre Euch sehr dankbar, wenn Ihr mir helfen könntet. (würde viel Zeit sparen z.B. zum Lernen)

Moderator informieren

eBill (†) (8.625)

120x Beste Antwort

169x "Danke"

Re: automatische Umbenennung von HTML-Dokumenten

« Antwort #1 am: 22.02.09, 13:31:45 »

Hat dir diese Antwort geholfen?

Hi

? Hab ich das recht verstanden ?

Du hast "millionen" von HTML-Dateien im Format nnnn.html oder xxxx-nnn.html.

? Ja ?

Jede dieser Dateien hat "im Body ein Heading" -
welches man für einen eindeutigen, neuen DateiNamen verwenden könnte.

? Ja ?

Dann zitiere hier bitte den signifikanten Abschnitt aus dem Body einer deiner Dateien,
dass wir uns was vorstellen können.

Ich gehe davon aus, dass du nicht den <title>-Tag meinst,
weil der steht auch nicht im Body

Erwin Billmaier

Moderator informieren

Peter Bachmann
Gast

Re: automatische Umbenennung von HTML-Dokumenten

« Antwort #2 am: 22.02.09, 13:49:34 »

Weiß zwar nicht, wie Du von knapp 100.000 auf millionen kommst, aber gut.

Meines Wissens (wobei man sich die Bindestriche als eckige Klammern vorstellen muß,weil das sonst ein mittleres Chaos gäbe)hat ein Html-Dokument folgenden Aufbau:

Html-Dialekt
globale Format-angaben
Titel

und dann:
-body-
-h1-Überschrift-/h1-

Inhalt

-/body-

gemeint ist der Text zwischen dem einleitenden Tag h1 und dem abschließenden Tag /h1

Moderator informieren

eBill (†) (8.625)

120x Beste Antwort

169x "Danke"

Re: Script/Pgm zur automatischen Umbenennung von Dokumenten

« Antwort #3 am: 22.02.09, 14:20:58 »

Hat dir diese Antwort geholfen?

Naja, im Kopfrechnen war ich noch nie gut

Zitat von: Peter Bachmann date=1235251283

... mehr als 89.000 Tipps und noch nicht gezählten Programm-Beschreibungen ...

Sei's drum.

Einfach wird das ganze nicht; mit einem einfachen Script ist das nicht getan.

Zumal es sich um versch. Zeitschriften, versch. Jahrgänge
und mit Sicherheit versch. Aufbauten handelt,
wird m.E. nach eine höhere Programmiersprache herhalten müssen,
die die HTML-Dokumente als Textdatei "abarbeitet" und
sich gleichzeitig um das DateiManagement kümmert.

@WEbMaster -
wenn Du nochmal den Thread verschiebst, während ich antworte, dann ....

Moderator informieren

Script/Pgm zur automatischen Umbenennung von Dokumenten

Antworten zu Script/Pgm zur automatischen Umbenennung von Dokumenten:

Re: automatische Umbenennung von HTML-Dokumenten

Mehr zu Script/Pgm zur automatischen Umbenennung von Dokumenten

« Visual Basic.Net		Win XP: Meldefenster bei Programmende oder beim windows herunterfahren »