Forum
Tipps
News
Menu-Icon

Andere: wget Spezialfall

Hallöchen alle miteinander,

ich versuche mich mal wieder an einem kleinen Skript um meine und auch andere Webseiten von mir zu kontrollieren. Ich will quasi (ich hoffe das geht mit wget), daß mir eine Webseite durchsucht wird, aber nicht die Dateien herunter geladen werden sondern nur der in einer Page hinterlegte Link zu einem Bild (jpg, jpeg, png und gif) in einer Textdatei gesammelt werden.
Wenn ich also http://meine-seite.de/index.html angebe soll mir wget anschliessend alle in dieser Seite vorkommenden Links die auf ein Bild (mit den entsprechenden Endungen) vorkommen in eine Textdatei legen, ohne diese allerdings herunter zu laden. Ist dies mit wget machbar? Optimal wäre es jetzt noch, wenn wget in der Lage wäre, wie eine Art Webspider sich durch die in der index.html verlinkten Seiten, die ebenfalls auf meine-seite.de liegen, zu kramen um dort ebenfalls die Links zu den Bildern zu "sammeln".

mfg Maddin


Antworten zu Andere: wget Spezialfall:

Hat dir diese Antwort geholfen?

Danke ButtonHilfreiche Antwort Button

Hallo

für den Download von Bildern gibt es selbst ein mächtiges shell-Komando.

httrack

wie du diese Bilder aber in einer Datei eintragen kannst bin ich mir nicht sicher, könnte aber gehen.

bevor du aber ein script dazu schreibst, würde ich mal dieses Programm testen, denn es gibt unter Ubuntu auch eine grafische Oberfläche, die die meisten Optionen mitgibt.

installiere dies doch einfach mal. (in der Konsole)

sudo apt-get install webhttrack
danach findest du dieses Programm unter

Anwendungen -> Internet -> WebHTTrack Website Copier

http://www.httrack.com/html/step.html

gruss

Hardy1979

Hat dir diese Antwort geholfen?

Danke ButtonHilfreiche Antwort Button

Hallo,

der opensuse Anwender nutzt dazu yast und installiert es aus der Packmanquelle.  ;)
Gibt aber noch weitere Alternativen. Als Plugin für den Firefox z.B. DownthemAll ( http://www.downthemall.net ) oder auch für Skripte und Konsole checkbot, linkchecker, die grafische Variante dazu für den KDE-Desktop: Klinkchecker. Das sind Programme welche mir dazu gerade spontan einfallen (gibt noch weitere). Ob und in wie weit das alles für deine Zwecke geeignet erscheint musst du selbst herausfinden.

Have Fun

« Letzte Änderung: 09.09.09, 14:11:48 von Dr. SuSE »

Hat dir diese Antwort geholfen?

Danke ButtonHilfreiche Antwort Button

also httrack kenn ich bereits (ist auch in meinen Repositorys drin) ... das funktioniert auch ganz gut, allerdings wollte ich das ganze jetzt etwas weiter spinnen und nur Bilder von bestimmten Webseiten (also die, die in einem bestimmten Ordner drin sind) haben. Also als Beispiel liegen alle Webseiten, auf denen meine Bilder sind, unter www.meine-seite.de/spezielle-Seite/

ich hab jetzt zwar nicht sonderlich viel mit httrack herum gespielt, sondern mir tatsächlich ein paar Skripts geschrieben. Zunächst hab ich mittels wget alle Seiten herunter geladen, die mit www.meine-seite.de/spezielle-Seite/index.html verlinkt sind, und zwar mit folgendem Befehl:

Zitat
wget -r -l1 -np -A html,htm,phtml http://www.meine-seite.de/spezielle-Seite/index.html

zur Info der Optionen und Schalter:
-r: rekursiv
-l1: genau ein Level in den Verlinkungen
-np. nicht zurück ins Hauptverzeichnis der Seite springen
-A [...]: nur Dateien mit den Endungen herunter laden

anschliessend hatte ich erst einmal alle Seiten, in denen meine gewünschten Bilder irgendwie verlinkt waren. Dann habe ich aus diesen html Dateien die Links der Bilder extrahiert:

Zitat
for I in $1*.html; do
  perl -nle 'print for m{/verzeichnis/der/Bilder.+?[.]jpeg}g' $I >> $2links.txt
  [ggf. die Zeile nochmal mit "jpg, bmg, giv, etc.]
done

dabei findet er allerdings zu viele ... daher half ein "grep" nach:

Zitat
cat links.txt | grep img > links2.txt

das img kommt darauf was man suchen möchte und was in jeder der gewünschten Zeilen drin ist. Zu guter letzt habe ich noch mittels sed den restlichen "Kruscht" vor den Bilderlinks und danach mittels sed gelöscht ...

und schon hatte eine eine fein bereinigte Datei mit allen Links drin ... dauerte (mal abgesehen vom download der html Dateien) gar nicht lange!

Gruß Maddin 

« Suse 11.0 -Epson D92Suse: yast zerschossen »
 

Schnelle Hilfe: Hier nach ähnlichen Fragen und passenden Tipps suchen!

Fremdwörter? Erklärungen im Lexikon!
Dateiendungen
Die Dateiendung, auch Dateinamenerweiterung, Dateierweiterung oder einfach "Endung" genannt, besteht aus meistens drei oder vier Buchstaben und wird mit einem Punkt an de...

Dateiendung
Die Dateiendung ist ein Teil des Dateinamen und zeigt das Dateiformat an. Klassisch war die "8.3" Regelung, nach der der Dateiname under MS DOS 8 Zeichen lang sein durfte...

Dead Link
Als Dead Link, also einen toten Link, bezeichnet man eine Verlinkung oder Verknüpfung, die ins Leere führt. Der Link bezieht sich auf einen Zielpunkt, der nicht...