HTML Analyzer

am 08.09.2006 16:46:24 von Axel Gallus

Hallo,

ich suche so eine Art HTML Analyzer für PHP.
Z.B. will ich von meinem Webserver aus andere Seiten laden, sagen wir
Google.
Dann will ich mir von dieser Seite alle

Elemente ausgeben
lassen.
Eventuell will ich diese Form Elemente noch näher untersuchen, bzw. z.B.
alle Input Tags ausgeben lassen, oder deren Attribute und Werte extrahieren,
und schauen,
welche Javascipt Methoden von dort aus aufgerufen werden.
Vielleicht will ich diese Javascrip methoden dann ausgeben lassen.

Das ganze sollte auch mit fehlerhaften HTML Seiten zurechtkommen.
Wenn z.B. mal ein Tag nicht geschlossen ist, wie z.B. wenn bei
...
das letzte Tag fehlt. Die Interpretaton dieser fehlerhaften Tags
sollte gleich der des Internet Explorers sein.

Wünschenswert wäre es, wenn die HTML Seite in einer Baumstruktur gespeichert
würde,
auf der man dann mit verschiedenen Library-Methoden arbeiten kann.

Gibt es sowas?

Gruß

A. Gallus

Re: HTML Analyzer

am 08.09.2006 17:09:57 von Rainer Hinz

Axel Gallus wrote:
> Hallo,
>=20
> ich suche so eine Art HTML Analyzer für PHP.

preg_match_all ist dein Freund.

Aber den Sinn deines Anliegens habe ich noch nicht verstanden.

Re: HTML Analyzer

am 08.09.2006 17:18:04 von Axel Gallus

Kannst Du wirklich ausschliessen, dass es so eine Library schon gibt?

Wenn ich darauf gekommen bin so was zu programmieren, dann gibt es das
bestimmt schon.

Mein Anliegen ist, beliebige Webpages zu untersuchen, um so z.B. Texte,
Bilder , bestimmte

Elemente und deren Funktionalität zu extrahieren.

Gruß

Axel

"Anni Schmidt" schrieb im Newsbeitrag
news:eds108$kvl$00$2@news.t-online.com...
Axel Gallus wrote:
> Hallo,
>
> ich suche so eine Art HTML Analyzer für PHP.

preg_match_all ist dein Freund.

Aber den Sinn deines Anliegens habe ich noch nicht verstanden.

Re: HTML Analyzer

am 08.09.2006 17:33:50 von Rainer Hinz

Axel Gallus wrote:
> Kannst Du wirklich ausschliessen, dass es so eine Library schon gibt?
>=20
> Wenn ich darauf gekommen bin so was zu programmieren, dann gibt es das =

> bestimmt schon.
>=20
> Mein Anliegen ist, beliebige Webpages zu untersuchen, um so z.B. Texte,=
=20
> Bilder , bestimmte
>=20
> Elemente und deren Funktionalität zu extrahieren.

Dann nehme doch lieber den Firefox mit der Firebug Erweiterung.

Re: HTML Analyzer

am 08.09.2006 19:44:29 von Axel Gallus

Ich das selbstverständlich automatisiert von meinem Webserver ausführen.

Axel

"Anni Schmidt" schrieb im Newsbeitrag
news:eds2d0$89h$02$2@news.t-online.com...
Axel Gallus wrote:
> Kannst Du wirklich ausschliessen, dass es so eine Library schon gibt?
>
> Wenn ich darauf gekommen bin so was zu programmieren, dann gibt es das
> bestimmt schon.
>
> Mein Anliegen ist, beliebige Webpages zu untersuchen, um so z.B. Texte,
> Bilder , bestimmte
>
> Elemente und deren Funktionalität zu extrahieren.

Dann nehme doch lieber den Firefox mit der Firebug Erweiterung.

Re: HTML Analyzer

am 11.09.2006 19:24:42 von Paul Stuck

Axel Gallus schrieb:
> Hallo,
>
> ich suche so eine Art HTML Analyzer für PHP.
> Z.B. will ich von meinem Webserver aus andere Seiten laden, sagen wir
> Google.
> Dann will ich mir von dieser Seite alle

Elemente ausgeben
> lassen.
> Eventuell will ich diese Form Elemente noch näher untersuchen, bzw. z.B.
> alle Input Tags ausgeben lassen, oder deren Attribute und Werte extrahieren,
> und schauen,
> welche Javascipt Methoden von dort aus aufgerufen werden.
> Vielleicht will ich diese Javascrip methoden dann ausgeben lassen.
mit dom oder simple xml dürfte das gehen, wobei es mit den fehlerhaften seiten
schwierig werden dürfte, ausserdem möchte er valide XHTML, da es ja eigentlich
für xml ist.

>
> Das ganze sollte auch mit fehlerhaften HTML Seiten zurechtkommen.
> Wenn z.B. mal ein Tag nicht geschlossen ist, wie z.B. wenn bei
> ...
> das letzte Tag fehlt. Die Interpretaton dieser fehlerhaften Tags
> sollte gleich der des Internet Explorers sein.
Das dürfte schwierig werden, da der ie sich recht wenig um standarts kümmert.

> Wünschenswert wäre es, wenn die HTML Seite in einer Baumstruktur gespeichert
> würde,

Dom lädt das ganze XML/XHTML in ein Objekt, als Baum. Da könntest du dann nach
gewissen Tagnamen suchen und z.B. deren Attribute auslesen.

grüsse
paul