Auswerten bestimmter Teile von Webseiten
Auswerten bestimmter Teile von Webseiten
am 15.07.2006 15:21:08 von Christoph Juengling
Hallo,
ich würde gern bestimmte Informationen von Webseiten automatisiert
auslesen, parsen (?) und in eine Datenbank schreiben, um auf dem
Datenbestand später Auswertungen zu machen.
Konkret interessieren mich Ansätze, um eine gegebene html-Datei via
http-Adresse abzurufen, darin einen bestimmten Teil aufzufinden und
auszulesen. Z.B.:
Artikel-Nr.: 1234567
Artikelbezeichnung: Tolles Teil
Preis: 1234,56
Dabei sollen die Informationen 1234567, Tolles Teil und der Preis
erfasst werden.
Macht man das mittels Regexen?
Ich wäre für ein einfaches Beispiel dankbar, gern auch weiterführende
Links zu Webseiten oder Literatur.
Danke,
Chris
--
Oft ist das Denken schwer, indes
das Schreiben geht auch ohne es.
Wilhelm Busch
Re: Auswerten bestimmter Teile von Webseiten
am 15.07.2006 19:23:35 von Niels Braczek
Christoph Juengling schrieb:
> ich würde gern bestimmte Informationen von Webseiten automatisiert
> auslesen, parsen (?) und in eine Datenbank schreiben, um auf dem
> Datenbestand später Auswertungen zu machen.
Ich setze mal voraus, dass die juristischen Aspekte geklärt sind.
> Konkret interessieren mich Ansätze, um eine gegebene html-Datei via
> http-Adresse abzurufen, darin einen bestimmten Teil aufzufinden und
> auszulesen. Z.B.:
>=20
> Artikel-Nr.: 1234567
> Artikelbezeichnung: Tolles Teil
> Preis: 1234,56 =A4
>=20
> Dabei sollen die Informationen 1234567, Tolles Teil und der Preis
> erfasst werden.
>=20
> Macht man das mittels Regexen?
Ja.
> Ich wäre für ein einfaches Beispiel dankbar, gern auch weiterführ=
ende
> Links zu Webseiten oder Literatur.
Alles was du wissen musst steht hier:
http://de3.php.net/manual/en/ref.pcre.php
MfG
Niels
--=20
| http://www.kolleg.de =B7 Das Portal der Kollegs in Deutschland |
| http://www.bsds.de =B7 BSDS Braczek Software- und DatenSysteme |
| Webdesign =B7 Webhosting =B7 e-Commerce =B7 Joomla! Content Management =
|
------------------------------------------------------------ ------
Re: Auswerten bestimmter Teile von Webseiten
am 16.07.2006 00:12:29 von Thomas Dartsch
"Christoph Juengling" schrieb:
> Konkret interessieren mich Ansätze, um eine gegebene html-Datei via
> http-Adresse abzurufen, darin einen bestimmten Teil aufzufinden und
> auszulesen. Z.B.:
>
> Artikel-Nr.: 1234567
> Artikelbezeichnung: Tolles Teil
> Preis: 1234,56
Im Regelfall erhält man derartige Informationen vom Lieferanten "vorgekaut"
in diversen Formaten wie XML, csv etc.
Dabei muß man keine Verrenkungen mittels regulären Ausdrücken machen.
Will man das wie in diesem Fall trotzdem tun, so stellt sich mir die Frage
nach dem "Warum".
Ein Lieferant wird jedem Wiederverkäufer/Kunden die oben genannten Daten in
Listenform zur Verfügung stellen. Tut er das nicht, so hat er ganz sicher
seine Gründe. Ggf. möchte er eben nicht, das diese Daten zusammengefasst
extern verwendet werden. (Wobei er dann wenig verkaufen wird)
Ich gehe also davon aus, das es sich um den Ort der "HTML-Daten" nicht um
die Homepage eines Herstellers oder eines Lieferanten handelt. Eventuell
sogar um die eines Mitbewerbers. In dem Fall ist diese Vorgehensweise
juristisch angreifbar.
Ich kann nur ganz dringend raten, das die gewünschten Daten auf dem
herkömmlichen, legalen Weg organisiert werden.
Für eine solche Datenbank haben andere oftmals viel Geld bezahlt oder viel
Zeit hineingesteckt. Das nun einfach zu "klauen" ist nicht legal.
Ansonsten könnte ganz schnell mal jemand bei der Fa. Juengling-EDV in Kassel
vor der Tür stehen...
t.d
Re: Auswerten bestimmter Teile von Webseiten
am 16.07.2006 00:41:59 von Niels Braczek
Thomas Dartsch schrieb:
> "Christoph Juengling" schrieb:
>=20
>> Konkret interessieren mich Ansätze, um eine gegebene html-Datei via
>> http-Adresse abzurufen, darin einen bestimmten Teil aufzufinden und
>> auszulesen. Z.B.:
>>
>> Artikel-Nr.: 1234567
>> Artikelbezeichnung: Tolles Teil
>> Preis: 1234,56 ?
>=20
> Im Regelfall erhält man derartige Informationen vom Lieferanten "vorg=
ekaut"=20
> in diversen Formaten wie XML, csv etc.
> Dabei muß man keine Verrenkungen mittels regulären Ausdrücken mac=
hen.
> Will man das wie in diesem Fall trotzdem tun, so stellt sich mir die Fr=
age=20
> nach dem "Warum".
Ein Grund, der mir spontan einfällt, ist eine Preis-Suchmaschine. Die
wäre auch ohne Rückfrage legal und mit Sicherheit vom Anbieter
erwünscht. Daher reicht hier IMHO ein kurzer Hinweis auf auf die
juristischen Aspekte.
Auch wenn du ansonsten wohl Recht hast, gehört das (in der
Ausführlichkeit) nicht hierher.
MfG
Niels
--=20
| http://www.kolleg.de =B7 Das Portal der Kollegs in Deutschland |
| http://www.bsds.de =B7 BSDS Braczek Software- und DatenSysteme |
| Webdesign =B7 Webhosting =B7 e-Commerce =B7 Joomla! Content Management =
|
------------------------------------------------------------ ------
Re: Auswerten bestimmter Teile von Webseiten
am 16.07.2006 02:48:26 von Ralf Zschemisch
Am Sun, 16 Jul 2006 00:41:59 +0200 schrieb Niels Braczek:
> Thomas Dartsch schrieb:
>> "Christoph Juengling" schrieb:
>>>
>>> Artikel-Nr.: 1234567
>>> Artikelbezeichnung: Tolles Teil
>>> Preis: 1234,56 ?
>>
[...]
>> Will man das wie in diesem Fall trotzdem tun, so stellt sich mir die Frage
>> nach dem "Warum".
>
> Ein Grund, der mir spontan einfällt, ist eine Preis-Suchmaschine.
Diese stellen einem Shop-Betreiber eine Schnittstelle zur Verfügung
Beispiel:
http://preisroboter.de/preisroboter_info_anbieterinfos.php
Des weiteren verfügen eigentlich alle Shops über eine Standard-
Schnittstelle, über die eine Preis-Suchmaschine die Produkte
einlesen kann.
> Daher reicht hier IMHO ein kurzer Hinweis auf auf die
> juristischen Aspekte.
Warum? Der OP wird einen Grund für seine Frage haben und
*juristische Aspekte* möchte ich eigentlich hier *gar*nicht
lesen.
cu
r23
--
http://www.myoos.de/fraktal/zoom.php
Re: Auswerten bestimmter Teile von Webseiten
am 16.07.2006 13:51:55 von unknown
Post removed (X-No-Archive: yes)
Re: Auswerten bestimmter Teile von Webseiten
am 16.07.2006 16:07:53 von Stefan Scholl
Dirk Sohler wrote:
> Thomas Dartsch schrieb 2006-07-16, 00:12 Uhr
>> Ein Lieferant wird jedem Wiederverkäufer/Kunden die oben genannten Daten in
>> Listenform zur Verfügung stellen. Tut er das nicht, so hat er ganz sicher
>> seine Gründe. Ggf. möchte er eben nicht, das diese Daten zusammengefasst
>> extern verwendet werden.
>
> Oder er ist einfach unfähig und hält propritäre Formate eines Monopolisten
> für Standards...
Excel kann man notfalls auch mit Apache POI (Java) einlesen. Man
darf nur kein Monolinguist sein. :-)
--
Web (en): http://www.no-spoon.de/ -*- Web (de): http://www.frell.de/
Re: Auswerten bestimmter Teile von Webseiten
am 16.07.2006 16:52:18 von unknown
Post removed (X-No-Archive: yes)
Re: Auswerten bestimmter Teile von Webseiten
am 19.07.2006 11:52:00 von Christoph Juengling
Niels Braczek wrote:
> > ich würde gern bestimmte Informationen von Webseiten automatisiert
> > auslesen, parsen (?) und in eine Datenbank schreiben, um auf dem
> > Datenbestand später Auswertungen zu machen.
>
> Ich setze mal voraus, dass die juristischen Aspekte geklärt sind.
Ein interessanter Hinweis, vielen Dank. Besteht tatsächlich ein
Unterschied zwischen dem Betrachten einer Webseite im Browser und der
Auswertung mittels eines Programmes?
Danke auch für den Link!
Chris
--
Liebe ist das einzige, was wächst, wenn man es verschwendet.
Maria Luise Stangl
Re: Auswerten bestimmter Teile von Webseiten
am 19.07.2006 11:52:01 von Christoph Juengling
"Thomas Dartsch" wrote:
> > Konkret interessieren mich Ansätze, um eine gegebene html-Datei via
> > http-Adresse abzurufen, darin einen bestimmten Teil aufzufinden und
> > auszulesen. Z.B.:
> >
> > Artikel-Nr.: 1234567
> > Artikelbezeichnung: Tolles Teil
> > Preis: 1234,56
>
> Im Regelfall erhält man derartige Informationen vom Lieferanten "vorgekaut"
> in diversen Formaten wie XML, csv etc.
> Dabei muß man keine Verrenkungen mittels regulären Ausdrücken machen.
> Will man das wie in diesem Fall trotzdem tun, so stellt sich mir die Frage
> nach dem "Warum".
>
> Ein Lieferant wird jedem Wiederverkäufer/Kunden ...
Sorry, wenn das Beispiel etwas irreführend war, mir ist nur nichts
besseres eingefallen. Es geht im konkreten Fall nicht um eine
Kunden/Lieferanten-Beziehung.
> Ich gehe also davon aus, das es sich um den Ort der "HTML-Daten" nicht um
> die Homepage eines Herstellers oder eines Lieferanten handelt.
Korrekt.
> Eventuell sogar um die eines Mitbewerbers.
Nein, in keinster Weise.
> In dem Fall ist diese Vorgehensweise juristisch angreifbar.
Das werde ich auf jeden Fall noch klären.
> Ich kann nur ganz dringend raten, das die gewünschten Daten auf dem
> herkömmlichen, legalen Weg organisiert werden.
> Für eine solche Datenbank haben andere oftmals viel Geld bezahlt oder viel
> Zeit hineingesteckt. Das nun einfach zu "klauen" ist nicht legal.
> Ansonsten könnte ganz schnell mal jemand bei der Fa. Juengling-EDV in Kassel
> vor der Tür stehen...
Dafür gibt es momentan keinen Grund, denn das Programm ist noch gar
nicht geschrieben, und erst recht nicht im Einsatz.
Auf jeden Fall danke erstmal für die juristischen Hinweise.
Chris
--
Liebe ist das einzige, was wächst, wenn man es verschwendet.
Maria Luise Stangl
Re: Auswerten bestimmter Teile von Webseiten
am 19.07.2006 15:12:33 von Niels Braczek
Christoph Juengling schrieb:
> Niels Braczek wrote:
>=20
>> > ich würde gern bestimmte Informationen von Webseiten automatisiert=
>> > auslesen, parsen (?) und in eine Datenbank schreiben, um auf dem
>> > Datenbestand später Auswertungen zu machen.
>>=20
>> Ich setze mal voraus, dass die juristischen Aspekte geklärt sind.
>=20
> Ein interessanter Hinweis, vielen Dank. Besteht tatsächlich ein
> Unterschied zwischen dem Betrachten einer Webseite im Browser und der
> Auswertung mittels eines Programmes?
Ja, spätestens sobald du die ausgewerteten Daten zu irgendetwas
Automatisiertem benutzt.
MfG
Niels
--=20
| http://www.kolleg.de =B7 Das Portal der Kollegs in Deutschland |
| http://www.bsds.de =B7 BSDS Braczek Software- und DatenSysteme |
| Webdesign =B7 Webhosting =B7 e-Commerce =B7 Joomla! Content Management =
|
------------------------------------------------------------ ------
Re: Auswerten bestimmter Teile von Webseiten
am 19.07.2006 16:55:22 von Christian Blome
Niels Braczek schrieb am 19.07.2006 15:12:
>> Besteht tatsächlich ein Unterschied zwischen dem Betrachten
>> einer Webseite im Browser und der Auswertung mittels eines
>> Programmes?
>
> Ja, spätestens sobald du die ausgewerteten Daten zu irgendetwas
> Automatisiertem benutzt.
Solange man es auf seinem heimischen Server nur selbst betrachtet,
dürfte es keine Probleme geben. Sobald auf diesen Server aber auch von
außen zugegriffen werden kann, dürfte die Sache schon anders aussehen...
Viele Grüße
Christian
--
Im Standesamt: "Hiermit erkläre ich sie zu Mann und Frau!" -
Das haben die vorher wohl gar nicht gewusst...
(Jürgen K.)