RE, Greedy-Verhalten

am 21.03.2006 20:38:35 von Torsten Mohr

Hallo,

in "perldoc perlre" steht, daÃ ich in einem RE Â .* durch nachstellen des ?
erreiche daÃ .* nur noch die "minmal mÃ¶gliche Anzahl Zeichen friÃt".
Das ist dann doch "hÃ¶chstens ein Zeichen" und der RE ist dann doch
gleich zu .?

Da Verhalten ist ja anders, das ist mir klar. Â Wie kann man denn
am Besten beschreiben wie weit der Greedy-Operator Zeichen friÃt?

FriÃt er soweit bis der folgende RE paÃt? Â Oder probiert er alle
MÃ¶glichkeiten durch bis der ganze RE komplett paÃt?

Ich habe schon diverse male den Greedy-Operator verwendet. Aber
wie beschreibt man eigentlich genau, wie weit der Daten friÃt?

Danke fÃ¼r Tips,
Torsten.

Re: RE, Greedy-Verhalten

am 21.03.2006 21:04:58 von Wolf Behrenhoff

Torsten Mohr schrieb:
> Hallo,
>
> in "perldoc perlre" steht, daÃ ich in einem RE .* durch nachstellen des ?
> erreiche daÃ .* nur noch die "minmal mÃ¶gliche Anzahl Zeichen friÃt".
> Das ist dann doch "hÃ¶chstens ein Zeichen" und der RE ist dann doch
> gleich zu .?

Nein.
Es ist die minimal mÃ¶gliche Anzahl, sodass die RE noch matcht.

Beispiel:
$_ = 'ababab';
print /(.*)b/, "\n";
print /(.*?)b/, "\n";

REs versuchen immer, von links nach rechts zu matchen. Die erste RE
nimmt also beim Punkt das erste Zeichen und frisst dann auch alle
weiteren Zeichen bis zum Stringende. Da dann aber noch ein b folgen
muss, gibt der * ein Zeichen zurÃ¼ck - und die RE kann erfÃ¼llt werden.

Mit .*? wird zunÃ¤chst am Anfang probiert, 0 Zeichen zu matchen. Dann
folgt aber kein b. Also matcht man 1 Zeichen mehr. Und dann folgt ein b,
also passt die RE.

> Da Verhalten ist ja anders, das ist mir klar. Wie kann man denn
> am Besten beschreiben wie weit der Greedy-Operator Zeichen friÃt?

perldoc -q greedy

Wolf

Re: RE, Greedy-Verhalten

am 21.03.2006 21:25:33 von Lukas Mai

Torsten Mohr schrob:
> Hallo,
>
> in "perldoc perlre" steht, daß ich in einem RE .* durch nachstellen des ?
> erreiche daß .* nur noch die "minmal mögliche Anzahl Zeichen frißt".
> Das ist dann doch "höchstens ein Zeichen" und der RE ist dann doch
> gleich zu .?

Nein, * heißt ja "0 oder mehr Dinge". Der Unterschied liegt darin, in
welcher Reihenfolge die Möglichkeiten durchprobiert werden.

* alleine frisst soviele wie möglich und rückt sie nur wieder heraus,
wenn der Rest der Regex sonst nicht passen würde.

*? frisst erstmal 0 Zeichen, nimmt aber auch mehr, wenn sonst der Rest
der Regex nicht mehr passen würde.

Z.B.:

"Das Salz verzehrt den Leib des Mohren" =~ /(.*)/;
=> $1 = "Das Salz verzehrt den Leib des Mohren"

"Das Salz verzehrt den Leib des Mohren" =~ /(.*?)/;
=> $1 = ""

"Das Salz verzehrt den Leib des Mohren" =~ /(.*)e/;
=> $1 = "Das Salz verzehrt den Leib des Mohr"

"Das Salz verzehrt den Leib des Mohren" =~ /(.*?)e/;
=> $1 = "Das Salz v"

Das heißt auch, dass .*? am Ende einer Regex immer 0 Zeichen frisst.

HTH, Lukas

Re: RE, Greedy-Verhalten

am 21.03.2006 22:07:23 von Torsten Mohr

Hallo,

>> in "perldoc perlre" steht, daÃ ich in einem RE .* durch nachstellen des ?
>> erreiche daÃ .* nur noch die "minmal mÃ¶gliche Anzahl Zeichen friÃt".
>> Das ist dann doch "hÃ¶chstens ein Zeichen" und der RE ist dann doch
>> gleich zu .?
>
> Nein, * heiÃt ja "0 oder mehr Dinge". Der Unterschied liegt darin, in
> welcher Reihenfolge die MÃ¶glichkeiten durchprobiert werden.
>
> * alleine frisst soviele wie mÃ¶glich und rÃ¼ckt sie nur wieder heraus,
> wenn der Rest der Regex sonst nicht passen wÃ¼rde.
>
> *? frisst erstmal 0 Zeichen, nimmt aber auch mehr, wenn sonst der Rest
> der Regex nicht mehr passen wÃ¼rde.

Danke fÃ¼r die ErklÃ¤rung.

Das wirft fÃ¼r mich aber eher weitere Fragen auf. Ich habe jetzt gerade
kein Beispiel zur Hand, aber ich denke es lÃ¤Ãt sich eins konstruieren:

Wenn jetzt nach einem Greedy weitere RE-Teile kommen, die auch davon
abhÃ¤ngen kÃ¶nnen wie weit denn schon gefressen wurde, dann sind ja
mehrere Aufteilungen des getesteten Strings auf $1, $2, $3 usw. mÃ¶glich.

Wie werden die denn dann verteilt?

Versuch eines Beispiels:

"abcAdefAghiAjkl" =~ /^(\w*?)A(\w*?)$/;

$1 ?
$2 ?

Hierbei wÃ¼rden doch mehrere Verteilungen von $1 und $2 dazu fÃ¼hren
daÃ der RE passt, oder?

HeiÃt das jetzt daÃ $1 'abc' ist und $2 'defAgh...' ist?

Eine andere Verteilung ($1 = 'abcAdef', $2 = 'ghiAjkl')
wÃ¼rde doch auch passen.

Im Test kommt Variante 1 heraus. Ist der Algorithmus jetzt so
daÃ der jeweilige Greedy soweit friÃt bis der nÃ¤chste RE paÃt?
Falls der nicht paÃt friÃt der erste Greedy weiter bis er wieder
eine Stelle gefunden hat bis der nÃ¤chste RE paÃt und dann wird
wieder getestet ob der Rest noch paÃt?

Das wÃ¼rde dann doch bedeuten daÃ wirklich alle MÃ¶glichkeiten
durchprobiert werden bis eine gefunden wurde die paÃt, richtig?

GrÃ¼Ãe,
Torsten.

Re: RE, Greedy-Verhalten

am 22.03.2006 01:55:11 von Lukas Mai

Re: RE, Greedy-Verhalten

am 22.03.2006 22:21:47 von Torsten Mohr

Hallo,

> $ perl -Mre=debug -e '"abcAdefAghiAjkl" =~ /^(\w*?)A(\w*?)$/'
....
> Wie man sieht, ist perl schlau genug, zuerst das erste "A" zu suchen.
> Die zweite Klammer wird aber Zeichen fÃ¼r Zeichen durchprobiert, bis das
> Ende erreicht ist. SchlÃ¼ge nun auch das fehl, wÃ¼rde perl die erste
> Klammer auf "abcAdef" erweitern, dann wieder den Rest durchprobieren,
> usw.
>
> perl -Mre=debug bzw. perl -Mre=debugcolor ist recht nÃ¼tzlich, wenn man
> solche Dinge ausprobieren will.

danke fÃ¼r die Tips. Das Debuggen werde ich mal ausprobieren.

GrÃ¼Ãe,
Torsten.