zu schnelles LIKE "%und%"

am 22.04.2008 09:06:44 von Frank Arthur

Re: zu schnelles LIKE "%und%"

am 22.04.2008 09:36:35 von Boris Stumm

Frank Arthur wrote:

> Meine Abfrage mit LIKE "%und%" ist irgendwie zu schnell.
> Woran kann das liegen, ich bin da irgendwie skeptisch, weil ja bei "%und"
> im Gegensatz zu "und" und "und%" kein Index benutzt werden kann.
> Und, nein, die Queries waren zum ersten Mal ausgefÃÂ¼hrt, sie wurden mir
> nicht aus dem Cache geliefert.
> Es kann doch nicht stimmen, dass MySQL 281.409 EintrÃÂ¤ge in 0.25 Sekunden
> nach einem "und" durchsuchen kann. (Oder doch?)
> MySQL 4.0.27
>
>
+----------------+------------------+------+-----+---------+ ----------------+
> | Field | Type | Null | Key | Default | Extra
>
+----------------+------------------+------+-----+---------+ ----------------+
> | keyword_id | int(10) unsigned | | PRI | NULL |
> | auto_increment |
> | keyword_name | varchar(255) | | UNI | |

Nehmen wir mal an, das keyword_name tatsÃ¤chlich immer gefÃ¼llt ist.
Dann passen auf eine 4kb-Seite im Schnitt max. 16 Tupel, oder insgesamt
68 MB (Ich geh mal von einer ZeichengrÃ¶Ãe von 8 Bit aus). Selbst eine
schnelle Platte schafft das hÃ¶chstens in einer Sekunde oder so.

Wahrscheinlicher ist allerdings, das keyword_name im Schnitt viel kÃ¼rzer
ist (mach mal ein select sum(length(keyword_name)) oder so). Sagen wir
nur 25 Zeichen. Dann mÃ¼ssten nur (grob vereinfacht) 7 MB Daten gelesen
werden. Das ist in 0,1 Sekunden machbar. Substringsuche lÃ¤uft in O(n),
und das reduziert die Frage auf "Kann man innerhalb von 0,15 Sekunden
einen 7-MB-String durchsuchen. Das scheint mir definitiv mÃ¶glich zu sein.
Ich hab kurz mal nach "parsing mb/second" gegoogelt und bin auf
http://www.gigalogix.com/products_line.html gestoÃen. Die meinen, sie
kÃ¶nnen 150 MB XML pro Sekunde parsen.

Das war jetzt mal eine sehr vereinfachte Rechnung, aber die GrÃ¶Ãenordnungen
machen deutlich, das sowas mÃ¶glich sein sollte.

Re: zu schnelles LIKE "%und%"

am 22.04.2008 09:55:51 von Boris Stumm

Boris Stumm wrote:

> Frank Arthur wrote:
>
>> Meine Abfrage mit LIKE "%und%" ist irgendwie zu schnell.
>> Woran kann das liegen, ich bin da irgendwie skeptisch, weil ja bei "%und"
>> im Gegensatz zu "und" und "und%" kein Index benutzt werden kann.
>> Und, nein, die Queries waren zum ersten Mal ausgefÃÆÃÂ¼hrt, sie wurden mir
>> nicht aus dem Cache geliefert.
>> Es kann doch nicht stimmen, dass MySQL 281.409 EintrÃÆÃÂ¤ge in 0.25
>> Sekunden nach einem "und" durchsuchen kann. (Oder doch?)
>> MySQL 4.0.27
[...]
> Nehmen wir mal an, das keyword_name tatsÃÂ¤chlich immer gefÃÂ¼llt ist.
> Dann passen auf eine 4kb-Seite im Schnitt max. 16 Tupel, oder insgesamt
> 68 MB (Ich geh mal von einer ZeichengrÃÂ¶ÃÅ¸e von 8 Bit aus). Selbst eine
> schnelle Platte schafft das hÃÂ¶chstens in einer Sekunde oder so.
>
> Wahrscheinlicher ist allerdings, das keyword_name im Schnitt viel kÃÂ¼rzer
> ist (mach mal ein select sum(length(keyword_name)) oder so). Sagen wir
> nur 25 Zeichen. Dann mÃÂ¼ssten nur (grob vereinfacht) 7 MB Daten gelesen
> werden. Das ist in 0,1 Sekunden machbar. Substringsuche lÃÂ¤uft in O(n),
> und das reduziert die Frage auf "Kann man innerhalb von 0,15 Sekunden
> einen 7-MB-String durchsuchen. Das scheint mir definitiv mÃÂ¶glich zu sein.
> Ich hab kurz mal nach "parsing mb/second" gegoogelt und bin auf
> http://www.gigalogix.com/products_line.html gestoÃÅ¸en. Die meinen, sie
> kÃÂ¶nnen 150 MB XML pro Sekunde parsen.
>
> Das war jetzt mal eine sehr vereinfachte Rechnung, aber die
> GrÃÂ¶ÃÅ¸enordnungen machen deutlich, das sowas mÃÂ¶glich sein sollte.

Auf ein Wichtiges Detail machte mich eben mein Kollege aufmerksam:
Vermutlich waren die meisten Daten sowieso schon im DB-Puffer, was natÃ¼rlich
die Zeit des Plattenzugriffs eher irrelevant macht. Denn fÃ¼r einen schnellen
Plattenzugriff muss ja die Tabelle unfragmentiert gespeichert sein. Und im
Hauptspeicher sind die o.g. Geschwindigkeiten unproblematisch.

Re: zu schnelles LIKE "%und%"

am 22.04.2008 10:16:18 von Frank Arthur

> Frank Arthur wrote:
>>> Meine Abfrage mit LIKE "%und%" ist irgendwie zu schnell.

Boris Stumm schrieb:
> Wahrscheinlicher ist allerdings, das keyword_name im Schnitt viel kÃ¼rzer
> ist (mach mal ein select sum(length(keyword_name)) oder so). Sagen wir
> nur 25 Zeichen. Dann mÃ¼ssten nur (grob vereinfacht) 7 MB Daten gelesen
> werden. Das ist in 0,1 Sekunden machbar. Substringsuche lÃ¤uft in O(n),
> und das reduziert die Frage auf "Kann man innerhalb von 0,15 Sekunden
> einen 7-MB-String durchsuchen. Das scheint mir definitiv mÃ¶glich zu
> sein.
>
> Auf ein Wichtiges Detail machte mich eben mein Kollege aufmerksam:
> Vermutlich waren die meisten Daten sowieso schon im DB-Puffer, was
> natÃ¼rlich die Zeit des Plattenzugriffs eher irrelevant macht. Denn fÃ¼r
> einen schnellen Plattenzugriff muss ja die Tabelle unfragmentiert
> gespeichert sein. Und im Hauptspeicher sind die o.g. Geschwindigkeiten
> unproblematisch.

Ach, ich verstehe. FÃ¼r die erste Suche muss MySQL die keywords in den
Speicher laden und macht dann die Suche. FÃ¼r jede weitere Suche werden
die Daten, die bereits im Speicher sind fÃ¼r die Suche benutzt. Klaro, das
ist schneller.

select sum(length(keyword_name)) FROM keywords;
+---------------------------+
| sum(length(keyword_name)) |
+---------------------------+
| 2895686 |
+---------------------------+
1 row in set (0.00 sec)

Knapp 3 MB, also laut deiner Beurteilung relativ wenig. Wohl auch so
wenig, dass es ziemlich lange bei MySQL im Speicher bleibt.

select avg(length(keyword_name)) FROM keywords;
+---------------------------+
| avg(length(keyword_name)) |
+---------------------------+
| 10.2900 |
+---------------------------+
1 row in set (0.31 sec)

Also im Schnitt 10 byte pro keyword.

Vielen Dank fÃ¼r deine Hinweise Boris, das erklÃ¤rt mir die Geschwindigkeit.