Fulltextové vyhledávání v MySQL

Pro prohledávání textů v MySQL se dá často použít jednoduchý operátor LIKE, pro složitější dotazy se ale může hodit fulltextové vyhledávání, kterým MySQL disponuje. To má dvě hlavní varianty: vyhledávání v přirozeném jazyce, které výsledkům zároveň přiřazuje míru relevance, a boolean vyhledávání, které dovoluje používat operátory zpřesňující výsledky. Obě varianty mají několik omezení: ignorují se běžná anglická slova (lze změnit proměnnou ft_stopword_file), minimální délka indexovaného slova je 4 znaky (lze změnit proměnnou ft_min_word_len) a při vyhledávání v přirozeném jazyce se navíc poněkud alibisticky ignorují slova obsažená alespoň v polovině dokumentů (lze změnit pouze překompilováním MySQL). Dobrá zpráva je, že od MySQL 4.1.1 lze fulltextové vyhledávání používat i s kódováním UTF-8.

Hlavně kvůli 50% hranici ignorovaných slov, ale také kvůli dostupným operátorům mi užitečné přijde především boolean vyhledávání. Nic nám ale nebrání výsledky seřadit podle výsledků vyhledávání v přirozeném jazyce:

<?php
$search = mysql_real_escape_string($_GET["search"]);
$result = mysql_query("
    SELECT *
    FROM clanky
    WHERE MATCH(nadpis, clanek) AGAINST ('$search' IN BOOLEAN MODE)
    ORDER BY 5 * MATCH(nadpis) AGAINST ('$search') + MATCH(clanek) AGAINST ('$search') DESC
");
?>

Dotaz předpokládá, že v tabulce existují indexy FULLTEXT (nadpis), FULLTEXT (clanek) a FULLTEXT (nadpis, clanek). ~~Dotaz by fungoval i s podmínkou MATCH(nadpis, clanek) AGAINST ('$search' IN BOOLEAN MODE), v tom případě by se ale index vůbec nepoužil a dotaz by tak byl výrazně pomalejší.~~ Při řazení se na výskyty v nadpisu bere pětkrát větší váha než na výskyty v těle článku – při jediném indexu FULLTEXT (nadpis, clanek) by tento rozdíl nebylo možné zachytit.

Viz také Nastavení fulltextového vyhledávání MySQL.

Přijďte si o tomto tématu popovídat na školení Návrh a používání MySQL databáze.

Jakub Vrána, Seznámení s oblastí, 13.9.2006, diskuse: 62 (nové: 0)

Diskuse

Hds:

Fulltextové vyhledávání v MySQL je podle mého názoru na sdíleném hostingu téměr nevyužitelné právě kvůli ft_min_word_len, která je většinou napevno nastavena na 4 a administrátoři hostingu s ní většinou nejsou ochotní hýbat. Příklad za všechny - e-shop. Zákazník bude hledat značku "LG", "AEG" atp., ale nenajde mu to nic, protože je to kratší než 4 znaky. Tam nezbývá než nasadit jednoduché LIKE. Anebo mi něco uniká? :)

Fulltextové vyhledávání v MySQL

Diskuse

Hds:

Jakub Vrána :

Hds:

Venca Černík:

shuster:

shuster:

tajo:

Jakub Vrána :

Lukáš Svačina:

Jiri Cizek:

Mike:

pojízdná kočka:

pojízdná kočka:

Jakub Vrána :

PHX:

Jakub Vrána :

PetrX:

Jakub Vrána :

PetrX:

Jakub Vrána :

PetrX:

Petr:

majo:

Jakub Vrána :

AndyBrandy:

GrizzlyNetch:

Mira:

lolek:

Jakub Vrána :

lolek:

Joelp:

Jakub Vrána :

Joelp:

Jakub Vrána :

Joelp:

Rhuin:

Jakub Vrána :

methew:

Jakub Vrána :

Jan Bláha:

godder:

Jakub Vrána :

Perry:

Logik:

Suto:

davEsim:

Jakub Vrána :

miki:

Jakub Vrána :

Keilew:

Jakub Vrána :

Michal:

Jakub Vrána :

Michal:

v6ak:

Vincenzo:

Martin:

MP:

Jakub Vrána :

MP:

Pavel:

Jakub Vrána :

Navigace

PHP triky

Kupte si mou knihu

Reklama

Web běží na serveru

Články podle skupin

Výběr článků

Nejnovější články

Normy a manuály

Další projekty