Vyhledání textu bez diakritiky

Osobně píšu všechny texty s diakritikou a vyhledávám tedy také s diakritikou. Uživatelé v zahraničí ale nemusí mít k dispozici českou klávesnici a zadávání znaků s diakritikou pro ně může být obtížné. Proto někdy může být užitečné upravit vyhledávání tak, aby vyhledávalo v textech bez diakritiky.

K tomuto cíli lze dospět několika různými způsoby. (Při způsobu porovnávání utf8_czech_ci se dá využít toho, že jediné znaky, které se při porovnávání liší od varianty bez diakritiky, jsou v souladu s českou normou pouze čřšž.)

Do databáze ukládat kromě originálního textu i variantu bez diakritiky a prohledávat v ní: Z ukládaného i hledaného textu odstraníme diakritiku a provedeme běžné porovnání.
Z prohledávaného textu odstranit diakritiku při vyhledávání: V MySQL není k dispozici obdoba funkce strtr, takže odstranění diakritiky lze provést leda několikanásobnou aplikací funkce REPLACE nebo uloženou funkcí. Vyhledávání by potom mělo podobu "WHERE REPLACE(REPLACE(REPLACE(REPLACE(clanek, 'č', 'c'), 'ř', 'r'), 'š', 's'), 'ž', 'z') LIKE '%$_GET[search]%'".
Vyhledávaný text převést na regulární výraz a vyhledat ho operátorem REGEXP: Vlastně jde o obdobu funkce sql_regcase. Vyhledávání potom může vypadat nějak takhle: "WHERE clanek REGEXP '" . strtr(quotemeta($_GET["search"]), array("c" => "[cč]", "r" => "[rř]", "s" => "[sš]", "z" => "[zž]")) . "'".
Využít toho, že při způsobu porovnávání utf8_general_ci jsou si znaky s diakritikou i bez ní rovny: Potom stačí hledanému textu tento způsob porovnávání nastavit: "WHERE clanek LIKE '%$_GET[search]%' COLLATE utf8_general_ci".

Při vyhledávání bychom také měli rozlišovat, jestli uživatel používá diakritiku nebo ne. Spolehlivou informaci nám dá pouze zaškrtávací políčko, kterým uživatel svou volbu vybere, to je ale uživatelsky poměrně nepříjemné. Proto je možné hledaný text zkontrolovat – když bude obsahovat znak s diakritikou, tak uživateli nemusíme místo např. každého z hledat i ž. Pokud je text bez diakritiky, tak uživatel buď hledá slovo bez háčků a čárek nebo diakritiku nepoužívá – v tom případě raději budeme počítat s druhou variantou.

Při vyhledávání s diakritikou můžeme zpřísnit i pravidla pro vyhledávání ostatních znaků – pokud uživatel hledá slovo „být“ nemusíme ho obtěžovat texty obsahujícími slovo „byt“. Jediné utf8 kódování, kde se rozlišují všechny znaky, je pouze utf8_bin, které bohužel rozlišuje velká a malá písmena, což je obvykle nežádoucí.

<?php
if (ereg("[\x80-\xFF]", $_GET["search"])) { // řetězec s diakritikou
    $where = "LOWER(clanek) LIKE LOWER('%" . mysql_real_escape_string($_GET["search"]) . "%') COLLATE utf8_bin";
} else { // řetězec bez diakritiky
    $where = "clanek LIKE '%" . mysql_real_escape_string($_GET["search"]) . "%' COLLATE utf8_general_ci";
}
?>

Jakub Vrána, Dobře míněné rady, 7.12.2007

Diskuse

Michal:

Osobne pro fulltext pouzivam SOLR (http://lucene.apache.org/solr). Lze nastavit tak aby hledal zaroven bez i s diakritikou, ale aby presne shode dal vetsi score. Pro anglictinu ma navic vyborny filter ktery zjisti koren slova a vyhledava podle nej, takze kdyz nekdo hleda "account" tak mu to najde i "accountant", coz se nekdy hodi. Bohuzel nevim jestli podobny filter existuje i pro cestinu.

7.12.2007 03:05:42

marek:

S tímhle jsem si teď začal hrát a vypadá to zajímavě.... Faktem je, že mě nikdy nenapadlo nic o problému hledání bez diakritiky - musím se ještě hodně učit :)

8.12.2007 09:53:46

SiseL:

mne sa pre odstranenie diakritiky v MSSQL osvedcilo:
<stlpec> COLLATE SQL_Latin1_General_CP1251_CI_AS

7.12.2007 08:09:10

Peter:

ja som si presne na toto napisal patch pre udf_charsets-1.0 od adelton-a ktory mi riesi konverziu utf8->ascii .
mysql> SELECT utf8_to_ascii("šušeň");
+---------------------------+
| utf8_to_ascii("šušeň") |
+---------------------------+
| susen |
+---------------------------+
1 row in set (0.00 sec)

7.12.2007 13:39:20

Michal Aichinger:

Jakube, čtu tě rád, ale tohle téma jsi docela odfláknul, resp. jdeš na to moc kostrbatě :-)

Běžně ukládáme data do utf8_czech_ci, tedy case insensitive a řazení je dle české normy. Ohledně otázky vyhledávání uvádím výtah z našeho firemního blogu:

Požadavky na fulltextové vyhledávání
Opět nám při nich zpravidla hraje důležitou roli abeceda, ovšem tentokrát nikoliv česká, ale anglická:
A B C D E F G H Ch I J K L M N O P Q R S T U V W X Y Z
Častým požadavkem na fulltextové vyhledávání totiž je, aby umělo hledat v textech bez ohledu jednak na velikost písmen (case insensitive) a jednak bez ohledu na diakritiku (accent insensitiv)....

...tak požadavkům na fulltextové vyhledávání vyhovuje utf8_general_ci. Jelikož jsme v poslední době řešili problém s accent insensitiv vyhledáváním na několika místech a to velmi kostrbatě, tak nyní pro jistotu polapaticky:
Pokud vyhledávání nad daty v utf v collation utf8_general_ci, tak jsou výsledkem dotazu:

SELECT * FROM clanky WHERE telo LIKE "%priroda%";

i články obsahující text "příroda".

No a na závěr, jelikož používáme výše zmíněné utf8_czech_ci kvuli řazení, které používáme obecně častěji, tak při vyhledávání provádíme konverzi na general takto:

SELECT * FROM clanky WHERE telo COLLATE utf8_general_ci LIKE "%priroda%";

8.12.2007 21:23:13

Michal Aichinger:

mno asi jsem si to mel nejdriv poradne precist :-)

8.12.2007 21:25:37

Jakub Vrána :

Tak. Já čtenářům nerad něco podsouvám, takže raději řeknu nejen to, že je nějaké řešení nejlepší, ale zároveň i jaká jsou jiná řešení a čím jsou horší.

10.12.2007 12:01:50

Vaclav Juchelka:

Lze to precollatovani pouzit i pro fulltext?

(reakce na) 12.12.2007 09:04:00

Robas:

dakujem.

(reakce na) 18.4.2008 16:06:00

honza:

Také používám konverzi COLLATE utf8_general_ci, ale lze to samé provést u fulltextu? Pokusy tomu nenasvědčují...

(reakce na) 29.3.2009 08:55:36

Jakub Vrána :

Pokud vím, tak to skutečně nejde. Nezbývá než použít jiný popsaný přístup nebo u sloupce rezignovat na české řazení a nastavit mu utf8_general_ci přímo v tabulce (u souvislých textů si to můžeme dovolit, u nadpisů obvykle ne).

30.3.2009 03:14:09

radekzatec:

Všechny vás zdravím jsem začatečnik
prosim o pomoc, at delam co delam tak mi to vyhledáva jen slova s diaktrikou bez neumí.
Dále pri vyhledávani rozdeluje slova s velkým písmenem Kapr a kapr je jine slovo.
Nevim jak na to.

Hledal jsem v manualu a na různých forech i zde nasel jsem i texty venovane se tomuto tématu ale nenašel jsem rešení.

Proto jsem zacal hledat reseni a rekl jsem si že udelam prevod na ucfirst () - první velke písmeno fráze v proměné a strtolower () - celá fráze malými písmeny.

Problém je že fc ucfirst () mi převádí celou frázi velkými písmeny. Zkoušel jsem pres funkci substrs () odelit první pismeno a zvetsit jej a pak zase sloucit se zbyvajicim textem ale to mi zase niže uvedená funkce neumela udelat pismena s diaktritikou. delalo to toto .

Prosím kohokoli kdo mi muže pomoci at poradi jak na to Jsem uplnej laik.

Samotnej kod funguje, ale funkce strtolower () na vic neumi napriklad preklad slova česnek (malíma písmenama) převede na slovo ĭesnek.
ucfirst () pri převodu slova Žába vznikne nyní toto ŝàBA (neumí prevest "Ž na ž"). Znáteli řesení meho problemu pomozte.

Klidne upravte kod jen nepiste udelej to a to alespon blíže nastinte ukazkou kodu abych vedel o cem je řec moc díky.

Mam hosting na cizim serveru kde je

* Verze MySQL: 4.1.15-Debian_0.dotdeb.4-log
* Verze protokolu: 10
* Server: MySQL 4.1 (SQL)
* Znaková sada v MySQL: UTF-8 Unicode (utf8)

<p>
<form action="vyhledavani.php" method="post">
Slovo:<br />
<input type="text" name="keywords" size="20" maxlength="40" value="" /><br />
<input type="submit" value="Hledej!"/>
</form>
</p>

<?php
function cz_ucfirst($keywords){
return strtr($keywords,"abcdefghijklmnopqrstuvwxyzáäéěëíóöúůüýščřžďťň","ABCDEFGHIJKLMNOPQRSTUVWXYZÁÄÉĚËÍÓÖÚŮÜÝŠČŘŽĎŤŇ");
}
function cz_strtolower($keywords){
return strtr($keywords,"ABCDEFGHIJKLMNOPQRSTUVWXYZÁÄÉĚËÍÓÖÚŮÜÝŠČŘŽĎŤŇ","abcdefghijklmnopqrstuvwxyzáäéěëíóöúůüýščřžďťň");
}
// Jestliže byl formulář odeslán s dodanými klíčovými slovy
if (isset($_POST['keywords'])) {
$keywords = $_POST['keywords'];
$keywords1 = cz_ucfirst($keywords); //převede první písmeno na velké
$keywords2 = cz_strtolower($keywords); //převede všechny písmena na malé
//vytvoří dotaz
$mysqldb->query("SELECT id, nazev_receptu FROM kucharka WHERE MATCH(nazev_receptu) AGAINST ('+(>$keywords1, $keywords2)' IN BOOLEAN MODE) OR MATCH(suroviny_k_priprave) AGAINST ('+(>$keywords1, $keywords2)' IN BOOLEAN MODE) ORDER BY nazev_receptu ASC ");

// získá řádky vytvoří odkaz a nebo zobrazí vadnou zprávu
if ($mysqldb->numrows() > 0) {
while ($row = $mysqldb->fetchobject())
echo "<a href=\"recept.php?id=$row->id\">$row->nazev_receptu</a><br />";

} else {
echo "Žádný výsledek.";
}
}
echo "$keywords1 $keywords2."; // jen pro ověření že proměné splňují mé požadavky v samotném finalnim kodu již nebude.
?>

6.1.2008 00:54:12

Fabian:

Diky za clanek. Pomohl

13.6.2008 15:28:19

Chinese:

Zdar, měl bych dotaz.
Když uložím do databáze čínské nebo japonské znaky. MySQL je samo pro sebe předělává (vidím to v PHP MyAdminu).
Např. 教 změní na æ•™

Neví někdo, jak takto změnit znaky při vyhledávání?
Jako že kdby někdo zadal do hledání ten znak a převedl by se na æ•™. Protože když dám hledat æ•™ tak to MySQL samozřejmě najde.

25.7.2009 11:42:55

Miško:

Chinese - tak ja mám nastavené všetko v mysql na utf general ci - a skúsil som do mojej aplikácie pár hiragana znakov naťukať a kuk do navicatu a všetko sa tam uložilo tak ako som to napísal - a v aplikácii PHP mi to tiež s DB vytiahlo a ukázalo tak ako som to napísal

16.6.2010 22:33:07

Ivan Trnka:

Najprv som sa zlakol, ze co toto je, potom som si vsimol datum, ze 2007... takze OK.
Ale v roku 2014 by som tento typ vyhladavania nepouzil za ziadnych okolnosti. Velmi pomaly, bez relevancie...
Ak je to mozne, nepouzivajte mysql na fulltext. Ked ano, potom ulozte zaznamy duplicitne takym sposobom, ze vytvorite novu tabulku, ulozite do nej texty bez diakritiky a vysledky naparujte na realne data.
Nechce sa mi vypistovat, ako urobit konkretne vyhladavanie, detaily najdete tu
http://dev.mysql.com/doc/refman/5.0/en/fulltext-search.html

teda ziadny LIKE

10.11.2014 12:47:19

Diskuse je zrušena z důvodu spamu.

Navigace

PHP triky

Kupte si mou knihu

Reklama

Hledáte-li programátora nebo naopak sami programujete a nemáte do čeho píchnout, využijte služeb portálu nezávislých profesionálů Na volné noze.

Web běží na serveru

Váš hosting

Články podle skupin

Výběr článků

Nejnovější články

Normy a manuály

Další projekty

. Můžeme si tykat. Skripty předpokládají nastavení: magic_quotes_gpc=Off, magic_quotes_runtime=Off, error_reporting=E_ALL & ~E_NOTICE a očekávají předchozí zavolání mysql_set_charset. Skripty by měly být funkční v PHP >= 4.3 a PHP >= 5.0.