Unikátní klíč nad dlouhým řetězcem

Tabulky typu InnoDB umožňují maximální délku sloupce v indexu jen 767 bytů (255 UTF-8 znaků + délka). U normálních indexů to nevadí, protože můžeme pomocí sloupec(255) index vytvořit jen nad začátkem sloupce. Problém nastává u unikátních indexů, kde se řetězec může lišit až za délkou zachycenou v indexu. Tento problém nastává např. u URL nebo u cest k souborům, které mohou být dlouhé, mohou se lišit až na konci a které můžeme potřebovat unikátní.

Řešit se to dá přidáním sloupce, do kterého uložíme haš sloupce a unikátní index vytvoříme nad ním. Sloupec můžeme naplňovat triggerem, abychom na to třeba při importu nezapomněli.

CREATE TABLE `feed` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `url` varchar(2047) NOT NULL,
  `url_md5` binary(16) NOT NULL DEFAULT '',
  PRIMARY KEY (`id`),
  UNIQUE KEY `url_md5` (`url_md5`)
);

CREATE TRIGGER `feed_bi` BEFORE INSERT ON `feed` FOR EACH ROW
SET NEW.`url_md5` = UNHEX(MD5(NEW.`url`));

CREATE TRIGGER `feed_bu` BEFORE UPDATE ON `feed` FOR EACH ROW
SET NEW.`url_md5` = UNHEX(MD5(NEW.`url`));

Sloupec můžeme použít i při vyhledávání, jen musíme podmínku ručně zkonstruovat. Pro ~~třídění~~ řazení index samozřejmě použít nemůžeme, to ale u URL obvykle není potřeba.

Jakub Vrána, Řešení problému

Diskuse

Pawouk:

Super, díky za typ.

10.7.2013 23:16:45

Bram:

Otázka je, zda je vhodné spoléhat na to, že nevzniknou kolize vygenerovaných hashů i pro různé řetězce. Pravděpodobnost toho je velmi malá, ale přesto toto riziko existuje.

11.7.2013 00:13:22

Franta:

Zvlášť když se použije algoritmus MD5…

11.7.2013 00:23:35

Jakub Vrána :

http://stackoverflow.com/questions/1999824/…#answer-4371834 ukazuje kolizi na 16 bajtech. Ale připravit ji tak, aby řetězce splňovaly formát URL, by byl oříšek.

11.7.2013 22:01:06

Jakub Vrána :

U hašovacích funkcí kolize samozřejmě nastat můžou, ale v praxi s tím není potřeba bojovat, obzvlášť u krátkých řetězců. Pravděpodobnost, že by kolize vznikla jen tak náhodou, je nula na mnoho desetinných míst.

(reakce na) 11.7.2013 04:42:57

Petr:

Já bych si tím nevzniknutím kolize nebyl tak jistý. Chtěl jsem tuto metodu použít pro tabulku s asi 1M záznamů a kolizí bylo hodně. Jednalo se o řetězce o délkách od 4 do 8 znaků. MD5 mi na to přijde nepoužitelné.

11.7.2013 10:25:06

Jirka:

Chci ten soubor ke stažení. Tohle je totiž šílená pitomost.

Kdybyste našel dva kolizní řetězce o čtyřech až osmi znacích, tak by to bylo na publikaci v nějakém prestižním vědeckém časopise.

Všechny známé md5 kolize jsou totiž obskurní BINÁRNÍ a DLOUHÉ kusy nesmyslných dat. Nevím o tom, že by byly známy dva ascii texty, generující totožný md5 hash.

11.7.2013 13:00:30

Vojta:

Souhlas. Tipoval bych spíš na nějakou chybu při volání MD5 (nějaký NULL mohl třeba vynulovat celý vstupní řetězec). Kromě toho lze pro klid duše hashovaný řetězec osolit třeba IDčkem záznamu, tím vznikne unikátní řetězec v rámci celé tabulky.

11.7.2013 14:11:51

Franta:

Což by bylo na nic, protože 1http://example.com/ by mělo jiný hash než 2http://example.com/, zatímco ty chceš, aby URL bylo unikátní tzn. nešlo zadat dvě stejná. BTW: co vede lidi v roce 2013 k používání MD5? To musí být asi nějaké opravdu silné citové pouto :-)

11.7.2013 18:16:55

David Grudl:

A proč ne? Je to rychlé a generuje to dostatečně rozdílné hashe. Že lze dnes snadno dohledávat kolize naprosto ničemu nevadí.

11.7.2013 21:20:52

Vojta:

Jde o reakci na příspěvek výše, ne na článek. To osolení je pro případ rizika duplicit vstupu do MD5, které je při řetězci o 4-8 znacích a milionu záznamů značné, viz příspěvek od "kb".
Pokud potřebuji jedinečnost URL, tak samozřejmě IDčkem solit nemůžu :-)

(reakce na) 12.7.2013 03:04:46

kb:

Při délce 4-8 znaků a 1M záznamech je hodně slušná pravděpodobnost, že x z nich jsou stejné. Pak mají stejný i hash (pokud se nesolí). Vysvětloval bych si ty kolize spíš takhle :-). Vzniká tu kolem md5 hrozná paranoia.

(reakce na) 11.7.2013 15:50:25

Vojta:

Přesně. Lidé neošetří vstupy, pak z toho viní MD5 a ještě snad doufají, že to za ně vyřeší SHA512 :-)

12.7.2013 02:59:44

David Grudl:

Pokud je délka MD5 2^128 (což je asi 3e38) a ty operuješ s 1e6 záznamů a kolize ti vznikaly často, tak myslím, že bys tu mohl tak ze tři-čtyři uvést, jinak prostě děsně kecáš ;)

(reakce na) 11.7.2013 21:09:33

P.:

No myslím že tady je to pěkně spočítáno :)
http://stackoverflow.com/questions/201705/…-collisions

12.7.2013 08:51:03

baghira:

Hash se ale za unikátní klíč považovat nedá, ne?

11.7.2013 00:14:01

Michal:

Ja osobne pouzivam php funkci crc32 na url a tu pak ukladam jako index typu int, resp bigint. Zcela spolehlive a funkci...

Jen pozor na to co crc32 funkce vraci na 32 a 64 bit platforme. Na 32 bit platforme vraci "signed" cislo a tak je s tim potreba pocitat.

11.7.2013 10:53:13

socan:

No... zajimavy tip, ale pokud to pujde, budu se snazit mu za kazdou cenu vyhnout.

Jinak si myslim, ze pravdepodobnost kolize, ze dva zaznamy by mely stejny hash, je zanedbatelna, pokud zrovna nepisu aplikaci pro rizeni jaderneho reaktoru.

11.7.2013 00:32:10

snk:

Já si myslím, že ta pravděpodobnost je stále stejná. Ať píšeš web pro frantu 123 nebo jaderný reaktor :)

Unikátní klíč nad dlouhým řetězcem

Diskuse

Pawouk:

Bram:

Franta:

Jakub Vrána :

Jakub Vrána :

Petr:

Jirka:

Vojta:

Franta:

David Grudl:

Vojta:

kb:

Vojta:

David Grudl:

P.:

baghira:

Michal:

socan:

snk:

Patrik Šíma:

Jan Kahoun:

Jakub Vrána :

Patrik Šíma:

Patrik Šíma:

Jakub Vrána :

Patrik Šíma:

Jakub Vrána :

Patrik Šíma:

Jakub Vrána :

Patrik Šíma:

Jakub Vrána :

Vojta:

Patrik Šíma:

Vojta:

Patrik Šíma:

Vojta:

Patrik Šíma:

Vojta:

Patrik Šíma:

Vojta:

Taco:

Taco:

Jakub Vrána :

Taco:

Jakub Vrána :

Patrik Šíma:

Jakub Vrána :

Patrik Šíma:

Vojta:

kb:

Patrik Šíma:

Patrik Šíma:

Patrik Šíma:

Tomáš Fejfar:

Jakub Vrána :

Stanislav Nechutný:

Jan Kahoun:

Jan Kahoun:

Michal Prynych:

Jakub Vrána :

Michal Prynych:

Ivan Dlugos:

Jakub Vrána :

Navigace

PHP triky

Kupte si mou knihu

Reklama

Web běží na serveru

Články podle skupin

Výběr článků

Nejnovější články

Normy a manuály

Další projekty