Prohledávání kódu: sgrep a spatch

Při programování velmi často prohledávám kód. Např. mám klávesovou zkratku na nalezení definice metody nebo naopak všech míst, ze kterých je volaná. Někdo k tomu používá IDE, řešení s vyhledáváním má výhodu, že je použitelné třeba i v případě, když jsou soubory uložené na vzdáleném serveru a IDE by se s jejich indexací po každé změně pěkně zapotilo. Kromě toho hledám i spoustu dalších věcí, kolikrát je třeba rychlejší vyhledat nějaký fragment textu ze stránky, než procházet adresáře k souboru, který ji generuje.

Ve Facebooku je repozitář tak velký, že i git grep používající index je nesnesitelně pomalý. Vznikla proto služba tbgs, která repozitář pravidelně indexuje do paměti několika serverů a hledá v nich distribuovaně.

Dobré nalezitelnosti jsem postupně začal přizpůsobovat i kód, který píšu. V první řadě je potřeba dodržovat štábní kulturu – pokud jednou napíšete funkci malými písmeny a podruhé velkými, tak musíte hledat bez rozlišování velikosti písmen a nejdete možná i to, co nechcete (třeba stejnojmennou konstantu). Pokud jednou napíšete závorku na stejný řádek a jednou na nový, tak to při hledání možná nezohledníte a najdete jen část toho, co hledáte. Stejné věci je dobré pojmenovávat stejně, různé různě. Např. pro CSS třídy používám jako oddělovač slov pomlčku, takže nekolidují s jinými identifikátory. Nalezitelnost přizpůsobuji i pojmenování metod – třeba místo obecného add metodu raději pojmenuji addComment, takže pak jdou snadno najít všechna místa, ze kterých je volaná.

Co ale dělat v případě, kdy hledáme něco složitějšího? Např. bychom chtěli najít všechny výskyty strncmp(A, B, strlen(B)) == 0 a změnit je na startsWith(A, B). Hračka, řeknete si – stačí hledat regulární výraz strncmp\(.*, strlen\( a s tím už si nějak poradíme. Může nastat nepřeberné množství komplikací:

strlen() může být odsazeno na další řádek.
strlen() se může nacházet až za strncmp().
strlen() naopak může být použito v dřívějším parametru.
Pokud v regulárním výrazu začneme zohledňovat závorky, tak musíme vzít v potaz i závorky použité v jednotlivých argumentech nebo v řetězcích.
Celou situaci dále komplikují komentáře.

Pokud je v kódu jen pár výskytů, tak toho můžeme najít víc a probrat se tím ručně. Pokud ale chceme změnit stovky výskytů nebo chceme mít změnu reprodukovatelnou, tak bychom potřebovali nástroj, který kódu rozumí na vyšší úrovni.

Sgrep

Přesně takovým nástrojem je sgrep. Ten postaví syntaktický strom zdrojového kódu a dovoluje hledat v něm. Poradí si tím pádem se všemi nástrahami, které v kódu můžou být – nečekané bílé znaky, komentáře, vnořené výrazy, zkrátka cokoliv. Použití z příkazové řádky je velmi jednoduché:

sgrep -e 'strncmp(A, B, strlen(B)) == 0'

Pochopitelnou nevýhodou je pomalost – sgrep musí všechny soubory zparsovat. Je možné ho proto použít s normálním grepem – nejprve si nahrubo vyfiltrujeme všechny soubory, které hledaný výraz určitě obsahují (a možná i některé další) a ty potom dohledáme sgrepem.

Spatch

Ještě mocnější nástroj je spatch. Ten soubory nejen prohledává, ale provádí v nich i změny. Změnu strncmp na startsWith lze provést tímto spatchem:

-strncmp
+startsWith
 (A, B
-, strlen(B)) == 0
+)

Závěr

Sgrep a spatch nepoužívám moc často, ale když už je použiji, tak jsem za ně velmi vděčný, protože bez nich bych úkol řešil mnohem pracněji. Je proto dobré o nich minimálně vědět.

Jakub Vrána, Seznámení s oblastí, 3.7.2013

Diskuse

Ladislav Prskavec:

Zkousel jsi to porovnat s ack? Ten mi prijde pro zdrojove kody optimalnejsi nez grep.

3.7.2013 06:37:19

Jakub Vrána :

ack jsem nezkoušel. Nemám pocit, že by mě grep nějak omezoval, z příkazové řádky ho prakticky nepoužívám (buď použiji klávesovou zkratku pro hledání označeného slova nebo dialog v editoru). Takže si nejsem jist, co mi může ack nabídnout, ale možná ho zkusím.

4.7.2013 19:40:21

nik:

Ahoj, mám dotaz mimo mísu, jakou distribuci linuxu používáš?

4.7.2013 16:37:23

Jakub Vrána :

Na serveru používám vždycky to, co už tam nainstaloval někdo jiný. Mám zkušenosti s Debianem (Centrum), Red Hatem (Facebook) a Ubuntu (AWS), nemám mezi nimi silnou preferenci. Raději mám distribuce, kde je pokud možno vždy to nejnovější (např. PHP 5.5 nebo OCaml 4 právě pro kompilaci sgrepu), což se mi bohužel zatím nepoštěstilo.

4.7.2013 19:37:20

Ondra:

Možná by se hodilo poznamenat, že je to PHP only. Člověka to pak zbytečně navnadí :)

5.7.2013 09:17:50

Jakub Vrána :

Nicméně na https://github.com/facebook/pfff/wiki/Sgrep#wiki-synopsis se píše:

> For now only PHP is supported. Send an email to pad at fb.com if you want sgrep for your language.

V balíku PFFF je podpora pro několik dalších jazyků a přidat je i do sgrep a spatch by asi bylo relativně zvládnutelné.

5.7.2013 21:30:01

Matlafous:

Jen otázka - co to má společného s http://www.cs.helsinki.fi/u/jjaakkol/sgrep.html ?

9.7.2013 22:43:31

Jakub Vrána :

Nic.

10.7.2013 02:44:53

Diskuse je zrušena z důvodu spamu.

Navigace

PHP triky

Kupte si mou knihu

Reklama

Hledáte-li programátora nebo naopak sami programujete a nemáte do čeho píchnout, využijte služeb portálu nezávislých profesionálů Na volné noze.

Web běží na serveru

Váš hosting

Články podle skupin

Výběr článků

Nejnovější články

Normy a manuály

Další projekty

. Můžeme si tykat. Skripty předpokládají nastavení: magic_quotes_gpc=Off, magic_quotes_runtime=Off, error_reporting=E_ALL & ~E_NOTICE a očekávají předchozí zavolání mysql_set_charset. Skripty by měly být funkční v PHP >= 4.3 a PHP >= 5.0.