Les utilitaires de ligne de commande tels que grep et ack-grep sont parfaits pour rechercher dans des fichiers en texte brut des modèles correspondant à une expression régulière spécifiée. Mais avez-vous déjà essayé d’utiliser ces utilitaires pour rechercher des motifs dans un fichier PDF ? Eh bien, non ! Vous n’obtiendrez aucun résultat car ces outils ne peuvent pas lire les fichiers PDF ; ils ne lisent que les fichiers en texte brut.
pdfgrep, comme son nom l’indique, est un petit utilitaire de ligne de commande qui permet de rechercher du texte dans un fichier PDF sans ouvrir le fichier. Il est incroyablement rapide – plus rapide que la recherche fournie par pratiquement tous les visualiseurs de documents PDF. Une grande distinction entre grep et pdfgrep est que pdfgrep fonctionne sur des pages, alors que grep fonctionne sur des lignes. Il imprime également une seule ligne plusieurs fois si plusieurs correspondances sont trouvées sur cette ligne. Voyons comment utiliser exactement l’outil.
Contenu
Installation
Pour Ubuntu et les autres distributions Linux basées sur Ubuntu, c’est assez simple :
Pour les autres distributions, fournissez simplement pdfgrep comme entrée pour le gestionnaire de packages, et cela devrait l’installer. Vous pouvez également consulter la page GitLab du projet, au cas où vous voudriez jouer avec le code.
La course d’essai
Maintenant que vous avez installé l’outil, passons à un test. La commande pdfgrep prend ce format :
OPTION est une liste d’attributs supplémentaires à donner à la commande tels que -i ou –ignore-case, qui ignorent tous les deux la distinction de casse entre le modèle régulier spécifié et celui qui le correspond une fois dans le fichier.
SCHÉMA est juste une expression régulière étendue.
DÉPOSER est juste le nom du fichier, s’il se trouve dans le même répertoire de travail, ou le chemin d’accès au fichier.
J’ai exécuté la commande sur la documentation officielle de Python 3.6. L’image suivante est le résultat.
Les surbrillances rouges indiquent tous les endroits où le mot « file d’attente » a été rencontré. En passant -i comme option à la commande, les correspondances du mot « File d’attente » étaient incluses. N’oubliez pas que la casse n’a pas d’importance lorsque -i est passé en option.
Suppléments
pdfgrep a un certain nombre d’options intéressantes à utiliser. Cependant, je n’en couvrirai que quelques-uns ici.
La liste complète des options prises en charge se trouve dans les pages de manuel ou dans la documentation en ligne pdfgrep. N’oubliez pas que pdfgrep peut rechercher plusieurs fichiers en même temps, au cas où vous travailleriez avec des fichiers en vrac. La couleur de surbrillance de correspondance par défaut peut être modifiée en modifiant la variable d’environnement GREP_COLORS.
Conclusion
La prochaine fois que vous pensez à ouvrir un fichier PDF pour rechercher quoi que ce soit. pensez à utiliser pdfgrep. L’outil est pratique et vous fera gagner du temps.
Cet article est-il utile ? Oui Non