Commandes affectant le texte et les fichiers textes
Outil de tri de fichier, souvent utilisée dans un tube pour trier. Cette commande trie un flux de texte ou un fichier, ascendant ou descendant, ou selon diverses clés ou positions de caractère. Avec l'option -m, elle combine des fichiers pré-triés. La page info recense ses multiples possibilités et options. Voir l'Exemple 11.9, « Rechercher les auteurs de tous les binaires d'un répertoire », l'Exemple 11.10, « Afficher les liens symboliques dans un répertoire » et l'Exemple A.8, « makedict : Créer un dictionnaire ».
Tri topologique, lisant chaque paire de mots séparés par un espace et triant en fonction des motifs donnés. Le but original de tsort était de trier une liste des dépendances pour une version obsolète de l'éditeur de liens ld dans une « ancienne » version d'UNIX.
En règle générale, le résultat d'un tsort diffère du résultat de la commande sort, décrite ci-dessus.
Ce filtre élimine les lignes dupliquées depuis un fichier trié. On le voit souvent dans un tube combiné avec un sort.
cat liste-1 liste-2 liste-3 | sort | uniq > liste.finale # Concatène les fichiers liste, # les trie, # efface les lignes doubles, # et enfin écrit le résultat dans un fichier de sortie.
L'option très utile -c préfixe chaque ligne du fichier d'entrée avec son nombre d'occurence.
bash$ cat fichiertest Cette ligne apparaît une seule fois. Cette ligne apparaît deux fois. Cette ligne apparaît deux fois. Cette ligne apparaît trois fois. Cette ligne apparaît trois fois. Cette ligne apparaît trois fois. bash$ uniq -c fichiertest 1 Cette ligne apparaît une seule fois. 2 Cette ligne apparaît deux fois. 3 Cette ligne apparaît trois fois. bash$ sort fichiertest | uniq -c | sort -nr 3 Cette ligne apparaît trois fois. 2 Cette ligne apparaît deux fois. 1 Cette ligne apparaît trois fois.
La commande sort FICHIER_ENTREE | uniq -c | sort -nr renvoie la liste contenant le nombre d'occurence des lignes du fichier FICHIER_ENTREE (l'option -nr de sort produit un tri numérique inversé). Ce type de recherche trouve son utilité dans l'analyse de fichiers de traces et de dictionnaires, ainsi que là où la structure lexicale d'un document doit être examinée.
bash$ cat fichiertest Cette ligne apparaît une fois. Cette ligne apparaît deux fois. Cette ligne apparaît deux fois. Cette ligne apparaît trois fois. Cette ligne apparaît trois fois. Cette ligne apparaît trois fois. bash$ ./wf.sh fichiertest 6 Cette 6 apparaît 6 ligne 3 fois 3 trois 2 deux 1 une
Souvent utilisée dans un tube, expand transforme les tabulations en espaces.
unexpand transforme les espaces en tabulations. Elle inverse les modifications d'expand.
Un outil d'extraction des champs d'un fichier. Cette commande ressemble à l'ensemble de commandes print $N, en awk, en plus limité. cut sera peut être plus simple que awk, à utiliser dans un script. Les options -d (délimitation) et -f (indication du champ) sont les plus importantes.
Utiliser cut pour obtenir une liste des systèmes de fichiers montés :
cut -d ' ' -f1,2 /etc/mtab
Utiliser cut pour avoir l'OS et la version du noyau :
uname -a | cut -d" " -f1,3,11,12
Utiliser cut pour extraire les en-têtes des messages depuis un dossier de courriers électroniques :
bash$ grep '^Subject:' messages-lus | cut -c10-80 Re: Linux suitable for mission-critical apps? MAKE MILLIONS WORKING AT HOME!!! Spam complaint Re: Spam complaint
Utiliser cut pour analyser un fichier :
# Montre tous les utilisateurs compris dans /etc/passwd. FICHIER=/etc/passwd for utilisateur in $(cut -d: -f1 $FICHIER) do echo $utilisateur done # Merci à Oleg Philon pour cette suggestion.
cut -d ' ' -f2,3 fichier est équivalent à awk -F'[ ]' '{ print $2, $3 }' fichier
Il est même possible de spécifier un saut de ligne comme délimiteur. L'astuce revient à embarquer un retour chariot (RETURN) dans la séquence de la commande.
bash$ cut -d' ' -f3,7,19 testfile Ceci est la ligne 3 du fichier de test. Ceci est la ligne 7 du fichier de test. Ceci est la ligne 19 du fichier de test.
Merci pour cette précision, Jaka Kranjc.
Voir aussi l'Exemple 16.48, « Conversion de base ».
Outil pour fusionner différents fichiers dans un seul fichier multi-colonne. Combiné avec cut, c'est utile pour créer des fichiers de traces.
Considérez-le comme un cousin de paste mais à usage spécifique. Ce puissant outil permet de fusionner deux fichiers d'une façon significative, qui crée essentiellement une simple version de base de données relationelle.
join travaille sur deux fichiers mais récupère seulement les lignes qui possèdent un champ commun (en général une étiquette numérique) et écrit le résultat vers stdout. Les fichiers joints doivent être triés de la même façon sur le champ cible pour que la correspondance fonctionne correctement.
Fichier: 1.donnees 100 Chaussures 200 Bretelles 300 Cure-dents
Fichier: 2.donnees 100 $40.00 200 $1.00 300 $2.00
bash$ join 1.donnees 2.donnees Fichier: 1.donnees 2.donnees 100 Chaussures $40.00 200 Bretelles $1.00 300 Cure-dents $2.00
Les champs de sélection apparaîtront seulement une fois dans le résultat.
Affiche le début d'un fichier sur stdout. Par défaut 10 lignes, mais il est possible de spécifier un autre nombre. Cette commande possède de nombreuses options intéressantes.
Voir aussi l'Exemple 16.39,
« Décoder des fichier codés avec uudecode ».
Affiche la fin d'un fichier vers stdout. Par défaut 10 lignes mais cela peut être changé avec l'option -n. Souvent utilisée pour voir les changements faits à un fichier de traces avec -f qui affiche les lignes ajoutées au fichier au moment où elles arrivent.
Pour lister une ligne spécifique d'un fichier texte, envoyez la sortie d'un head via un tube à tail -n 1. Par exemple, head -n 8 database.txt | tail -n 1 liste la huitième ligne du fichier database.txt.
Pour configurer une variable avec un bloc donné d'un fichier texte :
var=$(head -n $m $nomfichier | tail -n $n) # nomfichier = nom du fichier # m = nombre de lignes du début du fichier jusqu'à la fin du bloc # n = nombre de lignes à récupérer (depuis la fin du bloc)
Les nouvelles implémentations de tail rendent obsolètes l'utilisation de tail -$LIGNES fichier. Le tail -n $LIGNES fichier standard est correct.
Voir aussi l'Exemple 16.5, « Fichier de traces utilisant xargs pour surveiller les journaux système », l'Exemple 16.39, « Décoder des fichier codés avec uudecode » et l'Exemple 32.6, « Nettoyage après un Control-C ».
Un outil de recherche qui utilise les expressions rationnelles. À la base, c'était un filtre du vénérable ed éditeur de ligne, G.Re.P : global - regular expression - print.
grep motif [fichier...]
Recherche dans le fichier cible un motif, où motif peut être un texte littéral ou une expression rationnelle.
bash$ grep '[rst]ystem.$' osinfo.txt The GPL governs the distribution of the Linux operating system.
Si aucun fichier n'est spécifié, grep travaillera en tant que filtre sur stdout, comme dans un tube.
bash$ ps ax | grep clock 765 tty1 S 0:00 xclock 901 pts/1 S 0:00 grep clock
-i active la recherche insensible à la casse.
-w recherche seulement les mots entiers.
-l liste seulement les fichiers dans lesquels des concordances ont été trouvées, mais pas les lignes correspondantes.
-r (récursif) cherche dans le répertoire et les sous-répertoires.
-n montre les lignes concordantes avec le numéro de ligne.
bash$ grep -n Linux osinfo.txt 2:This is a file containing information about Linux. 6:The GPL governs the distribution of the Linux operating system.
-v (ou --invert-match) n'affiche pas les lignes où le motif concorde.
grep motif1 *.txt | grep -v motif2 # Recherche dans "*.txt" de "motif1", # mais ***pas*** "modif2".
-c (--count) affiche le nombre de concordances trouvées, plutôt que de les afficher.
grep -c txt *.sgml # (nombre d'occurences de "txt" dans les fichiers "*.sgml") # grep -cz . # ^ point # signifie compter (-c) les objets séparés par des zéros (-z) correspondant à "." # c'est à dire, ceux qui ne sont pas vides (contenant au moins 1 caractère). # printf 'a b\nc d\n\n\n\n\n\000\n\000e\000\000\nf' | grep -cz . # 3 printf 'a b\nc d\n\n\n\n\n\000\n\000e\000\000\nf' | grep -cz '$' # 5 printf 'a b\nc d\n\n\n\n\n\000\n\000e\000\000\nf' | grep -cz '^' # 5 # printf 'a b\nc d\n\n\n\n\n\000\n\000e\000\000\nf' | grep -c '$' # 9 # Par défaut, les caractères de fin de ligne (\n) séparent les objets à rechercher. # Notez que -z est spécifique à GNU "grep" # Merci, S.C.
L'option --color (ou --colour) marque la chaîne correspondante en couleur (sur la console ou dans une fenêtre xterm). Comme grep affiche chaque ligne entière contenant le modèle de correspondance, cela vous permettra de voir exactement ce qui a déclenché la correspondance. Voir aussi l'option -o qui affiche seulement la partie correspondant au modèle dans la ligne.
Lorsqu'il est invoqué avec plus d'un fichier cible donné, grep spécifie quel fichier contient les concordances.
bash$ grep Linux osinfo.txt misc.txt osinfo.txt:This is a file containing information about Linux. osinfo.txt:The GPL governs the distribution of the Linux operating system. misc.txt:The Linux operating system is steadily gaining in popularity.
Pour forcer grep à montrer le nom du fichier pendant la recherche d'un fichier cible, donnez /dev/null comme deuxième fichier.
bash$ grep Linux osinfo.txt /dev/null osinfo.txt:This is a file containing information about Linux. osinfo.txt:The GPL governs the distribution of the Linux operating system.
S'il y a une concordance de motif, grep renvoie un code de sortie 0, ce qui le rend utile comme test conditionnel dans un script, en particulier en combinaison avec l'option -q pour supprimer la sortie.
SUCCES=0 # si la recherche avec grep est fructueuse mot=Linux nomfichier=donnees.fichier grep -q "$mot" "$nomfichier" # -q supprime l'affichage vers stdout if [ $? -eq $SUCCES ] # if grep -q "$mot" "$nomfichier" peut remplacer les lignes 5 à 7. then echo "$mot trouvé dans $nomfichier" else echo "$mot introuvable dans $nomfichier" fi
L'Exemple 32.6, « Nettoyage après un Control-C » montre comment utiliser grep pour chercher un mot dans un journal de traces.
Comment grep peut-il chercher deux modèles (ou plus) ? Que faire si vous voulez que grep affiche toutes les lignes d'un ou plusieurs fichiers contenant à la fois « modele1 » et « modele2 » ?
Une méthode est d'envoyer le résultat du grep modele1 via un tube dans grep modèle2.
Par exemple, étant donné le fichier suivant :
# Nom du fichier : fichiertest Ceci est un fichier d'exemple. Ceci est un fichier texte ordinaire. Ce fichier ne contient aucun texte inhabituel. Ce fichier n'est pas inhabituel. Voici un peu de texte.
Maintenant, cherchons dans ce fichier des lignes contenant à la fois « fichier » et « texte »...
bash$ grep fichier fichiertest # Nom du fichier : fichiertest Ceci est un fichier d'exemple. Ceci est un fichier texte ordinaire. Ce fichier ne contient aucun texte inhabituel. Ce fichier n'est pas inhabituel. bash$ grep fichier fichiertest | grep texte Ceci est un fichier texte ordinaire. Ce fichier ne contient aucun texte inhabituel.
Maintenant, pour une utilisation récréative et intéressante de grep...
egrep -- grep étendu -- est comme grep -E. Elle utilise un jeu d'expressions rationnelles légèrement différent et étendu, ce qui peut rendre une recherche plus flexible. Il accepte aussi l'opérateur booléen | (or).
bash $ egrep 'correspond|Correspond' fichier.txt La ligne 1 correspond. La ligne 3 correspond. La ligne 4 contient des correspondances mais aussi des Correspondances.
fgrep -- grep rapide -- comme grep -F; recherche une chaîne littérale (pas d'expressions rationnelles), ce qui accélère en principe le traitement.
Sur certaines distributions Linux, egrep et fgrep sont des liens symboliques vers, ou des alias de grep, mais appelés avec les options -E et -F, respectivement.
Voir aussi Exemple A.41, « Quacky : un jeu de mots de type Perquackey » pour un exemple de recherche fgrep rapide sur un gros fichier texte.
agrep (grep approximatif) étend les possibilités de grep à une concordance approximative. La chaîne trouvée peut différer d'un nombre spécifié de caractères du motif. Cette commande ne fait pas partie des distributions Linux.
Pour chercher dans des fichiers compressés, utilisez zgrep, zegrep ou zfgrep. Ces commandes marchent aussi avec des fichiers non compressés, bien que plus lentement qu'un simple grep, egrep, fgrep. C'est pratique pour chercher dans divers fichiers, compressés ou non.
Pour chercher dans des fichiers compressés avec bzip, utilisez bzgrep.
La commande look fonctionne comme grep mais fait une recherche basée sur un « dictionnaire », une liste de mots triés. Par défaut, look cherche une correspondance dans /usr/dict/words mais un autre dictionnaire peut être utilisé.
Langages de script convenant bien à l'analyse de fichiers texte et des sorties de commandes. Peuvent être utilisés seuls ou conjointement avec des tubes et des scripts shell.
« Éditeur de flux » non interactif, permettant d'utiliser plusieurs commandes ex dans un mode batch. C'est souvent utile dans des scripts shell.
Extracteur et formateur programmable de fichiers, bon pour la manipulation ou l'extraction de champs (colonnes) de fichiers texte structurés. La syntaxe est similaire à celle de C.
wc (word count) donne le nombre de mots d'un fichier ou d'un flux :
bash $ wc /usr/share/sed-4.1.2/README 13 70 447 /usr/share/sed-4.1.2/README [13 lignes 70 mots 447 caractères]
wc -w donne seulement le nombre de mots.
wc -l donne seulement le nombre de lignes.
wc -c donne le nombre d'octets.
wc -m donne le nombre de caractères.
wc -L donne la taille de la ligne la plus longue.
Utiliser wc pour connaître le nombre de fichiers .txt dans le répertoire courant :
$ ls *.txt | wc -l # Cela ne fonctionnera que si aucun fichier "*.txt" ne contient de saut de ligne dans #+ son nom. # D'autres moyens de faire ça : # find . -maxdepth 1 -name \*.txt -print0 | grep -cz . # (shopt -s nullglob; set -- *.txt; echo $#) # Merci, S.C.
Utiliser wc pour sommer la taille de tous les fichiers dont le nom commence avec une lettre entre d et h
bash$ wc [d-h]* | grep total | awk '{print $3}' 71832
Utiliser wc pour compter le nombre de fois où « Linux » apparaît dans le source de ce document.
bash$ grep Linux abs-book.sgml | wc -l 50
Voir aussi l'Exemple 16.39, « Décoder des fichier codés avec uudecode » et l'Exemple 20.8, « Boucle for redirigée ».
Certaines commandes incluent quelques fonctionnalités de wc comme options.
... | grep foo | wc -l # Cette construction fréquemment utilisée peut être plus concise. ... | grep -c foo # Utiliser l'option "-c" (or "--count") de grep à la place. # Merci, S.C.
Filtre de transposition de caractères.
Utilisez les guillemets et/ou les parenthèses, si besoin est. Les guillemets empêchent le shell de réinterpréter les caractères spéciaux dans les séquences de commande de tr. Les parenthèses devraient être mises entre guillemets pour empêcher leur expansion par le shell.
tr "A-Z" "*" < fichier ou tr A-Z \* < fichier remplacent toutes les majuscules de fichier par des astérisques (le résultat est écrit dans stdout). Sur certains systèmes, ça peut ne pas fonctionner. Cependant tr A-Z '[**]' fonctionnera.
-d efface un intervalle de caractères.
echo "abcdef" # abcdef echo "abcdef" | tr -d b-d # aef tr -d 0-9 < fichierbidon # Efface tous les chiffres du fichier "fichierbidon".
--squeeze-repeats (ou -s) efface toute occurence sauf la première, d'une chaîne de caractères. Cette option est utile pour supprimer les espaces blancs superflus.
bash$ echo "XXXXX" | tr --squeeze-repeats 'X' X
L'option « complément » -c inverse l'ensemble de caractères à détecter. Avec cette option, tr n'agit que sur les caractères ne faisant pas partis de l'ensemble spécifiés.
bash$ echo "acfdeb123" | tr -c b-d + +c+d+b++++
Notez que tr reconnaît les ensembles de caractères POSIX. [69]
bash$ echo "abcd2ef1" | tr '[:alpha:]' - ----2--1
Exemple 16.22. lowercase : Change tous les noms de fichier du répertoire courant en minuscule.
&lowercase;
Un filtre qui scinde les lignes entrées à partir d'une taille spécifiée. C'est spécialement utile avec l'option -s, qui coupe les lignes à chaque espace (voir l'Exemple 16.26, « Affichage d'un fichier formaté. » et l'Exemple A.1, « mailformat : Formater un courrier électronique »).
Un formateur de fichier tout bête, utilisé en tant que filtre dans un tube pour « scinder » les longues lignes d'un texte.
Voir aussi l'Exemple 16.5, « Fichier de traces utilisant xargs pour surveiller les journaux système ».
Une puissante alternative à fmt est par de Kamil Toman disponible sur http://www.cs.berkeley.edu/~amc/Par/.
Cette commande dont le nom est trompeur supprime les sauts de ligne inversés d'un flux en entrée. Elle tente aussi de remplacer les espaces blancs par des tabulations équivalentes. Le rôle principal de col est de filtrer la sortie de certains utilitaires de manipulation de textes, tels que groff et tbl.
Formateur de colonnes. Ce filtre transforme le texte écrit façon "liste" en un « joli » tableau par l'insertion de tabulations aux endroits appropriés.
Filtre de suppression de colonnes. Ce filtre enlève les colonnes (caractères) d'un fichier et envoie le résultat vers stdout. colrm 2 4 < fichier efface le deuxième par bloc de 4 caractères de chaque ligne du fichier fichier.
Si le fichier contient des tabulations ou des caractères non imprimables, cela peut causer des comportements imprévisibles. Dans de tel cas, pensez à utiliser expand et unexpand dans un tube précédant colrm.
Filtre de numérotation de lignes. nl fichier envoie fichier sur stdout en insérant un nombre au début de chaque ligne non vide. Si fichier est omit, alors ce filtre travaillera sur stdin.
La sortie de nl est très similaire à cat -b car, par défaut, nl ne liste pas les lignes vides.
Filtre d'impression formaté. Ce filtre paginera des fichiers (ou stdout) en sections utilisables pour des impressions papier ou pour les voir à l'écran. Diverses options permettent la manipulation des rangées et des colonnes, le regroupement des lignes, la définition des marges, la numérotation des lignes, l'ajout d'en-têtes par page et la fusion de fichiers entre autres choses. La commande pr combine beaucoup des fonctionnalités de nl, paste, fold, column et expand.
pr -o 5 --width=65 fileZZZ | more renvoie un joli affichage paginé à l'écran de fileZZZ avec des marges définies à 5 et 65.
Une option particulèrement utile est -d, forçant le double-espacement (même effet que sed -G).
Le package GNU gettext est un ensemble d'utilitaires pour adapter et traduire la sortie de texte des programmes en des langages étrangers. Bien que à l'origine la cible était les programmes C, il supporte maintenant un certain nombre de langages de programmation et de scripts.
Le programme gettext fonctionne avec les scripts shell. Voir la page info.
Un programme pour générer des catalogues binaires de messages. Il est utilisé pour la normalisation.
Un utilitaire pour convertir des fichiers en un codage différent (jeu de caractère). Son rôle principal concerne la normalisation.
# Convertit une chaîne d'UTF-8 vers UTF-16 et l'ajoute dans LISTELIVRES function ecrit_chaine_utf8 { CHAINE=$1 LISTELIVRES=$2 echo -n "$CHAINE" | iconv -f UTF8 -t UTF16 | \ cut -b 3- | tr -d \\n >> "$LISTELIVRES" } # Vient du script "booklistgen.sh" de Peter Knowles #+ permettant de convertir les fichiers au format Librie/PRS-50X de Sony. # (http://booklistgensh.peterknowles.com)
Considérez-le comme une version puissante d'iconv, ci-dessus. Ce très souple utilitaire de conversion d'un fichier dans un jeu de caractère différent. Notez que recode ne fait pas partie d'une installation Linux standard.
TeX et Postscript sont des langages de balises utilisés pour préparer une impression ou un formatage pour l'affichage vidéo.
TeX est le système "typesetting" élaboré de Donald Knuth. C'est souvent pratique d'écrire un script qui va encapsuler toutes les options et arguments passés à l'un de ces langages.
Ghostscript (gs) est un interpréteur GPL de Postscript .
Outil pour traiter des fichiers TeX et PDF. Trouvé dans /usr/bin dans plusieurs distributions Linux, c'est réellement un emballage shell qui appelle Perl pour invoquer Tex.
texexec --pdfarrange --result=Concatené.pdf *pdf # Concatène tous les fichiers PDF du répertoire actuel #+ dans un seul fichier, Concatené.pdf . . . # (L'option --pdfarrange repagine un fichier PDF. Voir aussi --pdfcombine.) # La commande ci-dessus pourrait être avec « paramétrisée » #+ et placée dans un script shell.
Outil pour convertir un fichier texte en PostScript
Par exemple, enscript fichier.txt -p fichier.ps crée un fichier PostScript filename.ps.
Un autre langage de balises est groff. C'est la version avancée GNU de la commande UNIX roff/troff. Les pages de manuel utilisent groff.
tbl, utilitaire de création de tableau est considéré comme faisant partie de groff, dans la mesure où sa fonction est de convertir une balise tableau en commandes groff.
Le processeur d'équations eqn fait aussi parti de groff et sa fonction est de convertir une balise d'équation en commandes groff.
Voir également Exemple A.39, « Éditeur de man page ».
lex, analyseur lexical, produit des programmes pour la détection de motifs. Ca a été remplacé depuis par flex, non propriétaire, sur les systèmes Linux.
L'utilitaire yacc crée un analyseur basé sur un ensemble de spécifications. Elle est depuis remplacée par le bison, non propriétaire, sur les systèmes Linux.
[69] Ce n'est vrai que pour la version GNU de tr, pas pour les versions génériques se trouvant dans les systèmes UNIX commerciaux.