Dans la recherche de chaînes de caractères, il est souvent utile de disposer d'outils plus sophistiqués quand il s'agit de chercher des variantes orthographiques, comme dans la boîte de dialogue ou on cherche "démocratie" et "Demokratie".
C'est l'option Use GREP qui permet cela. Quand GREP est actif, vous pouvez spécifier ce que l'on appelle une (Regular expression), à savoir une expression qui peut contenir des éléments spéciaux expliqués ci-dessous.
Notez que GREP est également utilisable dans le codage automatique ().
GREP [Global Regular Expression Printer] se réfère a un utilitaire classique du monde Unix, permettant de rechercher des "expressions régulières", Atlas contient une version simplifiée.
Voici quelques exemples qui illustrent la puissance d'une recherche GREP:
d.mocratie | trouvera démocratie, mais aussi Democratie ou encore Domocratie |
d[eé]mo[ck]ratie | trouvera démocratie et Demokratie. les [] dénotent une classe de caractères |
démocraties? | trouvera démocratie et démocraties |
199[1-4] | trouvera 1991 1992 1993 et 1994 |
\[.*\] | trouvera n'importe quelle chaîne entre crochets. "\" est nécessaire pour que le crochet soit pris comme caractère normal dans le texte et pas un caractère GREP |
^..: | trouvera toutes les lignes qui commencent par exactement deux caractères et un ":". |
démocratie | Une chaîne de caractères ordinaire qui ne contient aucun élément GREP (on ne trouvera que 'démocratie') |
Ces exemples illustrent quelques variantes qui peuvent être utiles dans des documents qui contiennent structurellement plusieurs types d'informations, tels que des commentaires de l'intervieweurs entre crochets, les initiales des locuteurs en début de chaque paragraphe sous la forme "PH:" (par exemple).
Voici la liste des symboles spéciaux utilisés dans les expressions GREP (version 5.2 d'Atlas.ti)
Élément | Explication |
---|---|
. | N'importe quel caractère (un seul à cet endroit) |
* | Toute chaîne de caractères (y compris aucune) |
^ | L'expression de recherche qui suit commence en début de ligne |
$ | L'expression de recherche qui suit commence en fin de ligne |
+ | Au moins une occurrence de ce qui précède |
? | 0 ou une occurrence de ce qui précède |
[] | Classes de caractères, par exemple [a-z], [0-9],[aeiou],[àèì] |
\ | (Escape character) permet de chercher un des caractères spéciaux de Grep par exemple '\[' trouve un crochet. |
| | ou (or): Permet d'indiquer un choix qui doit être entre une paire de parenthèses simples, par exemple '(homme|femme)', 'Bon(soir|jour)' ou plus complexe '(Y|y|I|i|oup(i|e)+(|!)' qui trouvera 'Youpi', 'ioupi' et 'Youpiiiii' suivi ou non par un point d'exclamation. |
Élément | Explication |
---|---|
\w | tout caractère qui peut faire partie d'un mot (identique à [a-zA-Z0-9_]) |
\W | tout caractère qui ne peut pas faire partie d'un mot (négation de \w) |
\d | un digit (identique à [0-9]) |
\D | tout sauf un digit |
\s | un blanc |
\S | tout sauf un blanc |
\b | une chaîne vide à côté d'un mot |
\B | une chaîne vide pas à côté d'un mot |
\< | une chaîne vide au début d'un mot |
\> | une chaîne vide à éa fin d'un mot |
Ces primitives peuvent également être utilisés dans les spécifications de classées de caractères, par exemple '[\w+-]' signifie tout caractère qui peut faire partie d'un mot ou un symbole '+' ou '-'. '\<\w+\>' trouve des mots entiers et '\<[[:alpha:]]+\>' correspond à des mots qui ne contiennent que des caractères alphanumériques.
Finalement les classes de caractères peuvent contenir les éléments suivants.
[:alnum:] | tout caractère alphanumérique |
[:alpha:] | tout caractère alphabétique |
[:cntrl:] | tout caractère de contrôle. (code ANSI < 32) |
[:digit:] | tout digit |
[:graph:] | tout caractère graphique (code >= 32). |
[:lower:] | tout caractère minuscule |
[:punct:] | tout caractère de ponctuation |
[:space:] | tout caractère blanc |
[:upper:] | tout caractère majuscule |
[:xdigit:] | tout caractère héxadecimal |