man linkchecker (Commandes) - outil permettant de vérifier s'il n'y a pas de liens cassés dans les documents HTML

NOM

linkchecker - outil permettant de vérifier s'il n'y a pas de liens cassés dans les documents HTML

SYNOPSIS

linkchecker [ options ] [ fichier-ou-url ]

DESCRIPTION

LinkChecker propose une vérification récursive, du multithreading, un affichage en couleurs ou au format texte, HTML, SQL, CSV, mais aussi un graphique de la carte du site en GML ou XML, un support de HTTP/1.1, HTTPS, FTP, mailto:, news:, nntp:, Gopher, Telnet et les liens sur les fichiers locaux, une vérification des liens restreinte par l'utilisation de filtres à base d'expressions rationnelles, un support des proxys, des autorisations nom utilisateur/mot de passe pour HTTP et FTP, un support du protocole d'exclusion par le fichier robots.txt,un support de l'internationalisation, une interface ligne de commandes et une interface web CGI (rapide, qui nécessite un serveur HTTP).

EXEMPLES

L'utilisation la plus courante est de vérifier le domaine récursivement, ainsi que quelques URL simples pointant en dehors du domaine : linkchecker http://treasure.calvinsplayground.de/

Faites attention, car ceci vérifie le site en entier, celui-ci pouvant avoir plusieurs centaines de milliers d'URL. Utilisez l'option -r pour restreindre la profondeur de la récursion.

Don't connect to mailto: hosts, only check their URL syntax. All other links are checked as usual: linkchecker --ignore-url=^mailto: www.mysite.org

Pour vérifier un fichier HTML local sur Unix : linkchecker ../bla.html

Pour vérifier un fichier HTML local sur Windows : linkchecker c:\temp\test.html

Vous pouvez ne pas mettre la partie http:// de l'URL si le nom de domaine commence par www. : linkchecker www.myhomepage.de

Vous pouvez ne pas mettre la partie ftp:// de l'URL si le nom de domaine commence par ftp. : linkchecker -r0 ftp.linux.org

OPTIONS

Options générales

-h, --help
Afficher des informations sur l'utilisation du programme.
-fconfigfile, --config=configfile
Utiliser configfile comme fichier de configuration. LinkChecker recherche d'abord /etc/linkchecker/linkcheckerrc puis ~/.linkchecker/linkcheckerrc.
-I, --interactive
Demander l'URL si aucune n'a été donnée sur la ligne de commande.
-V, --version
Afficher la version et quitter.
-tnum, --threads=num
Permettre de ne pas avoir plus de num threads. Le nombre de threads est fixé par défaut à 10.Pour désactiver le multithreading, spécifier un nombre non positif.
--priority
Run with normal thread scheduling priority. Per default LinkChecker runs with low thread priority to be suitable as a background job.

Options de sortie

-v, --verbose
Journaliser toutes les URL vérifiées (implique -w). Par défaut, seules les URL invalides sont mises dans le journal.
-w, --warnings
Journaliser les avertissements.
-Wregex, --warning-regex=regex
Définir une expression rationnelle. Quand cette expression rationnelle correspondra au contenu d'un lien vérifié, LinkChecker affichera un avertissement.Ceci ne s'applique qu'aux pages valides, car on peut ainsi récupérer leur contenu.Utilisez ceci afin de vérifier les pages qui peuvent contenir des messages d'erreur sous une certaine forme, comme par exemple "Cette page a été déplacée" ou "Erreur du serveur d'application Oracle".Cette option implique -w.
--warning-size-bytes=bytes
Affiche un avertissement si la taille du contenu disponible dépasse le nombre d'octets donné.Cette option implique -w.
-q, --quiet
Exécution silencieuse, c'est un alias pour -o none. Cette option n'est utile qu'avec -F.
-otype[/encodage], --output=type[/encodage]
Specify output type as text, html, sql, csv, gml, dot, xml, none or blacklist. Default type is text. The various output types are documented below. encoding specifies the output encoding, the default is that of your locale. Valid encodings are listed at http://docs.python.org/lib/standard-encodings.html.
-Ftype[/encodage][/nom_fichier], --file-output=type[/encodage][/nom_fichier]
Output to a file linkchecker-out.type, $HOME/.linkchecker/blacklist for blacklist output, or filename if specified. encoding specifies the output encoding, the default is that of your locale. Valid encodings are listed at http://docs.python.org/lib/standard-encodings.html. The filename part of the none output type will be ignored, else if the file already exists, it will be overwritten. You can specify this option more than once. Valid file output types are text, html, sql, csv, gml, dot, xml, none or blacklist Default is no file output. The various output types are documented below. Note that you can suppress all console output with the option -o none.
--no-status
Ne pas afficher les messages d'état de la vérification.
-Dlogger, --debug=logger
Afficher les sorties de débogage pour l'enregistreur de journal logger. Les enregistreurs disponibles sont : cmdline, checking, cache, gui and all. all est un alias pour indiquer que l'on veut tous les enregistreurs disponibles. Cette option peut être donnée plusieurs fois pour déboguer avec plus d'un enregistreur de journal. Le multithreading est désactivé pendant une exécution en mode debug afin de garantir la précision des résultats.
--profile
Écrire les données de profilage dans un fichier nommé linkchecker.prof dans le répertoire de travail courant. Voir aussi --viewprof.
--viewprof
Afficher en sortie les données de profilage générées précédemment. Voir aussi --profile.

Options de vérification

-rprofondeur, --recursion-level=profondeur
Vérifier récursivement tous les liens jusqu'à une rofondeurdonnée. Une profondeur négative permet d'avoir une récursion infinie. Par défaut, la récursion est infinie.
--no-follow-url=regex
Check but do not recurse into URLs matching the given regex.
--ignore-url=regex
Only check syntax of URLs matching the given regex.
-C, --cookies
Accepter et envoyer des cookies HTTP en accord avec le RFC 2109. Seuls les cookies qui sont renvoyés au serveur d'origine sont acceptés. Les cookies acceptés et envoyés sont fournis comme une information supplémentaire dans les journaux.
-a, --anchors
Check HTTP anchor references. Default is don't check anchors. This option implies -w because anchor errors are always warnings.
--no-anchor-caching
Traiter url#anchora et url#anchorb comme égales dans le cache. Ceci est le comportement par défaut d'un navigateur, mais n'est pas spécifié dans la spécification URI. À utiliser avec précaution.
-unom, --user=nom
Essayer le nom d'utilisateur nom pour l'autorisation HTTP et FTP. Pour FTP, le nom d'utilisateur par défaut est anonymous. Voir aussi -p.
-ppwd, --password=pwd
Essayer le mot de passe pwd pour l'autorisation HTTP et FTP. Pour FTP, le mot de passe par défaut est anonymous@. Voir aussi -u.
--timeout=secs
Préciser le délai d'expiration pour les attentes de connexion en secondes. Le délai par défaut est de 30 secondes.
-Psecs, --pause=secs
Mettre en pause secs secondes entre chaque vérification d'URL. Cette option implique -t0. Par défaut, il n'y a pas de pause entre les requêtes.
-Nserveur, --nntp-server=serveur
Spécifier un serveur NNTP pour les liens « news: ». Par défaut, la variable d'environnement NNTP_SERVER est utilisée. Si aucun hôte n'est donné, LinkChecker n'effectue qu'une vérification de la syntaxe du lien.
--no-proxy-for=regex
Contact hosts that match the given expression directly instead of going through a proxy.

Options obsolètes

--status
Afficher l'état des vérifications toutes les 5 secondes sur la sortie d'erreur. C'est le comportement par défaut.

OUTPUT TYPES

Notez que seules les erreurs sont journalisées par défaut.

text
Sortie texte standard, journaliser les URL dans des mots clés : mode argument.
html
Journaliser les URL dans des mots clés : mode argument, formaté en HTML. Contient aussi des liens vers les pages référencées. Les URL invalides ont aussi en plus une vérification syntaxique des liens HTML et CSS.
csv
Journaliser le résultat de la vérification au format CSV avec une URL par ligne.
gml
Journaliser les relations fils/père entre les URL liées dans un graphe GML. Vous devez utiliser l'option --verbose pour avoir un graphe complet.
dot
Journaliser les relations fils/père entre les URL liées dans un graphe DOT. Vous devez utiliser l'option --verbose pour avoir un graphe complet.
xml
Journaliser le résultat de la vérification dans un fichier au format XML.
sql
Journaliser le résultat dans un script SQL avec des commandes INSERT. Un script d'exemple montrant la création de la table SQL initiale est inclus : create.sql.
blacklist
Suitable for cron jobs. Logs the check result into a file ~/.linkchecker/blacklist which only contains entries with invalid URLs and the number of times they have failed.
none
Ne rien journaliser du tout. Approprié pour les scripts.

REGULAR EXPRESSIONS

Only Python regular expressions are accepted by LinkChecker. See http://www.amk.ca/python/howto/regex/ for an introduction in regular expressions.

The only addition is that if the regular expression starts with an exclamation mark ! it negates the following expression.

NOTES

Les URL sur la ligne de commande commençant par ftp. sont traitées comme ftp://ftp., les URL commençant par www. sont traitées comme http://www.. Vous pouvez aussi mettre des noms de fichiers locaux comme arguments.

Si votre système est configuré pour établir automatiquement une connexion à internet (par exemple, avec diald), il se connectera quand les liens de vérification ne pointent pas sur votre système local. Utilisez les options -s et -i pour éviter cela.

Les liens javascript sont ignorés actuellement.

Si votre plate-forme n'accepte pas le multithreading, LinkChecker utilise -t0.

Vous pouvez fournir plusieurs paires nom d'utilisateur/mot de passe dans un fichier de configuration.

Pour utiliser les proxys, positionnez $http_proxy, $https_proxy sur Unix ou Windows.Sur un Mac, utilisez la configuration Internet.

Pour la vérification des liens news:, les liens de l'hôte NNTP donné n'ont pas besoin d'être les mêmes que l'hôte de l'utilisateur naviguant.

ENVIRONNEMENT

NNTP_SERVER - spécifie le serveur NNTP par défaut

http_proxy - spécifie le proxy HTTP par défaut

ftp_proxy - spécifie le proxy FTP par défaut

LC_MESSAGES, LANG, LANGUAGE - spécifie la langue en sortie

RETURN VALUE

Le code de retour est différent de 0 quand

•
il y a eu des liens non valides,
•
il y a eu des avertissements sur les liens et l'option --warnings était positionnée,
•
il y a eu une erreur dans le programme.

FICHIERS

/etc/linkchecker/linkcheckerrc, ~/.linkchecker/linkcheckerrc - fichiers de configuration par défaut

~/.linkchecker/blacklist - fichier par défaut des blacklists pour la journalisation

linkchecker-out.type - fichier par défaut pour la journalisation

http://docs.python.org/lib/standard-encodings.html - encodages valides de sortie

AUTEUR

Bastian Kleineidam <calvin@users.sourceforge.net>

Ce document est une traduction, réalisée par Yann Verley <yann.verley@free.fr<gt> le 29 novembre 2004. L'équipe de traduction a fait le maximum pour réaliser une adaptation française de qualité. La version anglaise la plus à jour de ce document est toujours consultable via la commande : LANGUAGE=en man linkchecker

N'hésitez pas à signaler à l'auteur ou au traducteur, selon le cas, toute erreur dans cette page de manuel.