Utilisateur:Escaladix/CatCroiseur

Un article de Wikipédia, l'encyclopédie libre.

CatCroiseur est un outil permettant des croisements complexes des catégories qui classent les différents articles de Wikipédia.

Sommaire

[modifier] Présentation

CatCroiseur est une interface graphique écrite en TCL/TK. Elle interroge, en fonction des paramètres entrés par l'utilisateur, différents scripts php hébergés par Hemlock. Ces scripts php font à leur tour des requêtes à la base MySql du dernier dump de Wikipédia fr mis à jour sur Hemlock. Toutes ces opérations sont faites automatiquement par CatCroiseur et ne nécessitent aucune intervention spécialisée par l'utilisation.

Il permet une navigation aisée d'une catégorie vers ses catégories-filles ou catégories-mères, l'exploration en profondeur des catégories, le croisement des résultats et leur export.

Sa maintenance et sa distribution sera bientôt assurée par Escaladix via Hemlock sous licence GNU GPL.

Remarque: Les explications qui suivent permettent d'illustrer l'utilité et l'utilisation de CatCroiseur dans sa version de test préliminaire. Les exemples ont été effectués le 18/10/2006.

L'interface principale


[modifier] Exemples d'utilisation

Les exemples choisis permettent d'explorer un maximum, mais pas la totalité, des possibilités de CatCroiseur.

[modifier] Recherche des musiciens du 17e siècle

Imaginons faire un travail sur la musique du 17e siècle. Il paraît logique de commencer par une liste de tous les musiciens ou personnes liées à la musique à cette époque mais Wikipédia ne propose pas cette liste assez spécialisée.

Nous allons utiliser, pour créer cette liste, les catégories de type Naissance en ... et Décès en ... en les croisant avec la catégorie Musicien.

Pour commencer, nous allons rechercher tous les articles liés aux personnes nées au 17e siècle grâce à l'interface des Nouvelles recherches:

L'interface Nouvelle recherche


La première requête permettra donc l'établissement de la liste des articles marqués par une des catégories Naissance en 16... (La troncature en fin de nom de catégorie est assurée par les caractères %%)

Après quelques secondes (suivant la vitesse de la connexion Internet), on obtient la liste des 2145 articles concernés:

Résultat d'une requête


On peut maintenant enregistrer la liste d'articles qui apparaît dans la fenêtre principale:

Enregistrement d'une requête


Pour limiter aux personnalités réellement actives au 17e siècle, nous allons exclure de la liste ceux qui sont nés dans les dix dernières années du siècle. Le requête est donc: Naissance en 169%%. Dès l'enregistrement du résultat (224 articles), la possibilité de croiser ces résultats est donnée :

Enregistrement d'une requête


L'interface de croisement permet d'appliquer aux listes les bases de la logique booléenne. Pour obtenir ici les personnes nées entre 1600 et 1689, on applique le croisement de la liste des personnes nées en 16... mais pas en 169... grâce à l'opérateur NON:

Résultat d'un croisement


Le résultat du croisement donne une liste de 1921 articles (qui correspond bien à 2145-224).

Les mêmes types de requêtes seront faites pour trouver les personnes décédées entre 1610 et 1699 (1 640 articles) dont une bonne partie sera commune avec la précédente recherche.

Ces deux listes seront croisées par une relation OU pour donner finalement une liste de 2823 articles concernant des personnes du 17e siècle.

Pour connaître les personnes liées à la musique, nous allons recherchr tous les articles marqués de la catégorie Musicien ainsi que ses catégories filles sur 6 générations : par exemple, tous les articles de la catégorie Musicien mais aussi tous ceux qui se trouvent dans ses sous-catégories comme la catégorie Ensemble musical puis ceux de la catégorie Ensemble de musique classique et ainsi de suite.

CatCroiseur permet ce genre de recherche en une seule requête, il suffit d'indiquer que l'on cherche dans la catégorie Musicien et que la profondeur d'exploration dans les catégories filles est de 6. Après quelques minutes de recherche (attention à la vitesse de votre connexion Internet pour ce genre de requête), on obtient un liste de 11 299 articles:

Résultat d'une requête


Il suffit maintenant de croiser cette liste avec le résultat des recherches des personnalités du 17e siècle par une relation ET et on obtient une liste de 202 articles que l'on peut exporter au format html:

Export des résultats


Voici la copie du résultat de la recherche: /Liste des musiciens du 17e siècle.

[modifier] Recherche des capitales européennes

Cette liste n'existe pas telle quelle dans wikipédia et la page Catégorie:Capitale européenne est un mélange de sous-catégories et d'articles. Pour obtenir la liste directe de tous les articles concernant une capitale européenne, on peut réaliser la recherche suivante.

D'abord, il s'agit de récupérer les articles contenus directement dans la catégorie Capitale européenne:

Résultat d'une requête


Puis, d'effectuer une requête pour récupérer les articles qui se trouvent dans les catégories-filles, en demandant un profondeur d'exploration de 1. Mais, pour n'avoir que les articles sur les villes proprement dites, il suffit de cocher la case Uniquement les articles principaux, et on obtient les 23 articles restants:

Résultat d'une requête


Pour le reste, un simple croisement des deux listes par une relation OU permet l'établissement puis l'export de la liste des 47 articles de Wikipédia sur les capitales européennes.

Voici la copie du résultat de la recherche: /Liste des capitales européennes.