Discussion Wikipédia:Technique des bots
Un article de Wikipédia, l'encyclopédie libre.
[modifier] Exemples
Sont-ils à jour ? Accéder à une page n'est-il pas:
site = wikipedia.getSite() page = wikipedia.Page(site, nomDePage)
Pouvez-vous éclaircir mes doutes ? La Cigale 12 avril 2006 à 22:16 (CEST)
[modifier] Bot de cycles de catégories
Bonjour, Suite à une question que j'avais posée, j'essaye de créer un outil/bot capable d'aller détecter les cycles dans les catégories, car il s'agit d'une source d'incohérence. Pour l'instant, je récupère les sous-catégories à une profondeur finie (ex 2 ou 3 niveaux) comme le fait le lien [+] de la section 'Sous-catégories' d'une une page de catégorie. Comment s'assurer que la répétition de ces requêtes simples n'apportent pas de perturbations ?
- Y'a-t-il une procédure spéciale pour ce type de traitement (demande spécifique (à qui) ?)
- Est-ce qu'un bot est une bonne solution ou faut-il envisager de travailler sur un dump ?
- Sinon pour les bots, y'a-t-il un intervalle de temps minimal à imposer au bot entre ses requêtes ?
Cordialement, MistWiz 14 janvier 2007 à 17:17 (CET)
- Ca serait plus rapide d'effectuer cette requête sur le toolserver mais il faut y avoir un compte. Cordialement, iAlex (Ici ou là), le 14 janvier 2007 à 17:20 (CET)
- Ok, merci. Je vais voir de ce côté. Cordialement, MistWiz 14 janvier 2007 à 18:22 (CET)
- Perso je bosserais sur un dump. En plus il existe des dumps des catégories seulement ce qui permet d'éviter de se taper des GB de données : http://download.wikimedia.org/frwiki/20061204/ - Quant aux intervalles entre deux requêtes, il n'y a rien d'officiel pour tout ce qui est lecture (faut juste éviter de "surcharger" les serveurs). Pour tout ce qui est écriture, il est conseillé de faire des pauses de 10 à 20 secondes. Si on a pas le statut de bot alors il faut étendre cela à 1 minute voir plus, sinon c'est le tapage de doigts assuré. -- Dake@ 14 janvier 2007 à 18:41 (CET)
- Ok, merci. Je vais voir de ce côté. Cordialement, MistWiz 14 janvier 2007 à 18:22 (CET)