Utilisateur:DomBot

Un article de Wikipédia, l'encyclopédie libre.

en-2
es-1

Ce compte est utilisé par Dom pour la détection des pages récentes qui sont des copies de pages web, et donc de probable violation de copyright.

Sommaire

[modifier] But

Détecter les pages dont une partie du contenu se trouve sur le Web au moment de sa création.

[modifier] Fonctionnement

[modifier] Actuel

DomBot recherche toutes les nouvelles pages depuis son dernier examen et cherche pour chaque page si elle se trouve sur le Web, dans le cas où la recherche est fructueuse il signale la page et le ou les sites possibles, si aucun ne se trouve dans la liste blanche des sites . La procédure actuelle est :

DomBot construit une page de signalement
Un humain confirme dans cette page de signalement
DomBot réalise l'action à réaliser : marquage de l'article en copyvio, création de la page « Wikipédia:Pages soupçonnées de violation de copyright/... », ajout du lien vers cette page dans « Wikipédia:Pages soupçonnées de violation de copyright » .

[modifier] Liste blanche

[modifier] Futur

  • Examen de l'article de wikipédia et à regarder dans la page du Web « copiée » le nombre de mots identique, afin d'avoir un indice.
  • Analyse des résultats: nombre de pages signalées, nombre de pages marquées « copie de site », nombre de pages traites par type de traitement : destruction, réécriture

[modifier] Étapes du fonctionnement

[modifier] Phase de détection

Recherche des nouvelles pages
Pour chaque page

Analyse syntaxique de la page pour extraire le texte brut. (Actuellement cette phase n'est pas encore satisfaisante, car l'analyseur détecte plus d'erreurs qu'en réalité. Les modèles sont actuellement supprimés, mais certains comme les siècles devraient être conservés.)
En fonction du résultat de la phase précédente si:
  • le texte est cours, inutile de faire une recherche qui ne sera pas assez sélective. passer à la nouvelle page suivante
  • le texte est suffisant lancer une recherche sur google en utilisant une recherche sur « expression exacte » sur les premiers mots de l'article (cette recherche en fonction ne l'article peut ne pas être assez sélective)
En fonction du résultat de la recherche
  • Si elle est infructueuse, passer à la nouvelle page suivante
  • Si tous les sites font partie de la liste blanche, passer à la nouvelle page suivante
  • Si certains sites font partie de la liste blanche, signaler
  • Si tous les sites sont inconnus, signaler

[modifier] Phase de marquage

Lecture de la page d'analyse et :

  • marquage de l'article en copyvio,
  • création de la page « Wikipédia:Pages soupçonnées de violation de copyright/... »,
  • ajout du lien vers cette page dans « Wikipédia:Pages soupçonnées de violation de copyright »

[modifier] Technologies utilisées

[modifier] Langages

[modifier] Scripts

  • pywikipedia
  • copyvio.py (Script perso)
  • pygoogle-0.6

[modifier] Plan de travail

Les taches sont dans l'ordre approximatif de réalisation

  • Création d'un rapport automatisé dans une sous page de DomBot
  • Mesurer les résultats
  • Amélioration de l'analyseur syntaxique
  • Amélioration de la recherche google
  • Ajouter d'une analyse des pages renvoyées par google pour déterminer leurs pertinences, par exemple donnant le pourcentage de mot de l'article wikipédia se trouvant dans la page web.
  • Recherche du copyright sur le site copié.

[modifier] Signalement de copyvio