Utilisateur:DomBot

Un article de Wikipédia, l'encyclopédie libre.

Wikipédia:Babel

fr	Ma langue maternelle est le français.

en-2

I am able to contribute with an intermediate level of English.

es-1

Puedo contribuir con un nivel
básico de español.

Ce compte est utilisé par Dom pour la détection des pages récentes qui sont des copies de pages web, et donc de probable violation de copyright.

Sommaire

1 But
2 Fonctionnement
- 2.1 Actuel
  - 2.1.1 Liste blanche
- 2.2 Futur
3 Étapes du fonctionnement
- 3.1 Phase de détection
- 3.2 Phase de marquage
4 Technologies utilisées
- 4.1 Langages
- 4.2 Scripts
5 Plan de travail
6 Signalement de copyvio

[modifier] But

Détecter les pages dont une partie du contenu se trouve sur le Web au moment de sa création.

[modifier] Fonctionnement

[modifier] Actuel

DomBot recherche toutes les nouvelles pages depuis son dernier examen et cherche pour chaque page si elle se trouve sur le Web, dans le cas où la recherche est fructueuse il signale la page et le ou les sites possibles, si aucun ne se trouve dans la liste blanche des sites . La procédure actuelle est :

DomBot	construit une page de signalement
Un humain	confirme dans cette page de signalement
DomBot	réalise l'action à réaliser : marquage de l'article en copyvio, création de la page « Wikipédia:Pages soupçonnées de violation de copyright/... », ajout du lien vers cette page dans « Wikipédia:Pages soupçonnées de violation de copyright » .

[modifier] Liste blanche

[modifier] Futur

Examen de l'article de wikipédia et à regarder dans la page du Web « copiée » le nombre de mots identique, afin d'avoir un indice.
Analyse des résultats: nombre de pages signalées, nombre de pages marquées « copie de site », nombre de pages traites par type de traitement : destruction, réécriture

[modifier] Étapes du fonctionnement

[modifier] Phase de détection

Recherche des nouvelles pages
Pour chaque page

Analyse syntaxique de la page pour extraire le texte brut. (Actuellement cette phase n'est pas encore satisfaisante, car l'analyseur détecte plus d'erreurs qu'en réalité. Les modèles sont actuellement supprimés, mais certains comme les siècles devraient être conservés.)

En fonction du résultat de la phase précédente si:

le texte est cours, inutile de faire une recherche qui ne sera pas assez sélective. passer à la nouvelle page suivante
le texte est suffisant lancer une recherche sur google en utilisant une recherche sur « expression exacte » sur les premiers mots de l'article (cette recherche en fonction ne l'article peut ne pas être assez sélective)

En fonction du résultat de la recherche

Si elle est infructueuse, passer à la nouvelle page suivante
Si tous les sites font partie de la liste blanche, passer à la nouvelle page suivante
Si certains sites font partie de la liste blanche, signaler
Si tous les sites sont inconnus, signaler

[modifier] Phase de marquage

Lecture de la page d'analyse et :

marquage de l'article en copyvio,
création de la page « Wikipédia:Pages soupçonnées de violation de copyright/... »,
ajout du lien vers cette page dans « Wikipédia:Pages soupçonnées de violation de copyright »

[modifier] Technologies utilisées

[modifier] Langages

Python
ANTLR (analyseur syntaxique)

[modifier] Scripts

pywikipedia
copyvio.py (Script perso)
pygoogle-0.6

[modifier] Plan de travail

Les taches sont dans l'ordre approximatif de réalisation

Création d'un rapport automatisé dans une sous page de DomBot
Mesurer les résultats
Amélioration de l'analyseur syntaxique
Amélioration de la recherche google
Ajouter d'une analyse des pages renvoyées par google pour déterminer leurs pertinences, par exemple donnant le pourcentage de mot de l'article wikipédia se trouvant dans la page web.
Recherche du copyright sur le site copié.

[modifier] Signalement de copyvio