Discussion Utilisateur:EdC/Statistiques-1

Un article de Wikipédia, l'encyclopédie libre.

Bonjour. Je ne comprends pas bien la notion de représentativité d'un article pour d'autres.--Manu (discuter) 26 mai 2008 à 15:06 (CEST)

C'était une tentative pour rendre compréhensible les statistiques au plus grand nombre: Comme le nombre de tirages de l'échantillonage est petit devant le nombre total d'articles susceptibles d'être tirés, et que le rapport entre les deux est de 1/6000 approximativement, je dis que chaque article tiré au sort représente 6000 articles "du même accabit", ce qui EN GROS" est correct. Sinon, il faut appliquer à mon expérience les règles statistiques courantes concernant les variable aléatoires, l'intervalle de confiance etc...--EdC / Contact 26 mai 2008 à 20:39 (CEST)

[modifier] Fiabilité

Attention : le fait que le tirage des cent articles soit bien aléatoire ne signifie pas que l'étude soit pertinente. Pour quelle le soit, il faudrait la recommencer un grand nombre de fois.--Manu (discuter) 26 mai 2008 à 15:21 (CEST)

Et puis il faudrait que le tirage soit effectivement aléatoire, ce qui est dans l’absolu est impossible avec un ordinateur. Quelqu'un sait où se trouve l’algorithme de Special:Page_au_hasard ? VIGNERON * discut. 26 mai 2008 à 20:02 (CEST)
Si on recommence l'expérience 100 fois, on aura, en tout, 100x100=10000 tirages au lieu de 100 et une précision 10 fois meilleure. Sinon, effectivement, je ne sais pas quelle est la qualité de l'algorithme de tirage, mais, à supposer que chaque article soit numéroté quelque part, pour une enquête de ce genre, on n'a pas besoin d'un algorithme super-sophistiqué.--EdC / Contact 26 mai 2008 à 20:39 (CEST)
Il me semble cependant qu'il faut se méfier : afin de ne pas toujours tomber sur une des 36 000 communes de France, un pokémon, une année, etc., l'algorithme n'est plus vraiment aléatoire.--Manu (discuter) 26 mai 2008 à 20:57 (CEST)

Bonne soirée à tous les deux et merci pour vos commentaires pertinents--EdC / Contact 26 mai 2008 à 20:39 (CEST)

Il y a déjà eu des discussions à ce sujet. Il me semble que :

  • Il n'est pas nécessaire de recommencer un grand nombre de fois. En fonction du type d'analyse que l'on veut faire, un échantillon plus grand peut permettre d'augmenter la puissance des tests, d'estimer avec plus de précision les paramètres d'un modèle ou d'étudier des phénomènes plus rares mais le plus important c'est vraiment d'avoir un tirage aléatoire et un échantillon qui ne soit pas trivialement petit (on peut bien entendu se planter gravement en regardant un seul article même tiré aléatoirement).
Attention de pas tomber dans le piège de l'aléatoire ! C'est comme pour les tirages « à pile ou face ». Si on demande à un humain de simuler 10 tirages, il va s'arranger pour avoir le moins de « pile » (ou « face ») consécutifs ; or des séries (4 ou plus ; je viens de faire le test : record à 6 « face » de suite) arrivent fréquemment quand on fait de vrais tirages. C'est pareil pour la fonction un article au hasard : le fait qu'elle soit parfaitement aléatoire est plutôt une raison supplémentaire pour faire plusieurs fois le test !--Manu (discuter) 2 juin 2008 à 10:36 (CEST)
Tant qu'il s'agit d'aléatoire, on bénéficie de la théorie statistique qui permet de calculer les incertitudes, intervalles de confiance etc... C'est un terrain parfaitement connu. --EdC / Contact 2 juin 2008 à 22:49 (CEST)
Désolé d'insister : un tirage parfaitement aléatoire n'empêche pas de tomber par exemple sur les 100 premiers articles (classement par ordre alphabétique). Ce tirage est aussi équiprobable que les autres. Il n'est donc pas possible de dire que l'étude présentée soit représentative. Pour cela, il faut répéter plusieurs fois (si possible un grand nombre) les tirages.--Manu (discuter) 3 juin 2008 à 19:36 (CEST)
IL EST PARFAITEMENT CONNU QUE POUR AMELIORER LA PRECISION D'UNE GRANDEUR ESTIMEE AVEC UN ECHANTILLON, IL FAUT AUGMENTER LA TAILLE DE L'ECHANTILLON. Ce n'est donc pas la peine d'insister pour enfoncer des portes ouvertes, ne le prends pas mal, mais je ne sais pas comment le dire autrement --EdC / Contact 3 juin 2008 à 20:15 (CEST)
Désolé, gépavoulutagrécé ;o) !--Manu (discuter) 3 juin 2008 à 22:09 (CEST)
  • L'algorithme n'est pas biaisé pour éviter certains articles.
  • Malheureusement, chaque article n'a pas pour autant la même probabilité sortie. Si je me souviens bien (à vérifier dans le code source ou quelquepart dans les pages de doc Mediawiki), le tirage est basé sur un champ auto-incrémenté dans MySQL mais les articles supprimés générent des « trous » qui sont comblés en prenant l'article existant qui suit ou qui précéde, doublant ainsi (ou plus) sa probabilité de sortie.

Comme il est tard et que je travaille sans filet (doc, etc.), il se peut cependant que je raconte n'importe quoi. GL (d) 26 mai 2008 à 23:04 (CEST)

Bon en fait concernant le dernier point je viens de trouver une explication succinte et c'est pas vraiment ça (mais au final ça revient au même) : [1]. Je ne sais pas où j'ai été chercher cette histoire d'articles supprimés. GL (d) 26 mai 2008 à 23:07 (CEST)
Autrement dit, c'est un système qui permet de ne pas changer le paramètrage de l'algorithme chaque fois qu'un nouvel article est entré dans la table, qui peut favoriser certains articles, mais, si j'ai bien compris, pour un petit nombre de tirages, l'échantillon sélectionné a toutes les propriétés d'un échantillonage aléatoire. Merci pour le renseignement--EdC / Contact 26 mai 2008 à 23:50 (CEST)