Discuter:Exploration de données

Un article de Wikipédia, l'encyclopédie libre.

Dans l'anecdote, l'exemple célébre cité est bien la corrélation entre l'achat de couches et de bières le samedi aprés-midi (et pas les autres jours) dans les supers-marchés américains et pas la corrélation couches - petits pots. Le correction est utile dans le sens où l'exemple exprime bien la puissance de découverte de ces algorithmes : pas besoin d'un ordinateur pour savoir que des gens qui achètent des couches acheterons trés probablement des petits pots... Par contre, il est difficile d'imaginer à l'avance que le Samedi les jeunes couples vont faire les courses ensemble ce qui permet au mari d'acheter la bière qu'il boira devant son match le dimanche aprés-midi. Glm 16 fev 2005 à 19:48 (CET)

  • Cet eclaircissement mériterait de figurer dans l'article lui-même !

Datawolf 28 septmebre 2007 à 13:20

Les premières corrélations mises en évidence furent pourtant bien du genre (couches - petits pots) et c'est parfaitement normal, puisque c'est la corrélation la plus grande. Qu'elle soit triviale quand on remote à l'interprétation n'a pas à entrer en ligne de compte, car au niveau du data mining, il est juste question de corrélation entre des choses qui se nomment par exemple item 16325 et item 25321. « Il est difficile d'imaginer à l'avance que le Samedi les jeunes couples vont faire les courses ensemble » ? Eh, parbleu, c'est justement là l'intérêt du data mining : il n'y a pas besoin d'« imaginer » quoi que ce soit au départ, pas besoin d'hypothèse(s). C'est précisément là sa différence avec les statistiques. Pour la petite histoire, l'ancêtre du data mining dès 1970 se nommait "projet DIANA" (Data Investigation and Analysis et avait été entrepris pour une banque, la BNP (ex-BNCI), je crois. 212.198.139.139 (d) 5 mai 2008 à 06:49 (CEST)

Sommaire

[modifier] Fouille de données

Personnellement j'ai eu des cours de fouille de données quand j'étais à l'école. D'ailleurs une recherche dans Google renvoit 15200 pages avec fouille de données, et seulement 1470 avec exploration de données. Je ne change pas le titre, mais je pense qu'il faudrait le changer.--Greguar 18 mar 2005 à 10:45 (CET)

Selon le Grand dictionnaire terminologique, fouille, exploration, forage et prospection de données sont des synonymes acceptables. Donc, je ne crois pas que ce soit nécessaire de changer le titre. Pfv2 3 octobre 2005 à 18:39 (CEST)
Les mots cités sont peut-être synonymes dans un dictionnaire cela n'empêche pas qu'ils ont en fait un sens très différent. Le terme utilisé dans le milieu de la recherche est définitivement Fouille de données. Je peux citer en source deux conférences renommées dans le domaine, regardez les thématiques : http://afia2007.imag.fr/ic/ et http://www.info.fundp.ac.be/egc2007/appel.php . Il y a ensuite une grande confusion dans l'article entre l'Extraction de Connaissances à partir des Données (ECD), qui est un processus global composé de différentes phases, et l'exploration des données et la fouille des données qui en sont 2 de des phases. Pour cela on peut se référer au guide CRISP-DM qui est un standard reconnu : http://www.crisp-dm.org/CRISPWP-0800.pdf --Laurent 20 mar à 14:21 (CET)

[modifier] Rendons l'article bien indigeste

"On peut relever parmi les utilisations du datamining :

  • l'analyse comportementale des consommateurs (...)
  • la prédiction de réponse à un mailing (...)
  • la prédiction de l'attrition (...)
  • la détection de comportements anormaux ou frauduleux (...))
  • la recherche des critères qui permettront d'établir ensuite (...)"

Qu'est-ce que c'est que ce langage administratif ampoulé ? Ne peut-on pas parler directement d'utiliser, d'analyser, de prédire, de rechercher et de détecter ? Ca vous fait peur, les verbes, ou bien vous craignez que l'article en devienne plus vivant et trop agréable à lire ? 81.65.27.14 22 septembre 2005 à 16:36 (CEST) (pas content du tout)

[modifier] Lien externe publicitaire

A mon avis, la présence de ce lien dans l'article est très discutable ; je le met ici si je suis le seul à être de cet avis.

  • site de la société française Soft Computing (avec un livre blanc sur le datamining) qui propose notamment du "traitement à façon" (avec ses propres statisticiens) à partir des données fournies par ses clients
j'avais inscrit ce "lien externe" parce qu'il donnait des infos utiles (dont le livre blanc) mais je n'ai aucun lien, ni de près ni de loin, avec la sté citée !!! BMR 26 mars 2006 à 19:48 (CEST)
OK, c'est déja une information utile. Disons que ça me gène de mettre le site d'une société comme référence sur un sujet qui a dû connaitre des dizaines de travaux universitaires, etc. Rien de nous oblige à mettre des liens externes... Arnaudus 26 mars 2006 à 20:54 (CEST)

[modifier] interrogation...

je cite, du paragraphe Principe et spécificité : Le data mining a une approche très différente de la méthode statistique  ?? sachant que pas mal de méthode de data mining sont statistiques je m'interroge sur cette phrase. et je m'interroge encore plus lorsque je lis la suite: "cette dernière exige en effet qu'on se fixe une hypothèse, que les données vont confirmer ou non."  ?? ah bon ?? je pense que cela nécesite une reformulation soigneuse ou alors un grand coup de balai ;-) Sylenius 11 juillet 2006 à 22:07 (CEST)

  • je crois que le principe de cette encyclopédie est de partager le savoir de chacun... Je vous incite donc à proposer les modifications qui vous paraissent nécessaires... Pour information, meme si la formulation précédente reste approximatiev, sachez que je suis ok avec le principe selon lequel le datamining déborde largement le cadre de la statistique, et propose une méthjodologie axée sur la performance pratique (et non théorique) des analyses, ce qui n'est pas le cas des méthodes statistiques, en tout cas si l'on se réfère au monde de la stat paramétrique... Franck1974 9 septmebre 2006 à 12:10
  • Le data mining découvre des règles, un modèle. Est-ce le cas des statistiques ?

Datawolf 28 septmebre 2007 à 13:20

  • je cite le Data Mining ne nécessite jamais que l'on établisse une hypothèse de départ qu'il s'agira de vérifier, on a vraiment l'impression que le data mining résout tous les problèmes. Beaucoup d'hypothèses sont posés pour n'importe quelle méthode de data mining afin de réduire l'espace de recherche: on parle dans ce cas de biais. Il s'agit au contraire de les identifier et de se poser la question si les données satisfont ces hypothèses. C'est des données elles-mêmes que se dégageront les corrélations intéressantes : le jour où la machine universelle du data mining sera créé : ok mais pour l'instant les hypothèses (modèles) intéressantes viennent surtout d'un utilisateur et de l'application de différentes méthode de fouille de données.

AlexVaut 24 octobre 2007 à 18:30

Je cite aussi: Plus qu'une théorie normalisée, le Data Mining est un processus d'extraction de connaissances métiers. Je ne suis pas sûr qu'un processus d'extraction de connaissances métiers puisse être considéré comme plus qu'une théorie normalisée. Dans la section Principe le texte s'efforce par tous les moyens de se distinguer des aspects théoriques pour insister sur le fait qu'il faut que ça marche et qui plus est vite. Or le fait qu'une techno soit efficace n'interdit pas qu'elle repose sur une théorie solide, bien au contraire. La plupart des algorithmes et techniques cités sont directement issus de théorie connues et étudiées depuis un certain temps: statistique, analyse de données, intelligence artificielle. Bref, n'a-t-on pas affaire à des Monsieur Jourdain des théories statistiques? Je comprends le commentaires ci-dessus proposant des formulations plus soigneuses ou un "grand coup de balai". Pour aller plus loin, je pense qu'il faudrait préciser les choses en introduction avec renvoi vers les articles théoriques correspondant. Je m'y emploierai... Xiawi (d) 1 juin 2008 à 03:23 (CEST)

[modifier] Références vers logiciels payants

Voici les raisons pour lesquelles cet article contient des références vers des logiciels professionnels payants : 1. Le Datamining est une technologie née du rapprochement de plusieurs disciplines - statistiques, intelligence artificielle, base de données, linguistique, ... - pour répondre à des besoins pratiques de traitement de données, doublés de contraintes de temps fortes. En d'autres termes, le DataMining est né en entreprise, pour aider à générer de la valeur (économique) (c'est dit, autrement je te l'accorde, dans l'article dont il est ici question). Il me paraît donc normal de proposer des liens vers des logiciels que ces entreprises pourront choisir d'acquérir pour leurs besoins propres. 2. La liste proposée est quasi exhaustive, considérant la réalité du marché français du DataMining. L'idée est de ne favoriser aucun intérêt profesionnel spécifique. Mais il se peut bien sur que certains logiciels professionnels ait été oubliés dans la liste... (au passage sache que j'ai bataillé pour que la liste soit la plus complète possible, certains utilisateurs "s'amusant" à ne laisser qu'un lien professionnel vers un logiciel, ou encore à mettre en évidence un logiciel payant en particulier...) Tu noteras également que des liens vers des ressources libres existent, et qu'ils sont même individualisés... Il me semble ainsi que cela serait passer à côté de la réalité du Datamining que de ne pas faire ce type de renvois vers des logiciels professionnels.

Cela étant, il serait peut-être intéressant d'insister de clarifier ces aspects dans l'article... J'essaye de m'y coller !

[modifier] Formulation un peu trop ambitieuse (amha)

Par exemple, on utilisera ce type de méthode lorsque l'on cherchera à comprendre pourquoi un individu a acheté un produit plutôt qu'un autre, pourquoi un individu à répondu favorablement à une opération de marketing direct, pourquoi un individu a contracté une maladie particulière, pourquoi un individu a visité une page d'un site web de manière répétée, pourquoi la durée de vie après la contraction d'une maladie varie selon les malades...

C'est sans doute faire espérer un peu trop du data mining au lecteur non averti. Nous sommes déjà très contents quand nos moulinettes nous indiquent comment des facteurs observables (et lesquels) sont corrélés à un comportement ultérieur non observable à ce moment-là (et comment). Bref,nous n'en sommes pas au "pourquoi", mais juste au "comment".

Si j'osais une comparaison avec la physique, je dirais que le data mining remplit déjà bien son contrat quand il fait découvrir des lois descriptives, et que c'est ensuite éventuellement aux psychologues, voire aux sociologues, qu'on passera le bébé pour qu'il découvre éventuellement un "pourquoi", qui n'est absolument pas dans notre rayon. En d'autres termes, le data mining cherche des lois descriptives du type de celles de Képler - justement elle-même fondée sur la compilation d'une masse immense de données - et n'a pas pour le moment la prétention de faire le travail ultérieur d'un Newton puis d'un Einstein qui passent à des lois de plus en plus, elles, explicatives.

Je ne dis pas que ce ne sera pas un jour le cas, mais j'ai comme l'impression que comme cela se situera alors à un tout autre niveau - sans doute celui de manipulation de symboles plutôt que de chiffres - il ne s'agira déjà plus de la même discipline. Si pour ma part de disais autre chose à mes clients, j'aurais l'impression de leur mentir comme un vulgaire commercial :-) 212.198.139.69 (d) 2 avril 2008 à 02:35 (CEST)

Tout à fait d'accord. Dans l'ensemble, je pense que cet article n'est pas très bon, et qu'il est nécessaire que des spécialistes jettent un oeil dessus. Arnaudus (d) 2 avril 2008 à 10:30 (CEST)
Pour ce qui est du fond, j'ai un collègue statisticien qui parle de "shallow model" pour un modèle statistique descriptif, et de "deep model" pour un modèle explicatif (scientifique). Il doit bien exister quelque part une terminologie plus ou moins officielle, non? Arnaudus (d) 2 avril 2008 à 10:31 (CEST)