Discussion Wikipédia:AutoWikiBrowser/Typos

Un article de Wikipédia, l'encyclopédie libre.

Vous ne savez pas comment insérer une nouvelle correction ? Pensez à consulter l'aide !

Sommaire

[modifier] Mots avec typographie avec/sans accents

<Typo word="Émile" find="\b(E|É|é|e)mil(e|ie)\b" replace="Émil$2" />

Peut-on écrire aussi ? <Typo word="Émile" find="\b[EÉée]mil(e|ienne|ien|ie)\b" replace="Émil$2" />
Cordialement Educa33e 6 janvier 2007 à 00:05 (CET)

[modifier] Rectifications de l'orthographe

Cette liste ne respece pas les Rectifications de l'orthographe. Certains mots sont « corriger » alors qu'ils sont correctement orthographiés selon l'académi française. Euh... enfin 1 mot au moins, « aout ». --moyogo ☻☺ 4 décembre 2006 à 12:20 (CET)

[modifier] Équipe

Le mot Equipe est remplacé par Équipe. Mais quand on est dans un modèle ça casse tout et ce mot est utilisé pour les équipes de foot, ce qui fait beaucoup. Donc faut prévoir que si c'est {{Equipe alors ça reste ainsi. (:Julien:) 9 décembre 2006 à 00:48 (CET)

[modifier] Attention mots à orthographes différentes entre le français et d'autre langue

  • Attention à : Traffic (2 f en anglais) qui ne doit pas être remplacé dans les noms d'image et les expressions en anglais.

(Faut-il le garder dans la liste ?) Educa33e 6 janvier 2007 à 00:05 (CET)

Oui il est plus simple de privilégier l'orthographe française sachant que cette page sert principalement aux utilisateurs d'AutoWikiBrowsers et que lors des scans (manuels) ont peut choisir ou non d'adopter les correctifs cas par cas Jef-Infojef 8 février 2007 à 01:55 (CET)

[modifier] Mots orthographe française et étrangère

Âge (fr) et Age (en)
commando (fr) et comando (it)
défense (fr) et defense & defence (en)
différent (fr) et different (en)
différence (fr) et difference (en)
exemple (fr) et example (en)
hôtel (fr) et hotel (en)
millionnaire (fr) et millionaire (en)
trafic (fr) et traffic (en)
première (fr) et premiere (en)
statut (fr) et status (en)

[modifier] A ajouter

En passant sur la page Wikipédia:Bot/Requêtes j'ai vus les mots suivants :

  • dyptique > diptyque
  • mourrir > mourir
  • nourir > nourrir
  • contre-champ > contrechamp
  • dedant > dedans
  • déhors > dehors

Quelqu'un pour faire les regex si il n'y à pas d'objections ? (Je les ferais dans quelques temps sinon)

[modifier] Ponctuation après balise </math>

Quelqu'un pourrait-il ajouter un(e) regex pour supprimer la ponctuation accolée à la balise </math> ? Sinon, elle apparaît à la ligne suivante (voir l'exemple avec la page Pourcentage) The RedBurn 18 février 2007 à 16:31 (CET)

J'ai tenté un essai, mais ça ne fonctionne pas :-( (vous pouvez le tester sur ma page de discussion) The RedBurn 18 février 2007 à 17:43 (CET)
Je crois que c'est bon maintenant, il y avait plus d'un espace avant l'instruction "find" qui empêchait AWB d'analyser la requête Jef-Infojef 24 février 2007 à 22:27 (CET)
Ça ne fonctionne toujours pas sur ma page de discussion. :-\ The RedBurn 25 février 2007 à 18:41 (CET)

[modifier] Pas sûr de ma syntaxe

Je voudrais proposer de corriger systématiquement les b/Brita-n-ique en b/Brita-nn-iques. J'ai hésité à ajouter la ligne suivante, de peur de casser quelque chose. Donc si elle est bonne, OK, sinon, quelqu'un pourrait-il la corriger et l'ajouter ? Merci !

<Typo word="britannique" find="\b(b|B)ritanique(s?)\b" replace="$1ritannique$2" />

GillesC →m'écrire 21 mars 2007 à 12:10 (CET)

C'est bien ça, je l'ai ajouté. Si jamais tu as un doute avec la syntaxe des expressions régulières n'hésitent pas à nous en faire part ;) -- Chico (blabla) 8 avril 2007 à 15:26 (CEST)
Merci, je n'y manquerai pas ! GillesC →m'écrire 10 avril 2007 à 10:13 (CEST)

[modifier] Ajouter plus de fautes

Il y a en plein à piocher dans Wikipédia:Fautes d'orthographe/Courantes ! -- Chico (blabla) 15 avril 2007 à 02:02 (CEST)

[modifier] Suggestions

Bonjour,

Avant de me mettre moi-même au AWB, je propose quelques ajouts d'après Wikipédia:Bot/Requêtes/À faire périodiquement

  • XIXe -> mettre le "e" en exposant (il me semble que c'est déjà fait (cf section "Typographie/Convention") mais je n'en suis pas sûr)
  • km2 -> km² (corriger aussi Km2 ou KM2)
  • Mettre les numéros de siècle en nombres romains
    • 1er siècle -> Ier siècle
    • 2e siècle -> IIe siècle
  • Détecter lorsqu'il y a plusieurs bandeaux ébauches ou plusieurs bandeaux portails pour les regrouper grâce à Multi-bandeau.

Merci d'avance--Bapti 19 mai 2007 à 10:24 (CEST)

Pour la dernière, mon bot en a fait beaucoup ce mois-ci, il ne doit plus en rester beaucoup, mais c'est peut-être faisable. -- Chico (blabla) 19 mai 2007 à 10:44 (CEST)
Je ne pourrais reprendre la main sur AWB et tester ces corrections que lorsqu'il aura la fini la requête sur les requête française, c'est-à-dire dans approximativement 16h. -- Chico (blabla) 19 mai 2007 à 11:03 (CEST)
Oui, j'ai vu que ton bot s'en est occupé, mais si AWB peut le faire aussi à son passage, ça peut être bien. En tout cas, rien d'urgent Clin d'œil--Bapti 19 mai 2007 à 12:55 (CEST)

J'ajoute, après discussion avec CK qu'il faut remplacer Internet par internet...--Bapti 19 mai 2007 à 21:33 (CEST)

[modifier] Optimisation des règles

Dans un soucis d'optimisation et dans le but d'améliorer la rapidité d'exécution de l'ensemble des règles par AWB ou wikEd, j'ai commencé à procéder à diverses modifications. Je liste ci dessous les diffs des modifications où je souhaiterai connaître votre avis ou entendre vos critiques sur l'intérêt de celles-ci :

TiChou (d · c · b)

J'ai annulé la simplification de la règle "e suivi de deux consonnes" car elle matche si les deux consonnes sont différentes. Ca donnait des corrections incorrectes type être => etre. -Zelda 10 juin 2007 à 19:38 (CEST)
Honte sur moi, comment ne l'ais-je pas vu ?! Je vais la reprendre autrement. Merci. — TiChou talk le 10 juin 2007 à 21:20 (CEST)
Version corrigée. — TiChou talk le 10 juin 2007 à 22:17 (CEST)
Nickel, merci Clin d'œil --Zelda 10 juin 2007 à 22:45 (CEST)

[modifier] Suggestion de règles

Remplacer la règle

<Typo word="Siècle" find="([XVI]+) *i?ème [Ss]i[eè]cle" replace="$1e siècle" />

par

<Typo word="Siècle" find="([XVI]+) *i?ème +[Ss]i[eè]cle\b" replace="{{Rom|$1}}{{exp|e}}&nbsp;siècle" />

oui/non ?

Non Clin d'œil Ca va pas marcher sur {{XXe siècle}} et [[XXe siècle]] par exemple à cause des crochets. Je pense qu'il faut faire plusieurs règles :
  • [[XXème siècle]] => {{XXe siècle}} (XXème siècle => XXe siècle)
  • XXème siècle => {{s-|XX|e}} (XXème siècle => XXe siècle)
  • 20ème siècle => {{s-|XX|e}} (20ème siècle => XXe siècle)
Bref, pas super simple... --Zelda 10 juin 2007 à 19:44 (CEST)
Je me trompe, ou les règles RegexTypoFix sont censées ne pas s'appliquer à l'intérieur des modèles et liens internes ? C'est dans cette hypothèse que j'ai suggéré cette nouvelle règle. Par contre, merci de m'avoir rappelé le bon modèle {{S-}} que je n'arrivais pas à me rappeler et que je ne retrouvais plus (mal catégorisé !).
Dans tous les cas, je pense qu'il faut soit supprimer la règle actuelle (inutile de corriger une erreur de typographie pour en introduire une autre), soit traiter les différents cas.
Il faudrait aussi que je termine ce module/plugin AWB que j'avais commencé il y a plus d'un mois et qui est censé de normaliser tous les dates de siècles. SourireTiChou talk le 10 juin 2007 à 21:59 (CEST)
Je pense que les patterns s'appliquent normalement à l'intérieur des modèles, mais que les "\b" (limite de mot) permettent d'éviter ça.
La règle précédente s'applique à l'intérieur des modèles et c'était voulu pour corriger les liens de type XIXème siècle (qui existent mais sont incorrects). --Zelda 10 juin 2007 à 22:54 (CEST)
Je viens de vérifier avec un test réel et aussi dans les sources. Les liens internes ne sont pas modifiés. Pour être complet et précis, AWB n'applique pas les règles RegexTypoFix dans :
  • les modèles ;
  • les images ;
  • les liens externes ;
  • les titres des sections ;
  • les textes avec indentation (ligne commençant par un « : ») ;
  • les liens interwikis ;
  • les textes non formatés (textes balisés par <nowiki></nowiki>, <pre></pre>, <math></math>, <!-- --> et <timeline></timeline>) ;
  • les liens internes ;
  • et les textes quotés avec <cite>.
Je viens aussi de constater, contrairement à ce que j'ai toujours cru, que l'éditeur wikEd ne récupérait pas les règles RegexTypoFix depuis la page Wikipédia:AutoWikiBrowser/Typos, mais depuis un fichier JavaScript qui, sur fr:, est, semble-t-il, maintenu par EDUCA33E (d · c · b) et se trouve sur la page Utilisateur:EDUCA33E/RegExTypoFix.js. Ceci remet alors en cause ma manière d'écrire mes expressions rationnelles sur Wikipédia:AutoWikiBrowser/Typos, car je me suis toujours appliqué à ce que ces expressions rationnelles soient compatibles avec le support des regexp de JavaScript qui est bien plus limité que le support des regexp sur C#, celui là même qui est utilisé par AWB. Le support des regexp de C# permettent en effet d'écrire des règles bien plus abouties et j'aurai bien souhaité profiter de cette possibilité afin, par exemple, d'exclure certains faux positifs. Un exemple simple : s/\b(?<!The )th[éeèê]atre\b/théâtre/. Cette règle empêche de corriger le terme anglais « The theatre » en « The théâtre ».
Bref, j'aimerai bien avoir l'avis de tous ceux qui contribuent à cette page et savoir jusqu'à quel point on se permet d'écrire des expressions rationnelles complexes. — TiChou talk le 11 juin 2007 à 01:36 (CEST)

[modifier] Verbe du premier groupe

Ci-dessous une expression rationnelle, certes complexe, mais permettant de matcher tous les temps d'un verbe du premier groupe :

(?:er)?(?:a(?:s|i(?:s|t|ent)?)?|i?(?:ez|ons))|ass(?:es?|iez|ions)|â(?:mes|t|tes)|(?:èr|ass)?ent|(?:ée?|e)s?|er(?:ont)?|ant

Exemple d'utilisation avec le verbe abandonner :

<Typo word="abandonner" find="\b([aA])bandon((?:er)?(?:a(?:s|i(?:s|t|ent)?)?|i?(?:ez|ons))|ass(?:es?|iez|ions)|â(?:mes|t|tes)|(?:èr|ass)?ent|(?:ée?|e)s?|er(?:ont)?|ant)\b" replace="$1bandonn$2" />

TiChou talk le 11 juin 2007 à 17:46 (CEST)

Il me semble toutefois que, dans le cas de l'exemple précédent, il est beaucoup plus efficace de rechercher uniquement les débuts de mots où « abandon » est suivi d'une voyelle, comme ceci :
<Typo word="abandonner" find="\b([aA])bandon([aâeéèio])" replace="$1bandonn$2" />
Dans d'autres cas, la recherche est encore moins contraignante :
<Typo word="accompagner" find="\b([aA]|[rR]é?a)cc?o[mn]pagn" replace="$1ccompagn" />
Perfectionniste (d) 18 décembre 2007 à 16:21 (CET)

[modifier] Faute d'orthographe récurrente

Je parcours assez souvent les articles concernant les jeux vidéo et je tombe 1 fois sur 2 sur l'erreur suivante : jeux vidéos au lieu de jeux vidéo

Quelqu'un de gentil et s'y connaissant, passant par là, pourrait-t-il ajouter cette correction à effectuer dans la liste ? J'ai peur de me tromper dans la syntaxe et de faire tout planter.

D'avance merci. ~ PV250X (Discuter) ~ 22 juin 2007 à 16:43 (CEST)

Fait j'ai rajouté jeux vidéos → jeux vidéo et jeu video → jeu vidéo. --Zelda 22 juin 2007 à 23:51 (CEST)
Sourire Cool ! Encore merci ! ~ PV250X (Discuter) ~ 23 juin 2007 à 00:16 (CEST)

[modifier] Questions - liste

Bonsoir, J'ai 2-3 interrogations concernant l'ajout de règles à la liste commune et d'AWB.

  • Y a-t-il un critère? À partir de combien de occurences mal orthographiées la rajoute-t-on dans la liste? On trouve entre autres, tellement de mots non-accentués à corriger.
Non, il n'y a pas de réel critère, si ce n'est que la faute doit être courante
  • Est-ce qu'il est possible d'effectuer la correction automatique pour qu'une virgule soit toujours suivie d'un espace?
Techniquement c'est possible, il faut juste vérifier que ça n'a pas d'effets de bord. Je ferai un essai. Typiquement pour les ':' ca ne serait pas possible puisque ça abimerait tous les titres d'oeuvres anglais
  • J'ai vu que les premières lettres des mois sont automatiquement mises en minuscule, est-ce pertinent aussi pour les jours?
La règle en place permet de remplacer les mois en majuscule par des minuscules. Exemple : Janvier → janvier.

Merci! --Fluti [D] 24 juin 2007 à 04:58 (CEST)

De rien Clin d'œil --Zelda 24 juin 2007 à 11:48 (CEST)

J'ai rajouté la règle de typo pour la virgule. D'après les tests que j'ai fait ça semble ok, mais n'hésitez pas à la retirer si elle pose le moindre problème. Par contre ce n'est pas généralisable aux autres caractères de ponctuation... --Zelda 26 juin 2007 à 23:49 (CEST)
Cela fonctionne généralement très bien sauf dans 2 cas (que j'ai vu):
  • ,<ref> devient , <ref> (était correct)
  • ," devient , " (mais était erroné)--Fluti [D] 2 juillet 2007 à 22:04 (CEST)

[modifier] Mille ou Milles

Bonjour,

Que pensez-vous de cette ligne : <Typo word="mille" find="\b(M|m)illes\b" replace="$1ille" /> ?? Ne dit-on pas des milles marin ? La page Mille m'indique même que les Milles sont partis à la conquête de l'Italie.

Cette ligne ne risque-t-elle pas d'entraîner des erreurs en automatique ? Alecs.y (disc. - contr.) 30 juin 2007 à 16:33 (CEST)

J'ai justement eu un faux positif tout à l'heure avec milles. Si j'ai le temps, je passerai sur tous les articles contenant le terme milles afin de déterminer la proportion de faux positifs. J'en profite pour te faire 2 remarques :
  1. ne jamais utiliser les corrections RegexTypoFix en mode automatique du fait même de fréquents faux positifs ;
  2. ne jamais appliquer des corrections typographiques ou orthographiques sur les pages de discussions (article, Bistro, Oracle, utilisateurs, etc.).
Cordialement, — TiChou talk le 30 juin 2007 à 22:43 (CEST)
C'est suite à de nombreux faux positifs que je me suis poser la question. Les bots font comment pour corriger les fautes automatiquement alors ? Je pensais que c'était grâce au RegexTypoFix.
On utilise des règles d'expressions rationnelles spécifiques pour corriger le même mot sur une série d'articles. Voir par exemple ici, ici ou ici.
Euh sur toutes les pages de discussion ? Ou aussi sur le Bistro, l'oracle, les pages utilisateurs ??
Les corrections typo. ou orth. en masse devraient, en principe, se faire uniquement sur les articles.
Oky je ferais attention. Désolé.
Alecs.y (disc. - contr.) 1 juillet 2007 à 14:06 (CEST)
Cordialement, — TiChou talk le 2 juillet 2007 à 23:35 (CEST)

[modifier] Gros problème

Il doit y avoir un soucis quelque part, il remplace tout les "championnat" en "championnnat"
Ne sachant pas quoi faire, j'ai enlevé ca :
<Typo word="championat" find="\b(C|c)hampion(e|nats?)\b" replace="$1hampionn$2" />
Si quelqu'un pouvais jeter un coup d'oeil. MagnetiK 29 juillet 2007 à 20:52 (CEST)

Problème avec "concurent" visiblement aussi. MagnetiK 29 juillet 2007 à 21:04 (CEST)
C'est de ma faute, en voulant faire quelques améliorations cet après-midi, j'ai commis une coquille. J'ai corrigé l'erreur pour le terme championnat. Pour le terme concurrent, l'erreur avait déjà été corrigé avant ton message. Faire un Refresh Typos dans AWB pour s'assurer d'avoir la liste des typos à jour. — TiChou talk le 29 juillet 2007 à 22:30 (CEST)
Merci ! MagnetiK 30 juillet 2007 à 11:41 (CEST)

[modifier] Wikipédia ou wikipédia

Bonjour, je me demandais s'il y avait une règle concernant l'écriture du mot Wikipédia (majuscule ou pas, accent ou pas).

Si c'est le cas, il faudrait peut-être créer une règle pour uniformiser les différentes formes trouvées sur l'encyclopédie. --Shawn 7 août 2007 à 14:40 (CEST)

À mon avis, c'est majuscule (car nom propre) et accent (car français). En tout cas c'est la règle que je suis, personnellement. ¤ -- Niavlys (CinéNiavlys) -- ¤ [αβγ], le 1 avril 2008 à 18:52 (CEST)

[modifier] Affilier

Bonjour,

je viens de supprimer la règle : <Typo word="affilier" find="\b(a|A)ff?il?li(ations?|ée?s?|er)\b" replace="$1ffili$2" /> Elle provoque ce genre de choses:

  1. 9 août 2007 à 11:14 (hist) (diff) m Mathieu Biron (Typo fixing , Typos fixed: affiliée → affiliationée, AWB)
  2. 9 août 2007 à 11:13 (hist) (diff) m Portland Beavers (Typo fixing , Typos fixed: Affiliation → Affiliationation (2), AWB)

Une petite correction, merci ;) MagnetiK 9 août 2007 à 12:39 (CEST)

C'était déjà corrigé, cf l'historique. :-) — TiChou talk le 9 août 2007 à 14:41 (CEST)
Nouvelle version :
<Typo word="affilier" find="\b([aA]|[rR]éa)ff?ill?i" replace="$1ffili" />
Perfectionniste (d) 18 décembre 2007 à 16:48 (CET)

[modifier] Problème pour appréhender

"\b(a|A)pp?r[éeè]h?en(der|dée?s?|dai?s?|dait|daient|(?:t|ss?)ions?)\b" "$1ppréhens$2"
veut modifier appréhender en appréhensder
Crochet.david 9 août 2007 à 16:03 (CEST)

Fait corrigé ! À force, je vais demander à ce qu'on m'interdise de modifier les règles actuelles. SourireTiChou talk le 9 août 2007 à 17:30 (CEST)
Nouvelle version :
<Typo word="appréhender" find="\b(a|A)pp?r[éeè]h?en" replace="$1ppréhen" />
Perfectionniste (d) 18 décembre 2007 à 17:01 (CET)

[modifier] Doute avec d'aucuns

(?<![dD]['’])\b(a|A)ucun(e?)s\b" replace="$1ucun$2"
veut faire ceci : Même l'aide ne m'en est d'aucunes à ce sujet ou des intérêts n’est d’aucunes utilité du moins à court terme ou la définition n'est d'aucuns intérêt en soi.
Alors qu'en tout logique, mais je ne suis pas assez bon en grammaire pour savoir, le s semble être de trop. Crochet.david 9 août 2007 à 17:26 (CEST)

La règle dont tu veux parler est plutôt celle-ci <Typo word="d'aucuns" find="\b([dD]['’])aucun(e?)\b" replace="$1aucun$2s" />. On en discutait justement cet après-midi sur IRC et je me rends compte que j'ai oublié de supprimer cette règle. Je le fais de suite. — TiChou talk le 9 août 2007 à 17:34 (CEST)

[modifier] question

Bonsoir, deux questions que je suis incapable de résoudre:

  • Pourquoi cette regex : <Typo word="même" find="\b(moi|eux|lui|elle(s?)) m[êe]me(s?)\b" replace="$1-même$2" /> ne permet pas de corriger "eux mêmes" en "eux-mêmes"? (alors qu'elles mêmes fonctionnent)
  • Pourquoi nait et naitre n'est pas reconnu <Typo word="naître" find="\b(mécon|re|recon|con)nait(re?)\b"même" replace="$1naît$2"> ?

Merci!--Fluti [D] 10 août 2007 à 03:17 (CEST) PS Il me semble que la correction de "auxquels" déraille: un jet de dé auquel on -> par un jet de dé auxquels ?

Bonjour Fluti,

La première règle va corriger « eux mêmes » en « eux-même ». En effet, dans la règle il y 3 captures mémorisées : \b(moi|eux|lui|elle(s?)) m[êe]me(s?)\b. La première capture, bleue, qui va mémoriser dans $1 soit moi, soit eux, soit lui, soit elle ou soit elles. La deuxième capture, rouge, qui se situe à l'intérieur de la première et qui va mémoriser dans $2 le s du pluriel du mot elles ou rien. Et la troisième capture, verte, qui va capturer le s du pluriel du mot mêmes ou rien. Dans le cas du terme eux mêmes, $1 contiendra « eux », $2 rien et $3 « s ». Donc le résultat de $1-même$2 sera « eux-même ». La bonne règle aurait du être :
<Typo word="même" find="\b(moi|eux|lui|elle(s?)) m[êe]me(s?)\b" replace="$1-même$3" />
ou mieux :
<Typo word="même" find="\b(moi|eux|lui|elles?) m[êe]me(s?)\b" replace="$1-même$2" /> (une capture mémorisée de moins = moins de ressources utilisées = rapidité en plus).

Dans la deuxième règle, \b(mécon|re|recon|con)nait correspond à (méconnait|renait|reconnait|connait) et donc on ne retrouve en aucun cas nait. Pour que nait soit reconnu, il faut placer un ? juste après la capture \b(mécon|re|recon|con). De plus, la partie nait(re?) de la règle est erronée. (re?) correspond à (r|re) (soit (naitr|naitre)) au lieu de (|re) qui était plutôt souhaité ici. La bonne règle est donc :
<Typo word="naître" find="\b(mécon|re|recon|con)?nait(re)?\b" replace="$1naît$2">

Pour la modification de « auquel » en « auxquels », c'est corrigé. — TiChou talk le 10 août 2007 à 11:19 (CEST)
Merci bien pour le cours 101. J'apprends par essais et erreurs et en regardant les pros... J'en prends bonne note et j'ai déjà changé quelques règles que j'avais dans ma liste. Je peux donc ajouter ces deux-là à la liste commune? Je ne sais pas si tu serais volontaire, mais j'ai accumulé nombre de corrections telles que celles-ci ou dont le projet est trop ambitieux pour moi. Tu serais intéressé à ce que je te liste mes questions/idées insolubles? --Fluti [D] 11 août 2007 à 04:26 (CEST)
Oui bien sûr, tu peux rajouter ces deux règles à la liste. Sourire Pour tes autres règles, liste les ici et je te proposerai les corrections nécessaires. — TiChou talk le 11 août 2007 à 10:46 (CEST)
Je suis venue pour rajouter la règle "même" pour me rendre compte qu'il en existait déjà une. Est-ce possible d'optimiser (encore) pour fusionner les 2 ou on les laisse séparées? Re-merci. --Fluti [D] 14 août 2007 à 04:54 (CEST)
Non, il faut l'ajouter à part, pas de possibilité de fusionner. — TiChou talk le 14 août 2007 à 13:45 (CEST)

[modifier] est-ce un travail pour AWB ?

Je voudrais savoir si AWB peut aussi faire des réorganisation de ce type, mais après discussion car il se peut qu'il y ait des effets de bord possible :

  • plusieurs (au moins 3) retour de ligne successifs → {{clr}}
  • plusieurs (au moins 3) <br /> successifs → {{clr}}

Crochet.david 13 août 2007 à 11:24 (CEST)

Avec les expressions rationnelles suivantes :
s/\n{3,}/{{clr}}/
s/(?:<br */?>){3,}/{{clr}}/
Par contre, les effets de bords sont inévitables, car la fonction de {{clr}} n'est pas de se substituer à des sauts de lignes consécutifs mais de placer le texte qui suit ce modèle après une boîte flottante et non autour d'elle. — TiChou talk le 14 août 2007 à 15:56 (CEST)

[modifier] Dans la même lignée

Serait-il envisageable que:

  • les 3e, 12eme ou 126ième soit modifié en 3e?
  • les km2 ou m3 soient mis en exposant?
  • les espaces insécables entres les unités? Il y a une discussion sur le bistro il y a quelques jours à propos d'un modèle, je ne sais plus lequel.
  • d'uniformiser les points de suspension? … ou ... (j'ai même vu des ....)
  • de faire du ménage dans les <ref>
    • i.e. ajouter le {{,}} entre deux références.
    • S'assurer que l'exposant de la référence soit bien placé après un point ou une virgule, pour éviter les espaces disgracieux.
  • la mise en forme peut-elle être modifiée avec AWB? La plupart des formules latines telles que "in vitro", "Vade Mecum" devrait normalement être en italique.
  • peut-on faire une règle qui prend en compte plusieurs (une vingtaine ou +) mots? Je pense entre autres aux mots féminin en ité, souvent orthographiés itée. Il y en a plusieurs : finalité, vérité, hérédité, dualité, etc.

Et puis pour terminer, en lien avec mon paragraphe précédent:

  • la règle (complexe Sourire) pour les verbes en ir.

Ce sera tout pour ce soir... --Fluti [D] 14 août 2007 à 04:49 (CEST)

  • <Typo word="nième" find="\b(\d+)(?:i?[éeè]me|[éeè])\b" replace="$1{{e}}" />
  • <Typo word="km²" find="\bkm2\b" replace="km²" />
  • <Typo word="m³" find="\bm3\b" replace="m³" />
  • Pour les espaces insécables entre les nombres et les unités, cela va être plus difficile, car il faudrait d'abord répertorier un ensemble d'unités, prendre en compte la manière dont sont formatés les nombres (avec ou non), s'assurer qu'il s'agitbien d'un nombre suivit d'une unité, etc. D'expérience, la manipulation des nombres conduit trop souvent à des faux positifs.
  • <Typo word="…" find="\.{3,}" replace="…" /> (à tester, risque de faux positifs)
  • <Typo word="etc." find="\betc\.{1,}\b" replace="etc." />
  • <Typo word="sép. réf." find="(?<=<\/ref>)\s*,?\s*(?=<ref\b)" replace="{{,}}" />
  • Pour les références devant être placées après un signe de ponctuation, je ne suis pas très inspiré (simple dans le cas d'une seule référence, bien plus complexe dans le cas de plusieurs références qui se suivent).
  • Pour les locutions latines, il y a des controverses pour certaines selon si on s'appuie sur la réforme orthographique de 1990 ou non. De plus, il est très délicat, voir difficile/impossible, de « wikifier » automatiquement du texte en italique ou en gras. Par exemple, la règle que j'aurais bien vu serait :
<Typo word="loc. latines" find="(?<![^']''(?:''')?)(ad hoc|statu quo)" replace="''$1''" />
Mais si dans un texte on a « ''in statu quo ante'' », celui ci va être transformé en « ''in ''statu quo'' ante'' », ce qui n'est pas souhaité.
  • <Typo word="*ité" find="\b(final|vér|héréd|dual|etc.)itée\b" replace="$1ité" /> (je compte plusieurs centaines de mots féminins se terminant par ité)
  • Pour les verbes ayant une terminaison en « ir », cela va être effectivement complexe puisqu'ils n'appartiennent pas tous au deuxième groupe.
  • Enfin, pour rappel, AWB ne permet pas, via les règles se trouvant dans la page Wikipédia:AutoWikiBrowser/Typos, de manipuler et modifier les modèles, certaines balises (<pre>, <nowiki>, <cite>, etc.) ou les liens (internes, externes, mages, etc.).
Je profite de cette discussion pour signaler que j'ai mis en ligne le module AWB que j'ai développé pour effectuer divers corrections de typos. Le code source est disponible sur cette page : Utilisateur:ZX81-bot/AWB/Modules/Cleanup. — TiChou talk le 14 août 2007 à 15:56 (CEST)

[modifier] oe → œ

La règle "\boe" → "œ" et "\bO[Ee]" → "Œ" peut être directement généralisé, car tout les mots commençant par oe sont tous écrit avec œ ?Crochet.david 17 août 2007 à 16:22 (CEST)

D'expérience, je sais qu'il y aura de nombreux faux-positifs avec des termes non français (par exemple des termes latins) ou bien des textes n'étant pas des mots (abréviations, unités, codes particuliers, références, etc.) Suffit déjà de voir les articles de cette page. — TiChou talk le 17 août 2007 à 21:55 (CEST)
Hum, oui, j'ai pas tilter sur les noms non francophones, car je m'était basé sur les mots du Petit Robert. Cela risque de faire pareil avec la règle que j'ai indiqué en dessous pour l'accentuation des É.Crochet.david 17 août 2007 à 21:59 (CEST)

[modifier] regrouper les majuscules initiales accentués

pensez-vous qu'il serait intéressant de regrouper dans un endroit toutes les règles accentuant les majuscules ?

De plus il serait souhaitable de tester ces règles pour savoir s'il n'y a pas trop de faux positif, :

<Typo word="É…" find="\bE(b|c[aeiloru]|d[airu]|den|f[ar]|g[aéi]|go[cïrstu])" replace="É$1" />
<Typo word="É…" find="\bE(g[ry]|j|l[aéeèiouy]|ma[nrsu]|m[éeiou]|ne|nig|n[ou]|o)" replace="É$1" />
<Typo word="É…" find="\bE(p[aeéhilou]|q|ra|rec|rei|rém|rep|rés|rét|reu)" replace="É$1" />
<Typo word="É…" find="\bE(r[iouy]|t[aéeê]|th[aeioy]|t[io]|tr[aiou]|t[uy]|v[aeiou])" replace="É$1" />

Crochet.david 17 août 2007 à 18:15 (CEST)

Amuse-toi avec Special:Prefixindex et tu auras ma réponse. Sourire Je suis pour une optimisation des règles, mais on ne peut malheureusement pas généraliser. — TiChou talk le 17 août 2007 à 22:00 (CEST)
Oui, enfin pour moi cela marche bien, mais c'est peut-être aussi le cas parce que je fais passer mon robot sur la wikiversité avec seulement 2500 pages et qu'avec pywikipediabot, il ne touche qu'au texte et que je peux valider chaque modifications, donc je peux avoir des règles moins rigoureuses.Crochet.david 18 août 2007 à 08:57 (CEST)

[modifier] c'est-à-dire

Je crois qu'il y a un problème sur la correction des fautes dans " c'est-à-dire " qui corrige vers " cest-à-dire " ou il manque l'apostrophe. J'ose pas essayer de corriger. Oxo | °°° | 26 août 2007 à 22:17 (CEST)

Ça n'est pas plutôt « c-à-d » qui était corrigé en « cest-à-dire » ? Car pour ce cas précis, il y avait bien une erreur. Mais sinon, aucune raison que « c'est-à-dire » soit corrigé en « cest-à-dire ». — TiChou talk le 26 août 2007 à 22:35 (CEST)
C'était bien ça. Merci. Oxo | °°° | 27 août 2007 à 10:48 (CEST)
par contre les 2 règles (c-a-d et c'est à dire) ne donne pas la même finalité car l'un et l'autre n'utilise pas la même apostrophe(l'une est droite, l'autre courbée). Crochet.david 28 août 2007 à 22:05 (CEST)

[modifier] Question.

Saluts,
je tombe sur ça et je comprend pas pourquoi in vitro est noté dans le changelog sachant que l'AWB n'y touche pas (mais que la chaîne est bien présente dans le texte). Une explication ? Merci, (:Julien:) 4 septembre 2007 à 10:41 (CEST)

Bien sûr, la question s'adresse à moi, étant ma modif. J'ai entrepris de modifier au hasard de mes pérégrinations wikipédiennes à mettre en italique les termes comme in vitro et in vivo, que j'ai mis dans ma liste de changement (replace). Sauf que dans l'article en question le "in vitro" se trouvait à l'intérieur d'un lien : fécondation in vitro. J'ai donc annulé la modif et pour une raison X (à demander aux développeurs du logiciel pas à moi!) le résumé ne prend pas en compte que le changement n'a pas été effectué. Aussi simple que ca! --Fluti [D] 5 septembre 2007 à 04:21 (CEST)

[modifier] Noms de marques ==> majuscule

Bonjour,

J'ai remarqué que par endroits, le mot Diesel (du nom de son inventeur) était écrit "diésel" (sans majuscule, et avec accent). N'y aurait il pas une longue liste de mots à l'instar de celui ci, qui devraient porter une majuscule, car ils reflettent le nom de leur inventeur ? Ne connaissant pas très bien le fonctionnement des regexp (et surtout ne voulant pas casser tout Wikipédia), je ne prends pas l'initiative de faire une règle, j'attends plutôt vos remarques ^_^. -- Smeet666 5 septembre 2007 à 17:01 (CEST)

Apparemment, le mot diesel s'écrit dans certains cas avec une minuscule, voir [1]. Quant à l'accentuation « à la française », elle est préconisée par les fameuses rectification orthographique orthographiques de 1990 et risque fort de se répandre. (Toutefois, en Suisse, on prononce [dizel], prononciation plus proche de l'allemande, donc aucune raison de mettre d'accent.)C.P. 22 septembre 2007 à 21:46 (CEST)

[modifier] Diplome ==> Diplôme

Si je ne me trompe pas, on doit écrire diplôme, diplômé, etc. Smeet666 5 septembre 2007 à 17:26 (CEST)

Oui Oui. (Même si on suit les corrections orthographiques de 1990 : le circonflexe est conservé sur a, e et o.)C.P. 22 septembre 2007 à 21:54 (CEST)

[modifier] RegExTypo avec wikEd

Bonjour, je viens de réussir à faire fonctionner Wikipédia:AutoWikiBrowser/Typos avec wikEd. Toutes les corrections semblent très bien fonctionner sauf la ligne :

<Typo word="Catégorie" find="\[\[[ _]*(?:(:)[ _]*)?(?:fr[ _]*:[ _]*)?[Cc]at[éèêe]gor(?:ie|y)[ _]*:[ _]*([^\]]+)\]\]" replace="[[$1Catégorie:$2" />

Quand j'applique les corrections, les 2 derniers ]] disparaissent. Du coup, je me retrouve avec une modification de ce type : voir en bas de la modif les catégories

Sans y connaiter grand chose au code de cette ligne j'aurais tendance à écrire :

<Typo word="Catégorie" find="\[\[[ _]*(?:(:)[ _]*)?(?:fr[ _]*:[ _]*)?[Cc]at[éèêe]gor(?:ie|y)[ _]*:[ _]*([^\]]+)\]\]" replace="[[$1Catégorie:$2]]" />

S'agit-il d'un bug de wikEd et est-ce que cette ligne fonctionne correctement avec AWB? Leag ⠇⠑⠁⠛ 9 septembre 2007 à 13:45 (CEST)

FaitEffectivement-- Chico (blabla) 10 septembre 2007 à 18:02 (CEST)
Merci Leag ⠇⠑⠁⠛ 10 septembre 2007 à 18:45 (CEST)

[modifier] Très

Il semble y avoir un pb avec cette ligne :

<Typo word="très" find="\b(T|t)r[ée]s\b" replace="$1rès" />

Elle remplace « 100 mètres » en « 100 mètrès » et doit faire de même pour tous les mots se terminant par « tres ».

Y-a-t-il une solution pour corriger ça? Leag ⠇⠑⠁⠛ 9 septembre 2007 à 14:25 (CEST)

Pas logique car il y a la balise \b qui veut dire début ou fin de mot, donc dans ce cas là, le mot doit commencer par T ou t.
Es-tu sûr que le è de mètres ne serait pas codé en Iso et non en UTF-8 ?
Crochet.david
V'là la question de ouf Clin d'œil J'en sais rien, mon navigateur est en UTF-8, mais avec wikEd le \b n'a pas l'air de fonctionner. Peut être une config à faire sur wikEd? Merci Leag ⠇⠑⠁⠛ 10 septembre 2007 à 17:14 (CEST)

[modifier] Règles générales améliorées

Bonjour, j'ai ajouté/amélioré les quatre trois règles générales suivantes de l'orthographe française :

<Typo word="c cédille abusif" find="ç([eéèêiîyœ])" replace="c$1" />
<Typo word="e suivi de x ou 2 consonnes sauf si la 2e est h, r ou l" find="[éèê]([bcdfgjkmnpqstvxzhlr][bcdfgjkmnpqstvxz]|rr|ll||x)" replace="e$1" />
<Typo word="é suivi d'une voyelle" find="[èê]([aeiouâêîôûéè])" replace="é$1" />

Je ne sais pas quel est la proportion de faux-positifs (essentiellement des noms propres étrangers, j'imagine), et je n'utilise pas AWB; alors n'hésitez pas à les enlever s'il y a trop de faux-positifs. —C.P. 22 septembre 2007 à 19:19 (CEST) Règle «ee→ée» ôtée à cause de nombreux mots étrangers avec «ee». 22 septembre 2007 à 22:43 (CEST)

[modifier] Problème d'accent

J'ai essayé Regex avec AWB mais, hic!, il essaie de m'enlever tous les accents de l'article. Même devient meme, éclaté devient eclate, etc. D'où cela peut il venir? Comment résoudre cela? Merci! --Bombastus [Разговор] 3 octobre 2007 à 21:34 (CEST)

La modif de C.P. a été annulée par Chico --Zelda 2 novembre 2007 à 10:27 (CET)

[modifier] Ressusciter

Problème avec ce mot : ressusciter. Vous pouvez utiliser cet article à titre d'exemple, le mot y est à de nombreuses fois. Merci!--Fluti [D] 16 octobre 2007 à 04:51 (CEST)

Fait corrigé, merci de l'avoir signalé Clin d'œil --Zelda 2 novembre 2007 à 10:22 (CET)

[modifier] Espaces insécables dans les dates

Y a-t-il une raison pour laquelle, dans les corrections de la sous-section 1.1.1, on ne pourrait pas mettre systématiquement une espace insécable, plutôt qu'une espace ordinaire, entre le numéro du jour et le nom du mois, comme ceci :

le vendredi 29&nbsp;février 2008

de façon à ce que le numéro du jour ne se retrouve jamais isolé en fin de ligne ? Peut-être suis-je dans l'erreur, mais il me semble que cela serait à la fois souhaitable et facile à réaliser.

Perfectionniste 10 novembre 2007 à 04:34 (CET)

Les espaces insécables devraient également être présentes (et remplacer les éventuelles espaces ordinaires),
- devant les points d'exclamation, d'interrogation, les deux points, les points-virgules, le signe pour-cent,
- dans les guillemets chevrons, c'est-à-dire après le guillemet ouvrant et avant le guillemet fermant,
- entre un nombre et une unité, mais ce sujet a été évoqué par ailleurs, et la difficulté est de dresser une liste des unités.
Entrascite (d) 23 décembre 2007 à 10:55 (CET)
Mais c'est déjà en partie ce que fait Wikipédia. Elle remplace automatiquement l'espace ordinaire par une espace insécable devant le point d'exclamation, le point d'interrogation, le deux-points, le point-virgule et le signe pour cent, de même qu'après le guillemet ouvrant et avant le guillemet fermant, pourvu qu'il s'y trouve déjà une espace ordinaire. — Perfectionniste (d) 23 décembre 2007 à 11:57 (CET)
Ah ? Merci, je ne savais pas. J'ai parcouru les bots avant de poster, mais je n'ai pas vu ça. Bon, j'imagine qu'il est trop risqué d'ajouter une espace insécable en aveugle lorsqu'il n'y a pas d'espace ordinaire. Faisons comme si je n'avais rien dit (mais j'ai tout de même appris quelque chose…)
Entrascite (d) 23 décembre 2007 à 13:28 (CET)

[modifier] Grammaire

Bonjour,

Peut-on ajouter les expressions suivantes (à corriger, je ne comprends pas du tout la syntaxe) :

<Typo word="se sont succédé" find="se sont succédés" replace="se sont succédé"> ?
<Typo word="se sont succédé" find="se sont succédées" replace="se sont succédé"> ?
<Typo word="s'est succédé" find="s'est succédée" replace="s'est succédé"> ?

Je fais cette demande suite à une demande faite sur Wikipédia:Bot/Requêtes/2007/11. Merci. Kelemvor 15 novembre 2007 à 13:31 (CET)

J'ai été stupéfait de constater à quel point la faute que vous soulignez était répandue sur Internet. Cela étant dit, je pense que la ligne suivante pourrait améliorer la situation :
<Typo word="succédé" find="\b(s|S)('es|’es|e +son)t?(.{0,50})succ?(e|é|è)dé(es|s|e)\b" replace="$1$2t$3succédé" />
En tous cas, cela a fonctionné de façon impeccable lors des tests que j'ai effectués avec Testeur Regex. L'expression rationnelle effectue la correction même avec des phrases telles que « se sont bien trop souvent succédées », dans lesquelles un adverbe sépare l'auxiliaire du participe passé, pourvu qu'il n'y ait pas plus de 50 caractères entre eux (mais on peut modifier cette valeur).
Quoi qu'il en soit, n'étant encore qu'un néophyte en matière d'expressions rationnelles, je préfère laisser quelqu'un de plus compétent vérifier ou améliorer la ligne précédente avant de l'ajouter à la liste actuelle.
D'autre part, le cas que vous soumettez, puisqu'il relève de la grammaire, n'entre à proprement parler dans aucune des sections actuelles de la liste. Je pense donc qu'il faudrait en l'occurrence créer une nouvelle section intitulée par exemple « Règles grammaticales ».
Cordialement. Perfectionniste 15 novembre 2007 à 23:08 (CET)
J'ai finalement décidé de faire moi-même ce que je suggérais. — Perfectionniste (d) 6 décembre 2007 à 15:07 (CET)

La règle, placée dans la nouvelle section « Règles grammaticales », se présente maintenant comme suit :
<Typo word="se sont succédé" find="\bs(e +son|'es|’es)t?([ \w,()]{0,50})succ?[éèe]dé(?:s|es?)\b" replace="s$1t$2succédé" />
Elle permet de corriger des phrases comme celle-ci : « se son, durant une très (ou trop) longue période, sucèdées… » dès lors que l'accord du participe passé est fautif.
Perfectionniste (d) 14 décembre 2007 à 16:52 (CET)

[modifier] Emballement

Une correction d'orthographe semble erronée. Si quelqu'un peut la corriger ou essayer de trouver le problème. Une regex existe pour « emballer », cela peut-être lié, mais je pense que c'est plus lié à la regex « alement ». ThrillSeeker {-_-} 20 novembre 2007 à 12:06 (CET)

Il semble bien que emballement, déballement et trimballement soient des exceptions, du moins si l'on examine dans le TLFi la liste des entrées (mais pas de toutes les occurrences) qui satisfont au critère de recherche « .*allement ». Par conséquent, je crois que la ligne suivante ferait l'affaire :
<Typo word="alement" find="([c-z]|ib|brimb|rb|ueb)allement(s?)\b" replace="$1alement$2" />
En tous cas, avec Testeur Regex, l'expression précédente laisse déballement, emballement et trimballement intacts, tout en corrigeant par exemple brimballement, bringueballement, brinqueballement, sallement, totallement, triballement, verballement, etc.
Néanmoins, comme je ne m'y connais pas encore très bien avec les expressions régulières (voir les deux messages précédents), je préfère laisser quelqu'un de plus compétent modifier la liste. — Perfectionniste 20 novembre 2007 à 19:19 (CET)
Merci j'attends juste une confirmation d'un « pro » pour la transférer (où qu'il le fasse directement). ThrillSeeker {-_-} 23 novembre 2007 à 15:02 (CET)
J'ai finalement décidé de modifier moi-même l'expression rationnelle pour « alement », conformément à la première règle de Wikipédia : N'hésitez pas !Perfectionniste (d) 6 décembre 2007 à 15:18 (CET)

Je crois bien avoir enfin trouvé la forme définitive de l'expression à rechercher :
< find="([c-zé]|rb|ob|ib|brimb|ueb)allement?(s?)\b" />
Perfectionniste (d) 9 décembre 2007 à 02:19 (CET)

[modifier] Ortho de 1990

Bonjour,

Sur Wikipédia, il n'y a pas consensus (je crois) pour utiliser l'orthographe de 1990 ou celle d'avant la réforme, du coup les deux écritures sont utilisées. Je ne crois pas que ça soit une bonne idée que les bots corrigent cette orthographe (dans un sens ou dans l'autre), car il y a le risque de voir un autre bot passer dans l'autre sens (ou un éditeur lui-même).

Comme exemple de ce remplacement, on a "naitre" qui est remplacé par "naître" dans "connaitre" (lettre N). Il y en a peut-être d'autres. le Korrigan bla 23 novembre 2007 à 13:35 (CET)

À titre personnel, je suis pour ne pas prendre en compte cette réforme de 1990 puisqu'elle n'a jamais été appliquée en France. Mon apprentissage scolaire faisant foi ;) Donc autant rajouter un accent circonflêxe s'il le faut car la correction se fera plus sûrement dans ce sens. ThrillSeeker {-_-} 23 novembre 2007 à 14:56 (CET)
Ben non, pas forcément. Perso, j'utilise Firefox avec son correcteur d'orthographe, et j'utilise un dictionnaire post-1990. Même si j'ai pris l'habitude de ne pas corriger ces orthographes, je ne suis sans doute pas le seul dans ce cas, puisque Firefox m'a proposé ce dictionnaire par défaut lors de l'installation. Je ne dis pas qu'il faut adopter l'ortho de 1990, juste ne pas systématiquement la changer puisqu'elle est aussi valide. le Korrigan bla 23 novembre 2007 à 16:51 (CET)
Tu as la version non réformée si tu le souhaite. Je comprend ton point de vue, c'est pourquoi je t'ai aiguillé ici, c'est pourquoi je souhaité que la question soit traité de manière « collégiale ». ThrillSeeker {-_-} 23 novembre 2007 à 17:10 (CET)
  • Les bots corrigent des fautes (typo, orthographe). Mais l'usage classique n'est pas une faute. L'orthographe 1990 non plus. Alors les bots ne doivent rien toucher. Neutralité.
  • Les bots corrigent le style. Mais aucune décision n'a opté pour l'une des versions d'orthographe plutôt qu'une autre, pour le style wikipédia. Alors les bots touchent à rien. -- irøni(e) censeur 24 novembre 2007 à 20:30 (CET)
Dans ce cas-là, devrait-on retirer tous les mots touchés? Juste dans les A avec une vérif rapide, il y au moins 3-4 mots ayant 2 orthographes. --Fluti [D] 24 novembre 2007 à 21:10 (CET)
C'est effectivement la question. ThrillSeeker {-_-} 24 novembre 2007 à 21:24 (CET)
Il y a quelque part un début de sondage en vue d'une prise de décision sur le sujet.
À première vue les contributeurs avouaient corriger sans y penser des mots de nouvelle ortho en ancienne et ont trouvés un consensus pour autoriser les deux graphies. Évidemment, les adeptes du NOPV rappellent que corriger une ortho vers une autre est une violation de la neutralité de point de vue.
J'aurais donc tendance à dire que des règles de correction (dans un sens ou dans l'autre) n'ont pas leur place dans AWB.
Il faut cependant bien être conscient que l'immense majorité des contributeurs utilisent spontanément l'orthographe traditionnelle et ignorent les détails (voire l'existence pour certains) de la nouvelle orthographe et corrigeront naitre en naître sans même y penser.
Quant au dico Firefox, la majorité des utilisateurs ont des post 1990 cat c'est le dictionnaire le plus visible. La plupart des dictionnaires du marché contiennent les mots dans leurs deux graphies (Microsoft Office, OpenOffice, pspell, Antidote). Pour Firefox, c'est [par ici] pour un dictionnaire "normal" contenant les deux graphies au fait (fallait pas prendre le français mais le Français (fr-fr) dans la liste.
--Dereckson (d) 25 novembre 2007 à 07:14 (CET)
Oui ! Vous virez immédiatement ces corrections automatiques ! Il s'agit pas de fautes. Et le style wikipédien est pas défini pour l'orthographe. Si les utilisateurs veulent corriger à la main, ok, mais pas les bots. Wikipédia:Prise de décision/Réforme de l'orthographe de 1990 est pas votée, actuellement seulement en discussion. Les corrections par les bots seront validées peut être dans 1 mois... ou seulement dans 20 ans. -- irøni(e) censeur 25 novembre 2007 à 07:21 (CET) C'est comme sur EN entre l'orthographe anglaise et américaine
Navrant, donc je précise mon point de vue :
  • La réforme n'a jamais été adopté par le corps professoral (ce qui me semble important) ni l'État français (dans ses documents officiels)
  • Il faut être homogène, nos meilleurs articles (labelisés) sont en orthographe pré-1990 parce que leur passage et leur soit apportés fait que les contributeurs le change vers cette orthographe. C'est d'ailleurs quasi une condition pour le passage AdQ.
  • La correction se fait toujours dans le sens post-1990 -> pré-1990 et non les contraire.
  • Il est important d'apporter un soin à l'orthographe, donc si possible d'éviter ce qui semble des fautes.
  • Ces corrections automatisées ne le sont pas vraiment, car elles sont utilisées sans automatisation, uniquement en semi-automatisation, pour l'exemple initial de Korrigan, j'étais derrière le logiciel et vérifier ses corrections. J'aurai même dû le faire sous mon compte mais j'ai préféré ne pas « flooder » les listes de suivi (j'étais sur les articles les plus vus en plus).
Enfin, il n'est pas question de retirer ces Regex, juste de les changer pour inclure et laisser tels quels les orthographe 1990. Donc, qu'on me dise que je perd mon temps ok, qu'on me dise qu'il faut l'interdire non. ThrillSeeker {-_-} 25 novembre 2007 à 09:32 (CET)
J'ai lancé consultation sur bistro : Moratoire des bots 1990. Peut-être aurais-je dû lancer ça ici, ou sur une page WP:BOT. -- irøni(e) censeur 25 novembre 2007 à 17:10 (CET)
Non car celà n'a pas vraiment grand-chose à voir avec les bots, il est bien rare que des requêtes d'orthographes concernent ce point particulier, et l'utilisation de la correction orthographique sous AWB ne peut se faire de manière automatique, les faire sous le compte d'un bot permet juste de ne pas flooder les RC et les listes de suivi de ces petites corrections. -- Chico (blabla) 26 novembre 2007 à 00:53 (CET)
Merci Chico de la précision, quand c'est moi qui le dit, on ne me croît pas. ThrillSeeker {-_-} 26 novembre 2007 à 01:18 (CET)
Personne ne m'a encore crû pour le moment ! ^^ Par contre il y a effectivement un problème avec ces histoires de réforme, et le moyen le plus sûr de le régler semble passer par la pdd. En attendant, je ne pense pas qu'il soit si essentiel que cela de supprimer les corrections semi-automatiques, que la correction d'orthographe se fasse en pré ou post-90, il s'agit le plus souvent de corriger effectivement une faute d'orthographe et il est bien rare que plusieurs bots se passent les uns sur les autres pour corriger dans un sens ou dans l'autre ces erreurs. -- Chico (blabla) 26 novembre 2007 à 01:27 (CET)

[modifier] Hémorragie

De nombreuses fautes avec ce mot : pas d'accent, un seul « R », un double « M » et l'oubli un « E » final sont les erreur les plus communes. Si quelqu'un est capable de faire une regex, je le remercie d'avance. ThrillSeeker {-_-} 29 novembre 2007 à 11:28 (CET)

FaitCrochet.david 30 novembre 2007 à 16:34 (CET)

[modifier] Homonymie Java

Tout d'abord, je ne sais pas si ces bots ont aussi pour but d'éviter les redirections vers les pages d'homonymie !? Si ce n'est pas le cas, je m'excuse d'ores et déjà !
Des articles se créent souvent autour des technos Java, et dirigent à tord vers la page d'homonymie Java. Une partie de la correction pourrait être automatisée avec les filtres suivants :

  • « application(s) [[Java]] » ==> « application(s) [[Java (technologie)|Java]] »
  • « code [[Java]] » ==> « code [[Java (langage)|Java]] »
  • « langage [[Java]] » ==> « langage [[Java (langage)|Java]] »
  • « machine(s) virtuelle(s) [[Java]] » ==> « [[machine virtuelle Java|machine(s) virtuelle(s) Java]] »
  • « île de [[Java]] » ==> « île de [[Java (île)|Java]] »

Smeet666 4 décembre 2007 à 18:50 (CET)

Non, ces occurences sont trop rares pour qu'on oblige l'ensemble des utilisateurs d'AutoWikiBrowser à les charger. Par contre tu peux les mettre dans ta propre configuration d'AutoWikiBrowser (une fois que tu auras fait la demande d'utilisation Clin d'œil), et les lancer ces corrections sur toutes les pages liant vers Java. -- Chico (blabla) 8 décembre 2007 à 18:03 (CET)

[modifier] Mexico D.F.

La ville de Mexico au Mexique est souvent référencée en anglais comme « Mexico D.F. » (en référence au Distrito Federal). Cette expression et ses déclinaisons (« México D.F. », « Mexico, D.F. » « Mexico DF ») devrait être remplacées par Mexico sur le wikipédia francophone.
Smeet666 (d) 5 décembre 2007 à 16:54 (CET)

D'après ces 36 résultats google, le phénomène est trop rare pour en faire une regex, surtout que c'est parfois des coordonnées ou adresse. Le mieux est de lancer la correction à la main, et d'ignorer manuellement les cas non-appropriés. -- Chico (blabla) 8 décembre 2007 à 18:05 (CET)

[modifier] Scinder la page ?

La page Wikipédia:AutoWikiBrowser/Typos prend un temps fou à charger. Est-ce mon ordinateur qui est trop lent (malgré une connexion Internet à haute vitesse) ou le contenu de la page qui est trop volumineux ? Je me demande s'il ne serait pas temps de la scinder, de même d'ailleurs que la page de discussion ? Qu'en pensez-vous ? Et qui saurait faire cela intelligemment ? — Perfectionniste (d) 6 décembre 2007 à 17:50 (CET)

Elle prend en effet un certain temps à charger, surtout si elle n'est pas en cache dans le navigateur, mais dans l'état actuel je ne pense pas que ce soit possible. Il faudrait en discuter avec les développeurs anglophones si vraiment ce problème devient trop important. -- Chico (blabla) 8 décembre 2007 à 18:00 (CET)
Pardonnez-moi, mais je ne comprends pas ce que les développeurs anglophones viennent faire là-dedans. Ne pourrait-on pas scinder la page « Wikipédia:AutoWikiBrowser/Typos » (d'ailleurs mal nommée, puisqu'elle ne comporte pas seulement des erreurs de typographie) comme on le fait pour n'importe quelle autre page de la Wikipédia francophone ? On pourrait par exemple avoir une page pour les conventions typographiques (comme les dates), la syntaxe Wiki et la toponymie, une autre page pour les mots de A à E, une autre encore pour les mots de F à J, etc. — Perfectionniste (d) 8 décembre 2007 à 19:01 (CET)
Non car le programme AutoWikiBrowser vient prendre ses corrections sur Wikipédia:AutoWikiBrowser/Typos et pas une autre page ou sous-page, ce que seuls les développeurs anglophones peuvent corriger pour le moment. -- Chico (blabla) 8 décembre 2007 à 19:11 (CET)
Là, c'est clair. Je comprends. Merci bien — Perfectionniste (d) 8 décembre 2007 à 19:22 (CET)

[modifier] oeuvre / œuvre

Est-il possible de remplacer toutes les occurences d'« oeuvre » par « œuvre » (resp. « Oeuvre » par « Œuvre ») sans toucher à certaines infobox qui ont judicieusement choisi un paramètre « oeuvre » ? Éclusette (d) 6 janvier 2008 à 18:40 (CET)

Peut-être serait-il plus simple de procéder comme suit : remplacer d'abord comme d'habitude toutes les occurrences de « oeuvre » par « œuvre » ; tout de suite après, à l'aide de la règle ci-dessous, rétablir la graphie sans ligature dans tous les cas où le mot « œuvre » est précédé d'une barre verticale.
<Typo word="| oeuvre = " find="(\| ?)œuvre" replace="$1oeuvre" />
Perfectionniste (d) 7 janvier 2008 à 19:17 (CET)
Merci pour ta réponse. Je viens de m'apercevoir que la première opération est déjà codée (pourtant, y'a encore du boulot !) Éclusette (d) 9 janvier 2008 à 21:54 (CET)

[modifier] cédille devant e et i

la règle ç(e|i) → c$1 est elle trop "large" pour y être intégré ? Crochet.david (d) 15 janvier 2008 à 18:04 (CET)

C'est pour corriger des fautes comme celle-çi ? -- Chico (blabla) 15 janvier 2008 à 18:46 (CET)
La règle proposée est-elle vraiment nécessaire ? J'ai effectué une petite recherche dans Wikipédia avec Google : les critères « +çe site:fr.wikipedia.org » et « +çi site:fr.wikipedia.org » ont donné respectivement 46 et 150 occurrences, et presque toujours dans des pages de discussion. Par ailleurs, les cas rencontrés dans les articles encyclopédiques étaient parfois employés sciemment pour noter par exemple des langues étrangères. — Perfectionniste (d) 15 janvier 2008 à 19:07 (CET)
Je ne résonne pas seulement sur wikipédia, car j'utilise le script en le faisant tourner sur un autre projet, or, c'est une faute qui arrive relativement souvent dans la création de page ou ajout de texte. Et si on se dit qu'une règle ne doit exister que s'il y a un paquet de correction à apporter, il y aurait beaucoup de règle inutile. ce que je voulais savoir, c'est les dommages collatéraux qui risquerais d'arriver.Crochet.david (d) 20 janvier 2008 à 10:11 (CET)
Pour ma part, je ne vois pas d'autre problème que les exemples de vieux français, comme « fay çe que vouldras » ou de prononciation des langues étrangères, comme « stin ar'çi 'itan o 'loɣos » et « ひ hi çi h aspiré », qui doivent être somme toute très rares. — Perfectionniste (d) 20 janvier 2008 à 13:56 (CET)

[modifier] émission → émissioné

Une règle veut changer « émission » en « émissioné ». J'avais poser une doute sur la règle démissionner, mais je ne voit pas quoi voudrait rajouter à chaque fois le « é » à la fin. Crochet.david (d) 20 janvier 2008 à 11:47 (CET)

Erreur trouvé dans la règle « émission » et « Émission ». Crochet.david (d) 20 janvier 2008 à 11:50 (CET)
L'auteur de la règle « émission » avait simplement oublié d'indiquer que le premier groupe ne devait pas être copié. Comme suit, la règle est correcte :
<Typo word="émission" find="\b(?:e|é)mm?i(?:c|ss?)ion(s?)\b" replace="émission$1" />
Perfectionniste (d) 20 janvier 2008 à 13:06 (CET)

[modifier] appellation -> ppellation$2 ?

Bonjour, le mot appellation est remplacé par ppellation$2. Je ne sais pas corriger l'expression régulière... Est-ce que quelqu'un pourrait se charger de la correction de cette annomalie ? --Shawn (d) 29 janvier 2008 à 16:17 (CET)

C'est fait. — Perfectionniste (d) 29 janvier 2008 à 16:32 (CET)
Merci :-) --Shawn (d) 29 janvier 2008 à 16:44 (CET)

[modifier] Référence et <references/>

On a supprimé la règle « référence » parce qu'elle modifiait indûment le code <references/> utilisé pour les notes en bas de page (voir diff). J'ai pensé que l'on pourrait éviter de supprimer la règle en la modifiant comme suit :

<Typo word="référence" find="\b(r|R)eference(\b|s[^/][^/])" replace="$1éférence$2" />

Sous cette forme, la règle laisse intacts aussi bien <references /> (avec une espace devant la barre oblique) que <references/>. La règle avait été créée à l'origine pour corriger une faute fréquente dans les textes traduits de l'anglais (voir diff). — Perfectionniste (d) 30 janvier 2008 à 17:07 (CET)

D'après cette recherche google, je pense qu'il y a beaucoup trop de risque de faux-positifs hélas. -- Chico (blabla) 30 janvier 2008 à 22:43 (CET)
Je n'avais pas songé à effectuer cette vérification. Je supprime donc la règle que j'avais réintroduite dans la liste. — Perfectionniste (d) 30 janvier 2008 à 22:56 (CET)

[modifier] demande un peu spéciale

Je recherche le code regex pour effectuer la modification suivante :
[http://''aa''.wikiversity.org/wiki/''bb cc dd''] → [[:''aa'':''bb''|''cc dd'']]
aa serait la langue du wiki concerné, bb la page du wiki et cc dd le texte alternatif affiché]. Ce ne sera que pour le faire tourner de façon semi automatique avec un robots puisque toutes le modifications seront vérifiés afin de ne pas toucher au lien contenant des &oldid et autre variable de ce genre.
Crochet.david (d) 26 mars 2008 à 16:42 (CET)

La règle suivante devrait faire l'affaire :
<find="\[http://(..).wikiversity.org/wiki/(\S+)\s(.+)\]" replace="[[:$1:$2|$3]]" />
Exemple : [http://fr.wikiversity.org/wiki/Alphabet_phonétique_international alphabet phonétique] → [[:fr:Alphabet_phonétique_international|alphabet phonétique]]
Perfectionniste (d) 27 mars 2008 à 13:44 (CET)


Ok, j'arrivais à la même chose mais avec un code plus gros, mais j'obtiens la même erreur, c'est-à-dire que le robot ne s'arrête pas au premier ] rencontré mais au dernier de la ligne ( Si la ligne contiens plusieurs wikilien, il rajoutera un ] au dernier ] alors que le lien à modifier est peut être le premier :

- :Message répondu [http://fr.wikiversity.org/wiki/Discussion_Utilisateur:Warman06#Supprimer_une_page ici] [[Utilisateur:Xavier|Xavier]]<small><sup>[[Discussion Utilisateur:Xavier| discuss]]</sup></small> 22 juillet 2007 à 09:49 (UTC)
+ :Message répondu [[:fr:Discussion_Utilisateur:Warman06#Supprimer_une_page|ici] [[Utilisateur:Xavier|Xavier]]<small><sup>[[Discussion Utilisateur:Xavier| discuss]]]</sup></small> 22 juillet 2007 à 09:49 (UTC)

Crochet.david (d) 27 mars 2008 à 18:46 (CET)

La formulation suivante remédie au problème :
<find="\[http://(..).wikiversity.org/wiki/(\S+)\s([^\]]+)\]" replace="[[:$1:$2|$3]]" />
Perfectionniste (d) 27 mars 2008 à 21:01 (CET)


Parfait, le seul faux positif c'est quand il n'y a pas de texte alternatif, mais cela permet de wikifier très simplement les liens. Crochet.david (d) 27 mars 2008 à 22:04 (CET)

On peut encore améliorer les choses en modifiant la règle précédente de façon à ce qu'elle ignore les liens sans texte alternatif :
<find="\[http://(..).wikiversity.org/wiki/([^\s\]]+)\s([^\]]+)\]" replace="[[:$1:$2|$3]]" />
Il suffira d'utiliser ensuite une seconde règle pour rechercher ces liens :
<find="\[http://(..).wikiversity.org/wiki/(\S+)\s?\]" replace="[[:$1:$2]]" />
Perfectionniste (d) 28 mars 2008 à 13:58 (CET)

[modifier] Caractère "→"

Bonjour,
Voici une nouvelle règle que j'ai tenté d'insérer :

[faux -- voir ci-dessous]
<Typo word=" → " find="\b( -> |->)\b" replace="$1" />

Rectification (ça ce sera déjà mieux) :

<Typo word="→" find="\b( -> |->)\b" replace="→" />

J'en étais tout fier, mais une partie se met en vert (commentaire ?) quand je mets le code dans la page. Peut-être que ce n'est pas grave, puisque la coloration syntaxique utilisée dans cette page est dédiée au XML. Mais quelqu'un pourrait-il vérifier cette ligne de code, et :

  • Me féliciter si elle est juste,
  • La corriger si elle est fausse (et me féliciter un peu quand même),

... ? Sourire Merci d'avance. ¤ -- Niavlys (CinéNiavlys) -- ¤ [αβγ], le 1 avril 2008 à 19:03 (CEST)

J'imagine que c'est à cause du premier ">" : le logiciel croit que la balise est fermée. Il faudrait remplacer par un code, mais lequel ? ¤ -- Niavlys (CinéNiavlys) -- ¤ [αβγ], le 1 avril 2008 à 19:06 (CEST)

Même si ça n'a pas d'incidence sur le problème, j'ai rectifié la règle ci-dessus. Je viens de comprendre le système : avant, elle n'aurait eu aucune influence sur le texte... ¤ -- Niavlys (CinéNiavlys) -- ¤ [αβγ], le 1 avril 2008 à 19:24 (CEST)

Vous avez tout à fait raison, il est possible de résoudre le problème de la coloration syntaxique en remplaçant le caractère > par le code \x3E ou \076, 3E et 076 correspondant respectivement aux valeurs hexadécimale et octale du code ASCII de > :
<Typo word="→" find="\b( -\x3E |-\x3E)\b" replace="→" />
Perfectionniste (d) 4 avril 2008 à 23:38 (CEST)
En ce qui concerne la règle en tant que telle, j'opterais plutôt pour la forme suivante :
<Typo word="→" find="[-—–]\x3E" replace="→" />
qui cible trois façons différentes de simuler une flèche droite (avec -, — ou –), qu'il y ait ou non des espaces avant et après la flèche.
Perfectionniste (d) 5 avril 2008 à 01:04 (CEST)
Très bien tout ça, parfait. Puisque votre proposition inclut même le cas des espaces, c'est super, je vais donc rajouter cette règle. Merci ! Sourire ¤ -- Niavlys (CinéNiavlys) -- ¤ [αβγ] (+), le 5 avril 2008 à 02:03 (CEST)
Cette règle modifie la balise fermante HTML commentaire « --> » en « -→ », donc je sais pas si elle est souhaitable tel qu'elle. Crochet.david (d) 12 avril 2008 à 11:33 (CEST)
Tiens, c'est vrai, ça. Mais je ne suis pas sûr d'avoir compris le fonctionnement de AutoWikiBrowser ; si c'est un éditeur "semi-automatisé", ça veut dire que les modifications ne se font pas automatiquement, qu'il faut le valider ? Si oui, alors le problème est moindre que je l'imaginais. Mais peut-être qu'il faut supprimer cette règle quand même. À vous de voir, moi ça m'est égal. ¤ -- Niavlys (CinéNiavlys) -- ¤ [δжϟ] (+), le 12 avril 2008 à 12:20 (CEST)
J'utilise les script d'AWB que je retranscrit pour l'utiliser avec Pywikipediabot sous Python, donc je valide manuellement les modifications que Python me propose automatiquement, et lorsque je suis obligé de refuser toutes demandes d'origine d'une seul règle, c'est que la règle pose (ou risque de) un problème. Donc reste à voir avec ceux qui utilise AWB s'il on le même problème.Crochet.david (d) 12 avril 2008 à 13:29 (CEST)
Il est possible de remédier au problème précédent en ciblant uniquement les flèches précédées d'un caractère autre qu'un trait-d'union :
<Typo word="→" find="([^-])[-—–]\x3E" replace="$1→" />
Perfectionniste (d) 12 avril 2008 à 19:23 (CEST)