#1 Le 29/10/2021, à 21:02
- moths-art
projet wiki-corrector
J'ai commencé à me lancer sur un projet un peu fou : un bot de QA pour de la doc.
L'idée c'est :
1. de récupérer les pages d'un wiki : iici, en l’occurrence, je commence par la doc d'Ubuntu-fr.
2. de vérifier tout un tas de choses comme : l'orthographe, la grammaire (via grammalect)
3. de remonter les anomalies de façon pertinentes
J'ai déjà fait l'étape 1 ici : https://github.com/mothsART/wiki-corrector (script recover)
Qu'en pensez-vous ?
Site : https://mothsart.github.io Dépôts Git : https://github.com/mothsart PPAs : https://launchpad.net/~jerem-ferry
Hors ligne
#2 Le 30/10/2021, à 13:17
- moths-art
Re : projet wiki-corrector
Bon, j'ai lancé le script de récup pendant la nuit et 7h pour ~200Mo de html. (et j'ai la fibre)
Donc, bon : à utiliser avec parcimonie.
Site : https://mothsart.github.io Dépôts Git : https://github.com/mothsart PPAs : https://launchpad.net/~jerem-ferry
Hors ligne
#3 Le 03/11/2021, à 12:11
- moths-art
Re : projet wiki-corrector
Afin d'éviter cette récupération (longue), j'ai mis les sources directement dans le dépôt git.
Désormais, si les données existent, il ne va chercher que le différentiel entre la dernière date de récupération et la date du jour.
Site : https://mothsart.github.io Dépôts Git : https://github.com/mothsart PPAs : https://launchpad.net/~jerem-ferry
Hors ligne
#4 Le 08/11/2021, à 12:09
- moths-art
Re : projet wiki-corrector
court état des lieux :
1. amélioration du script de récupération : quand le script est arrêté avant d'être fini (je rappel que c'est 7h donc pas improbable), en le relançant, il occulte les fichiers déjà téléchargé et récupère le diff, si besoin, à la fin.
C'est pas parfait mais suffisamment pragmatique : ça évite bcp de download inutiles.
2. On ne récupère plus les fichiers html mais le contenu au format dokuwiki.
C'est bien plus simple à parser et appliquer grammalect.
3. le script "check" applique désormais grammalect et crée des fichiers avec une liste d'anomalies en concordance avec les fichiers dokuwiki (même hierarchie et nom de fichier).
En somme, il est déjà possible d'avoir des remontés.
Pour la pertinence, c'est encore difficile à anticiper : il va falloir regarder fichier par fichier.
A venir :
Je suis en train de relancer le script de récupération des sources et je passerais grammalect sur l'ensemble.
Ça promet d'être long.
Une fois fait, je mettrais les résultats sur le dépôt git afin d'éviter cette dur labeur à tous.
Enfin, je prendrais quelques fichiers comme cas d'école : ça me permettra de juger de la pertinence et pourquoi pas de proposer mes premiers correctifs sur le wiki lié à cet outil !!!
Dernière modification par moths-art (Le 08/11/2021, à 12:19)
Site : https://mothsart.github.io Dépôts Git : https://github.com/mothsart PPAs : https://launchpad.net/~jerem-ferry
Hors ligne
#5 Le 11/11/2021, à 11:34
- moths-art
Re : projet wiki-corrector
Voilà, c'est fait.
Pour l'instant, on est noyé dans les faux positifs (donc il reste du travail de fourmi) mais les 2 scripts fonctionnent.
Trop tôt pour dégager des vrais remontés sur le wiki : pas le choix, faut élaguer.
Site : https://mothsart.github.io Dépôts Git : https://github.com/mothsart PPAs : https://launchpad.net/~jerem-ferry
Hors ligne
#6 Le 14/11/2021, à 14:30
- moths-art
Re : projet wiki-corrector
1er passe avec un bon élagage.
Site : https://mothsart.github.io Dépôts Git : https://github.com/mothsart PPAs : https://launchpad.net/~jerem-ferry
Hors ligne
#7 Le 15/11/2021, à 16:53
- Hizoka
Re : projet wiki-corrector
Salut,
sympa comme projet !
Ça fera du bien à la doc...
KDE Neon 64bits
Tous mes softs (MKVExtractorQt, HizoSelect, HizoProgress, Qtesseract, Keneric, Services menus...) sont sur github
Hors ligne
#8 Le 15/11/2021, à 17:40
- moths-art
Re : projet wiki-corrector
Merci pour les encouragements ! (toujours appréciable de savoir qu'on bosse pas dans le vent)
Je pensais pas être submergé par tant de pollution : je vais faire encore une paire de passes de correction puis je vais rapidement embrayer sur un outil pour identifier les faux positifs par page... parce que je pourrais pas relire la doc au complet : je risque d'y perdre ma santé, lol.
Mais avant tout, je pense que je vais créer un check sur les URLs => signaler les urls internes et externes cassés, ça peut être un truc fun à dev et avec un retour sur investissement plus rapide.
Site : https://mothsart.github.io Dépôts Git : https://github.com/mothsart PPAs : https://launchpad.net/~jerem-ferry
Hors ligne
#9 Le 15/11/2021, à 20:48
- Amiralgaby
Re : projet wiki-corrector
Salut,
Depuis le début je suis ton projet, il est intéressant.
Après de mon côté, j'ai vu que des noms propres et sigles étaient faux positifs (j'imagine que tu remarqué).
D'ailleurs, pour tout ceux voulant le jeux de données entier des fichiers dokuwiki, il est dans le github du projet (Ça c'est cool et à mettre en avant je pense).
Vive la communauté du Libre !!!
Hors ligne
#10 Le 15/11/2021, à 23:00
- moths-art
Re : projet wiki-corrector
Après de mon côté, j'ai vu que des noms propres et sigles étaient faux positifs (j'imagine que tu remarqué).
En effet mais c'est bien de l'entendre de la voix de quelqu'un d'autre : c'est bien, tu suis !!
J'essai de les faire disparaître de 3 manières :
- 1 dictionnaire de mot autorisé : je le complète au fur et à mesure.
- des règles pour éviter d'avoir des signalement sur des instructions propre au langage de dokuwiki (par exemple, on ne surveille pas tout ce qui est entre <code>...</code>)
- des dérogations par page (à venir)
Comme dis, ça peut être très long car ça nécessite beaucoup d'actions peut valorisantes et surtout ne pas faire des diffs trop gros pour éviter de perdre un VRAI signalement.
D'ailleurs, pour tout ceux voulant le jeux de données entier des fichiers dokuwiki, il est dans le github du projet (Ça c'est cool et à mettre en avant je pense).
Exact, merci !!
Je suis tellement dans le guidon que j'en oubli l'essentiel :
Il y a donc un script (./recover) qui récupère les pages au format dokuwiki que je met régulièrement à jour https://github.com/mothsART/wiki-correc … main/cache
Et un autre (./check) qui va lui analyser l'ensemble de ces pages et en restituer des fichiers (avec la même hierarchie) avec des signalements https://github.com/mothsART/wiki-correc … ain/result
Si je rajoute par exemple 1 mot (ex: ubuntu) dans mon dictionnaire et que je fais un commit du résultat, on verra dans le différentiel toutes les pages ou le signalement pour ce mot (désormais connu) à été supprimé.
Dernière modification par moths-art (Le 15/11/2021, à 23:01)
Site : https://mothsart.github.io Dépôts Git : https://github.com/mothsart PPAs : https://launchpad.net/~jerem-ferry
Hors ligne
#11 Le 23/11/2021, à 20:48
- moths-art
Re : projet wiki-corrector
Le checker sur les Urls est sur le point d'aboutir mais c'est très long à lancer (il faudrait sans doute que je réfléchisse à faire des tâches en parallèle pour accélérer les choses).
Mais, j'ai trouvé d'autres anomalies lié plus aux balises dokuwiki. En effet, il est possible de créer des balises <note> sans bien les fermer ou inversement de laisser traîner des balises fermantes </note>
J'ai décidé d'en faire un nouveau checker et il m'a remonté des anomalies avec très peu d'efforts : https://github.com/mothsART/wiki-correc … iki_result
Pour le coup, je vais pouvoir corriger ces entrées !!
Site : https://mothsart.github.io Dépôts Git : https://github.com/mothsart PPAs : https://launchpad.net/~jerem-ferry
Hors ligne
#12 Le 01/12/2021, à 22:52
- moths-art
Re : projet wiki-corrector
J'avance toujours (doucement mais surement).
J'essai de détecter de nouvelles anomalies mais je ne suis pas toujours certains si c'est pertinent.
Est-ce qu'il y a un endroit ou l'on peut poser des questions à ce sujet ?
Ex:
1. Pour moi, ici les liens vers de la doc du site (console, nano et vim) sont cassés car ils pointent ver /tutoriel/console en lieu et place de /console
Il serait sans doute bien de détecter automatiquement ce type de liens morts facilent à corriger. Qu'en pensez-vous ?
2. je vois des balises [en], je sais pas trop à quoi ça sert
Site : https://mothsart.github.io Dépôts Git : https://github.com/mothsart PPAs : https://launchpad.net/~jerem-ferry
Hors ligne
#13 Le 01/12/2021, à 23:57
- Hizoka
Re : projet wiki-corrector
Detecter les liens morts serait une bonne idée en effet.
Les balises [en] c'est pas pour indiquer des liens vers des pages en anglais ?
KDE Neon 64bits
Tous mes softs (MKVExtractorQt, HizoSelect, HizoProgress, Qtesseract, Keneric, Services menus...) sont sur github
Hors ligne
#14 Le 02/12/2021, à 08:21
- moths-art
Re : projet wiki-corrector
Detecter les liens morts serait une bonne idée en effet.
Je distingue volontairement les liens externes à ceux internes (la mécanique est pas du tout la même).
Pour les liens externes, c'est en cours mais ça met bien 3 jours non stop (oui, t'as bien lu) pour tout examiner (en vrai, j'en sais rien, je suis jamais arrivé au bout, à chaque fois un bug après genre 2 jours).
Je vais attendre la 1re passe mais il faudrait que je réfléchisse à des lancements asynchrones pour gagner du temps.
Pour ce qui est des liens internes : je pense que c'est bien plus simple et rapide : ma crainte c'est plus sur le volume de potentiel faux-positifs mais ça, seul l'expérimentation m'en dira plus.
Enfin, pour les balises [en], dans des pages comme https://doc.ubuntu-fr.org/tutoriel/groff_tuto, c'est écrit en clair : du coup, je sais pas si c'est "volontaire" ? une balise mal formé ?
Site : https://mothsart.github.io Dépôts Git : https://github.com/mothsart PPAs : https://launchpad.net/~jerem-ferry
Hors ligne
#15 Le 02/12/2021, à 09:01
- Amiralgaby
Re : projet wiki-corrector
Bonjour,
En réalité, il n'y a pas de balise prévu pour signifier qu'un lien est en anglais.
Les [en] servent à montrer que la page sera en anglais. C'est un choix de l'auteur d'avoir choisi ce format.
C'est une habitude de mettre 'en' entre caractère non alphabétique pour montrer que ce n'est pas une coquille.
Personnellement j'utilise la forme
**(en)**
Mais bon, ça reste concevable dans tout les cas
Dernière modification par Amiralgaby (Le 02/12/2021, à 09:03)
Vive la communauté du Libre !!!
Hors ligne
#16 Le 03/12/2021, à 12:27
- moths-art
Re : projet wiki-corrector
ok, j'en déduis simplement que je n'ai pas de vérif à faire du genre. Merci @Amiralgaby !
Site : https://mothsart.github.io Dépôts Git : https://github.com/mothsart PPAs : https://launchpad.net/~jerem-ferry
Hors ligne
#17 Le 16/12/2021, à 14:17
- moths-art
Re : projet wiki-corrector
Petit up :
J'ai fini par paralléliser les appels des urls et du coup, le script est allé au bout ! (26h quand même mais ça reste raisonnable)
Le résultat est là : https://github.com/mothsART/wiki-correc … url_result
Bref, ça avance.
Site : https://mothsart.github.io Dépôts Git : https://github.com/mothsart PPAs : https://launchpad.net/~jerem-ferry
Hors ligne
#18 Le 16/12/2021, à 16:34
- Amiralgaby
Re : projet wiki-corrector
Bonjour,
Juste incroyable le nombre d'information que l'on peut avoir avec toutes ces données.
Si on veut une doc correcte, il y a du boulot. surtout avec ce que tu ramènes de cette chasse
Merci encore
PS : j'ai vu des faux positifs par exemple dans les résultats de libreoffice. Les liens testés ont une parenthèse à la fin (qui forcément est invalide).
Pourquoi me diras-tu ? parce que certains liens sont des annotations de fin de page dans la doc.
Dernière modification par Amiralgaby (Le 16/12/2021, à 16:45)
Vive la communauté du Libre !!!
Hors ligne
#19 Le 16/12/2021, à 16:46
- moths-art
Re : projet wiki-corrector
Merci à toi de t'y intéresser et de participer (coder c'est une chose mais ce servir des données remontés s'en est une autre) !
J'ai vu que tu t'en ai servi pour la page de https://doc.ubuntu-fr.org/dia, trop bien !
J'ai édité https://doc.ubuntu-fr.org/0ad et https://doc.ubuntu-fr.org/wmfs pour ma part.
Site : https://mothsart.github.io Dépôts Git : https://github.com/mothsart PPAs : https://launchpad.net/~jerem-ferry
Hors ligne
#20 Le 16/12/2021, à 16:51
- moths-art
Re : projet wiki-corrector
Ok, pour l'ex de libreoffice : je vais voir pour corriger. (mais ça va obligé à relancer le script au complet, snif)
Site : https://mothsart.github.io Dépôts Git : https://github.com/mothsart PPAs : https://launchpad.net/~jerem-ferry
Hors ligne
#21 Le 16/12/2021, à 17:20
- moths-art
Re : projet wiki-corrector
@Amiralgaby : correctif en place. j'ai juste lancé pour libreoffice pour le moment et ça à l'air de faire le taf https://github.com/mothsART/wiki-correc … office.txt
merci de ton aide, c'est précieux !!
Dernière modification par moths-art (Le 16/12/2021, à 17:21)
Site : https://mothsart.github.io Dépôts Git : https://github.com/mothsart PPAs : https://launchpad.net/~jerem-ferry
Hors ligne
#22 Le 16/12/2021, à 17:28
- Amiralgaby
Re : projet wiki-corrector
De rien @moths-art
Vive la communauté du Libre !!!
Hors ligne
#23 Le 18/12/2021, à 14:26
- moths-art
Re : projet wiki-corrector
J'ai refait une passe sur les Url avec le correctif sur les liens avec parenthèses @Amiralgaby mais pas que :
- utilisation de HEAD au lieu de GET pour accélérer
- détection de liens qui sont redirigés sur la home (dans 99% des cas, c'est que le contenu n'existe plus)
- détection de liens redirigés vers un autre nom de domaine (potentiellement douteux)
- détection de lien HTTP redirigé sur du HTTPS : il faudrait que le lien HTTPS soit directement renseigné dans la doc (oui, là on risque d'en avoir une tripoté)
Site : https://mothsart.github.io Dépôts Git : https://github.com/mothsart PPAs : https://launchpad.net/~jerem-ferry
Hors ligne
#24 Le 18/12/2021, à 15:58
- Amiralgaby
Re : projet wiki-corrector
Bien reçu
oui, là on risque d'en avoir une tripoté
On pourrait presque se demander si un bot n'est pas une mauvaise idée... Perso je suis pour le changement HTTP -> HTTPS par un bot. Peut être trop ambitieux ?
Dernière modification par Amiralgaby (Le 18/12/2021, à 15:59)
Vive la communauté du Libre !!!
Hors ligne
#25 Le 18/12/2021, à 16:18
- Ayral
Re : projet wiki-corrector
Bonjour
Merci à vous tous qui travaillent sur le forum et la documentation. Je serais incapable de vous apporter la moindre aide, mais merci à vous (un modérateur du forum).
Pour mettre les retours de commande entre deux balises code, les explications sont là : https://forum.ubuntu-fr.org/viewtopic.php?id=1614731
Blog d'un retraité
Site de graphisme du fiston Loïc
Ubuntu 22.04 LTS sur un Thinkpad W540
En ligne