Contenu | Rechercher | Menus

Annonce

DVD, clés USB et t-shirts Ubuntu-fr disponibles sur la boutique En Vente Libre

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 29/10/2021, à 21:02

moths-art

projet wiki-corrector

J'ai commencé à me lancer sur un projet un peu fou : un bot de QA pour de la doc.

L'idée c'est :

1. de récupérer les pages d'un wiki : iici, en l’occurrence, je commence par la doc d'Ubuntu-fr.
2. de vérifier tout un tas de choses comme : l'orthographe, la grammaire (via grammalect)
3. de remonter les anomalies de façon pertinentes

J'ai déjà fait l'étape 1 ici : https://github.com/mothsART/wiki-corrector (script recover)

Qu'en pensez-vous ?

Hors ligne

#2 Le 30/10/2021, à 13:17

moths-art

Re : projet wiki-corrector

Bon, j'ai lancé le script de récup pendant la nuit et 7h pour  ~200Mo de html. (et j'ai la fibre)
Donc, bon : à utiliser avec parcimonie.

Hors ligne

#3 Le 03/11/2021, à 12:11

moths-art

Re : projet wiki-corrector

Afin d'éviter cette récupération (longue), j'ai mis les sources directement dans le dépôt git.
Désormais, si les données existent, il ne va chercher que le différentiel entre la dernière date de récupération et la date du jour.

Hors ligne

#4 Le 08/11/2021, à 12:09

moths-art

Re : projet wiki-corrector

court état des lieux :

1. amélioration du script de récupération : quand le script est arrêté avant d'être fini (je rappel que c'est 7h donc pas improbable), en le relançant, il occulte les fichiers déjà téléchargé et récupère le diff, si besoin, à la fin.
C'est pas parfait mais suffisamment pragmatique : ça évite bcp de download inutiles.

2. On ne récupère plus les fichiers html mais le contenu au format dokuwiki.
C'est bien plus simple à parser et appliquer grammalect.

3. le script "check" applique désormais grammalect et crée des fichiers avec une liste d'anomalies en concordance avec les fichiers dokuwiki (même hierarchie et nom de fichier).
En somme, il est déjà possible d'avoir des remontés.
Pour la pertinence, c'est encore difficile à anticiper : il va  falloir regarder fichier par fichier.

A venir :

Je suis en train de relancer le script de récupération des sources et je passerais grammalect sur l'ensemble.
Ça promet d'être long.
Une fois fait, je mettrais les résultats sur le dépôt git afin d'éviter cette dur labeur à tous.

Enfin, je prendrais quelques fichiers comme cas d'école : ça me permettra de juger de la pertinence et pourquoi pas de proposer mes premiers correctifs sur le wiki lié à cet outil !!!

Dernière modification par moths-art (Le 08/11/2021, à 12:19)

Hors ligne

#5 Le 11/11/2021, à 11:34

moths-art

Re : projet wiki-corrector

Voilà, c'est fait.

Pour l'instant, on est noyé dans les faux positifs (donc il reste du travail de fourmi) mais les 2 scripts fonctionnent.
Trop tôt pour dégager des vrais remontés sur le wiki : pas le choix, faut élaguer.

Hors ligne

#6 Le 14/11/2021, à 14:30

moths-art

Re : projet wiki-corrector

1er passe avec un bon élagage.

Hors ligne

#7 Le 15/11/2021, à 16:53

Hizoka

Re : projet wiki-corrector

Salut,

sympa comme projet !
Ça fera du bien à la doc...

Hors ligne

#8 Le 15/11/2021, à 17:40

moths-art

Re : projet wiki-corrector

Merci pour les encouragements ! (toujours appréciable de savoir qu'on bosse pas dans le vent)

Je pensais pas être submergé par tant de pollution : je vais faire encore une paire de passes de correction puis je vais rapidement embrayer sur un outil pour identifier les faux positifs par page... parce que je pourrais pas relire la doc au complet : je risque d'y perdre ma santé, lol.

Mais avant tout, je pense que je vais créer un check sur les URLs => signaler les urls internes et externes cassés, ça peut être un truc fun à dev et avec un retour sur investissement plus rapide.

Hors ligne

#9 Le 15/11/2021, à 20:48

Amiralgaby

Re : projet wiki-corrector

Salut,

Depuis le début je suis ton projet, il est intéressant.

Après de mon côté, j'ai vu que des noms propres et sigles étaient faux positifs (j'imagine que tu remarqué).

D'ailleurs, pour tout ceux voulant le jeux de données entier des fichiers dokuwiki, il est dans le github du projet (Ça c'est cool et à mettre en avant je pense).


Vive la communauté du Libre !!!

Hors ligne

#10 Le 15/11/2021, à 23:00

moths-art

Re : projet wiki-corrector

Amiralgaby a écrit :

Après de mon côté, j'ai vu que des noms propres et sigles étaient faux positifs (j'imagine que tu remarqué).

En effet mais c'est bien de l'entendre de la voix de quelqu'un d'autre : c'est bien, tu suis !!
J'essai de les faire disparaître de 3 manières :
- 1 dictionnaire de mot autorisé : je le complète au fur et à mesure.
- des règles pour éviter d'avoir des signalement sur des instructions propre au langage de dokuwiki (par exemple, on ne surveille pas tout ce qui est entre <code>...</code>)
- des dérogations par page (à venir)

Comme dis, ça peut être très long car ça nécessite beaucoup d'actions peut valorisantes et surtout ne pas faire des diffs trop gros pour éviter de perdre un VRAI signalement.

Amiralgaby a écrit :

D'ailleurs, pour tout ceux voulant le jeux de données entier des fichiers dokuwiki, il est dans le github du projet (Ça c'est cool et à mettre en avant je pense).

Exact, merci !!
Je suis tellement dans le guidon que j'en oubli l'essentiel :

Il y a donc un script (./recover) qui récupère les pages au format dokuwiki que je met régulièrement à jour https://github.com/mothsART/wiki-correc … main/cache
Et un autre (./check) qui va lui analyser l'ensemble de ces pages et en restituer des fichiers (avec la même hierarchie) avec des signalements https://github.com/mothsART/wiki-correc … ain/result

Si je rajoute par exemple 1 mot (ex: ubuntu) dans mon dictionnaire et que je fais un commit du résultat, on verra dans le différentiel toutes les pages ou le signalement pour ce mot (désormais connu) à été supprimé.

Dernière modification par moths-art (Le 15/11/2021, à 23:01)

Hors ligne

#11 Le 23/11/2021, à 20:48

moths-art

Re : projet wiki-corrector

Le checker sur les Urls est sur le point d'aboutir mais c'est très long à lancer (il faudrait sans doute que je réfléchisse à faire des tâches en parallèle pour accélérer les choses).

Mais, j'ai trouvé d'autres anomalies lié plus aux balises dokuwiki. En effet, il est possible de créer des balises <note> sans bien les fermer ou inversement de laisser traîner des balises fermantes </note>

J'ai décidé d'en faire un nouveau checker et il m'a remonté des anomalies avec très peu d'efforts : https://github.com/mothsART/wiki-correc … iki_result
Pour le coup, je vais pouvoir corriger ces entrées !!

Hors ligne

#12 Le 01/12/2021, à 22:52

moths-art

Re : projet wiki-corrector

J'avance toujours (doucement mais surement).

J'essai de détecter de nouvelles anomalies mais je ne suis pas toujours certains si c'est pertinent.
Est-ce qu'il y a un endroit ou l'on peut poser des questions à ce sujet ?

Ex:

1. Pour moi, ici les liens vers de la doc du site (console, nano et vim) sont cassés car ils pointent ver /tutoriel/console en lieu et place de /console
Il serait sans doute bien de détecter automatiquement ce type de liens morts facilent à corriger. Qu'en pensez-vous ?
2. je vois des balises [en], je sais pas trop à quoi ça sert

Hors ligne

#13 Le 01/12/2021, à 23:57

Hizoka

Re : projet wiki-corrector

Detecter les liens morts serait une bonne idée en effet.

Les balises [en] c'est pas pour indiquer des liens vers des pages en anglais ?

Hors ligne

#14 Le 02/12/2021, à 08:21

moths-art

Re : projet wiki-corrector

Hizoka a écrit :

Detecter les liens morts serait une bonne idée en effet.

Je distingue volontairement les liens externes à ceux internes (la mécanique est pas du tout la même).
Pour les liens externes, c'est en cours mais ça met bien 3 jours non stop (oui, t'as bien lu) pour tout examiner (en vrai, j'en sais rien, je suis jamais arrivé au bout, à chaque fois un bug après genre 2 jours).
Je vais attendre la 1re passe mais il faudrait que je réfléchisse à des lancements asynchrones pour gagner du temps.

Pour ce qui est des liens internes : je pense que c'est bien plus simple et rapide : ma crainte c'est plus sur le volume de potentiel faux-positifs mais ça, seul l'expérimentation m'en dira plus.

Enfin, pour les balises [en], dans des pages comme https://doc.ubuntu-fr.org/tutoriel/groff_tuto, c'est écrit en clair : du coup, je sais pas si  c'est "volontaire" ? une balise mal formé ?

Hors ligne

#15 Le 02/12/2021, à 09:01

Amiralgaby

Re : projet wiki-corrector

Bonjour,
En réalité, il n'y a pas de balise prévu pour signifier qu'un lien est en anglais.

Les [en] servent à montrer que la page sera en anglais. C'est un choix de l'auteur d'avoir choisi ce format.
C'est une habitude de mettre 'en' entre caractère non alphabétique pour montrer que ce n'est pas une coquille.

Personnellement j'utilise la forme

**(en)**

Mais bon, ça reste concevable dans tout les cas tongue

Dernière modification par Amiralgaby (Le 02/12/2021, à 09:03)


Vive la communauté du Libre !!!

Hors ligne

#16 Le 03/12/2021, à 12:27

moths-art

Re : projet wiki-corrector

ok, j'en déduis simplement que je n'ai pas de vérif à faire du genre. Merci @Amiralgaby !

Hors ligne