#1 Le 06/11/2012, à 09:13
- Mindiell
Quelle utilisation pour un bot informatique ?
Suite à cette discussion, j'ai commencé à programmer un petit script type webCrawler.
Imaginons maintenant un bot informatique capable de visiter l'Internet. A quoi pourrait-il servir ?
Pour le moment, j'ai ça en tête, n'hésitez pas à faire vos propositions :
Indexer Internet (comme Google le fait)
Trouver des sites potentiellement illégaux (et pouvoir les lister à la police : terrorisme, pédophiles, etc...)
Servir d'anti-spamBot (s'il trouve une adresse mail, il écrit à la personne pour la prévenir que des spamBots pourraient en profiter, avec le lien vers la page pour modification par l'utilisateur)
A vos idées !
HP :
Faire des statistiques sur les serveurs utilisés
Faire des statistiques sur les codes HTTP (404, 200, 304, etc...) retournés
Faire des statistiques sur les balises/attributs HTML utilisés
ArkSeth :
Signaler des liens morts sur un site pour un webmaster
Signaler des problèmes de normes sur un site pour un webmaster
Signaler des problèmes d'accessibilité sur un site pour un webmaster
ssdg :
detecter les repompages des uns et des autres. (les copiers/collers de texte)
alex2423 :
créer des flux rss sur les sites qui ne l'ont malheureusement pas proposé
Dernière modification par Mindiell (Le 07/11/2012, à 06:35)
Hors ligne
#2 Le 06/11/2012, à 10:46
- Elzen
Re : Quelle utilisation pour un bot informatique ?
Le concept d'anti-spambot est assez sympa
Après, ça dépend comment tu comptes le déployer ; ça peut par exemple servir à prévenir les webmasters intéressés en cas de lien mort sur leur site, de potentiels problème d'accessibilité ou de non-respect des normes…
Elzen : polisson, polémiste, polymathe ! (ex-ArkSeth)
Un script pour améliorer quelques trucs du forum.
La joie de t'avoir connu surpasse la peine de t'avoir perdu…
timezone[blocklist]
Hors ligne
#3 Le 06/11/2012, à 11:08
- ssdg
Re : Quelle utilisation pour un bot informatique ?
Compter les mots "castor" et "canard" et voir celui qui est le plus populaire.
Faire une grosse addition de tout les chiffres qu'il trouve. (des moyennes, des medianes, des...)
detecter les repompages des uns et des autres. (les copiers/collers de texte)
etc...
s'il n'y a pas de solution, c'est qu'il n'y a pas de problème... ou pas.
Hors ligne
#4 Le 06/11/2012, à 11:09
- Mindiell
Re : Quelle utilisation pour un bot informatique ?
Le concept d'anti-spambot est assez sympa
Oui, mais j'ai peur que ça finisse par spammer les gens
@ssdg : euh, je ne prends que les idées qui ont une utilité potentielle
=> Canard/Castor, utilise GoogleFight
=> Additionner des chiffres : euh... comment dire ?
Dernière modification par Mindiell (Le 06/11/2012, à 11:11)
Hors ligne
#5 Le 06/11/2012, à 12:19
- gnales
Re : Quelle utilisation pour un bot informatique ?
En profiter pour glanez des point sur le tdc ?
Hors ligne
#6 Le 06/11/2012, à 12:33
- Elzen
Re : Quelle utilisation pour un bot informatique ?
En profiter pour glanez des point sur le tdc ?
Il n'y a pas de points sur le TdC. Et sur le TdCT, si c'est de lui que tu parlais, c'est interdit
Oui, mais j'ai peur que ça finisse par spammer les gens
Il te faut une base derrière qui mémorise la page rencontrée, l'adresse mail, et le délai depuis lequel tu as spammé depuis la dernière fois
(En tout cas, si tu retiens le concept de surveillance des problèmes que j'évoquais ci-dessus, j'veux bien m'inscrire ^^)
Elzen : polisson, polémiste, polymathe ! (ex-ArkSeth)
Un script pour améliorer quelques trucs du forum.
La joie de t'avoir connu surpasse la peine de t'avoir perdu…
timezone[blocklist]
Hors ligne
#7 Le 06/11/2012, à 18:31
- Mindiell
Re : Quelle utilisation pour un bot informatique ?
J'aurais plutôt tendance à ne spammer qu'une seule fois par adresse et par page : à l'utilisateur de faire le boulot, je ne vais pas lui renvoyer de mail au risque de me faire passer pour un spammeur, non ?
Je retiens ton inscription
EDIT : après quelques recherches rapides, il semble que la surveillance de sites est déjà bien existante. Ca surveille tes liens morts. Bon, a priori, pour ce que j'ai trouvé, seul google te signale des liens d'autres sites qui pointent vers le tien en 404, ce qui peut être très pratique tout de même. C'est un truc comme ça que tu souhaiterais ? Ou plus au niveau des normes et de l'accessibilité ?
Dernière modification par Mindiell (Le 06/11/2012, à 18:53)
Hors ligne
#8 Le 06/11/2012, à 19:21
- Elzen
Re : Quelle utilisation pour un bot informatique ?
Plus niveau normes et accessibilité ; en général les liens morts de mon site, soit ce sont des articles que j'n'ai pas encore écrit et donc je le sais tout seul, soit c'est vers d'autres sites que le mien et j'n'y peut pas grand chose.
Et puis que ça existe déjà, c'est une chose ; qui le fait, c'en est une autre. Si c'est toi qui fournit le bot, ça m'intéresse, si c'est Google, moins ^^
Elzen : polisson, polémiste, polymathe ! (ex-ArkSeth)
Un script pour améliorer quelques trucs du forum.
La joie de t'avoir connu surpasse la peine de t'avoir perdu…
timezone[blocklist]
Hors ligne
#9 Le 06/11/2012, à 22:17
- alex2423
Re : Quelle utilisation pour un bot informatique ?
créer des flux rss sur les sites qui ne l'ont malheureusement pas proposé
mais après cela demande de configurer à chaque fois pour chaque site avec un DOM Html spécifique pour récupérer les info, les parser et les mettre ensuite sous forme XML compréhensible par un client RSS..
Et idéalement ces parsing DOM ne devrait pas être rentré en dur dans le code mais bien en paramêtrage
Hors ligne
#10 Le 06/11/2012, à 22:33
- superDude
Re : Quelle utilisation pour un bot informatique ?
compter le castor et pister les canards me semble de loin la meilleure idée.
+42 pour un tracker de castors
˙lıɟoɹd ǝl suɐp ǝɹnʇɐuƃıs ǝp sɐd
Hors ligne
#11 Le 07/11/2012, à 06:34
- Mindiell
Re : Quelle utilisation pour un bot informatique ?
soit c'est vers d'autres sites que le mien et j'n'y peut pas grand chose.
Bah tu peux déjà éviter la loose à ton visiteur en lui signalant que t'avais un super lien, mais qu'il est mort...
Et ça peut marcher dans l'autre sens : les liens d'autres sites pointants vers ton site, soit avec une faute de frappe, soit vers un truc qui a déménagé.
Si c'est toi qui fournit le bot, ça m'intéresse, si c'est Google, moins ^^
Wouh ! Ca fait plaisir de lire ça
@alex2423C'est assez chaud comme idée ça... Tu as un site en particulier ? Parce que récupérer des nouvelles choses sur un tel site, ça veut dire, en effet, parser de manière spécifique chaque site. Et il faudrait le faire sur quels sites d'ailleurs ? Ceux qui s'enregistrent, tous ceux rencontrés ?
@superDude : je le note, merci
Hors ligne
#12 Le 07/11/2012, à 09:19
- Morgiver
Re : Quelle utilisation pour un bot informatique ?
Tiens ça m'a donné une idée.
Tu pourrais rajouter une fonction spéciale webmaster qui ferait en sorte que le bot aille chercher des sujets sur le web avec les mêmes mots clé cité par le webmaster. Dans un article (news par exemple), le visiteur aurait le loisir de cliquer sur un lien qui lui donnerait accès à une page qui liste les liens disponible en fonction des mots clé établi.
Ce qui pourrait être intéressant aussi c'est de pouvoir établir une liste de site où le bot pourrait aller chercher si les mots clé sont cité aussi.
Hors ligne
#13 Le 07/11/2012, à 09:48
- Mindiell
Re : Quelle utilisation pour un bot informatique ?
une fonction [...] qui ferait en sorte que le bot aille chercher des sujets sur le web avec les mêmes mots clé cité par le webmaster. Dans un article (news par exemple), le visiteur aurait le loisir de cliquer sur un lien qui lui donnerait accès à une page qui liste les liens disponible en fonction des mots clé établi.
Ce qui pourrait être intéressant aussi c'est de pouvoir établir une liste de site où le bot pourrait aller chercher si les mots clé sont cité aussi.
Pourrais-tu ré-expliquer l'idée de manière plus précise ? J'ai un peu de mal ce matin
Hors ligne
#14 Le 07/11/2012, à 11:58
- Mindiell
Re : Quelle utilisation pour un bot informatique ?
Tiens, en passant, pour l'anti-SpamBot. Le problème c'est que si je libère les sources, certains pourraient s'en inspirer pour en faire un spamBot
Hors ligne
#15 Le 07/11/2012, à 13:45
- Elzen
Re : Quelle utilisation pour un bot informatique ?
Bah tu peux déjà éviter la loose à ton visiteur en lui signalant que t'avais un super lien, mais qu'il est mort...
Pas faux ^^
Et ça peut marcher dans l'autre sens : les liens d'autres sites pointants vers ton site, soit avec une faute de frappe, soit vers un truc qui a déménagé.
Pour la faute de frappe, je ne gère pas encore, mais pour les déplacements, j'ai (enfin, je vais avoir, dès que j'aurai fini la MàJ actuelle) une page d'erreur intelligente qui redirige automatiquement vers le nouvel emplacement, si la page a juste changé de répertoire parent sans être renommée.
Tiens, en passant, pour l'anti-SpamBot. Le problème c'est que si je libère les sources, certains pourraient s'en inspirer pour en faire un spamBot
Pas faux… d'un autre côté, j'pense que les gens n'ont pas besoin de pomper tes sources à toi pour ça
Elzen : polisson, polémiste, polymathe ! (ex-ArkSeth)
Un script pour améliorer quelques trucs du forum.
La joie de t'avoir connu surpasse la peine de t'avoir perdu…
timezone[blocklist]
Hors ligne
#16 Le 07/11/2012, à 19:15
- Morgiver
Re : Quelle utilisation pour un bot informatique ?
Pour plus de détails :
Quand un webmaster tape un article et des mots clé lié à cet article (comme n'importe quelle métadonnée aujourd'hui).
Le bot se chargerai de :
- Soit chercher sur le plus de site possible les mots clés retrouvés dans des contenus venant d'autres sites web.
- Soit chercher dans une liste de domaines choisi par le webmaster.
- Soit les deux ensemble avec un système de préférences pour les domaines choisi (par exemple).
A mon avis pour ne pas faire trop bourrin, il vaudrait peut-être mieux ne mettre en liste que les contenus ayant un minimum de 85% des mots clés donnés par le webmaster.
Hors ligne
#17 Le 07/11/2012, à 21:14
- Mindiell
Re : Quelle utilisation pour un bot informatique ?
Il a pas plus vite fait de faire une recherche Google le webmaster ?
Hors ligne
#18 Le 07/11/2012, à 22:09
- alex2423
Re : Quelle utilisation pour un bot informatique ?
@alex2423C'est assez chaud comme idée ça... Tu as un site en particulier ? Parce que récupérer des nouvelles choses sur un tel site, ça veut dire, en effet, parser de manière spécifique chaque site. Et il faudrait le faire sur quels sites d'ailleurs ? Ceux qui s'enregistrent, tous ceux rencontrés ?
En fait Mindiell, je pense que c'est quand même jouable.
Par exemple sur un site, tu as cette information formaté de cette sorte
<div id="conteneur">
<div><h1>titre article 1</h1><span>blablabla</span>
<div><h1>titre article 2</h1><span>blablabla</span>
<div><h1>titre article 3</h1><span>blablabla</span>
<div><h1>titre article 4</h1><span>blablabla</span>
</div>
Cela pourrait donner un truc du style pour récupérer les info (en JS avec Jquery mais il faudrait choisir un autre langage coté serveur bien sur) :
$('div#conteneur div').each(function(index) {
alert(texte par article + ': ' + $(this).text()); //renvoi ligne par ligne chaque article
});
et sur un autre site d'une autre facon :
<table class="style">
<tr>
<td>
<table>
<tr><td><h1>titre article 1</h1></td><td><span>blablabla</span></td></tr>
<tr><td><h1>titre article 2</h1></td><td><span>blablabla</span></td></tr>
<tr><td><h1>titre article 3</h1></td><td><span>blablabla</span></td></tr>
<tr><td><h1>titre article 4</h1></td><td><span>blablabla</span></td></tr>
</td>
</tr>
</table>
Cela pourrait maintenant donner un truc du style :
$('table.style tr td table tr ').each(function(index) {
alert(texte par article + ': ' + $(this).text()); //renvoi ligne par ligne chaque article
});
Bon je t'avoue qu'ici, il faudrait presque crée 2 niveaux. Parce que là, on récupére les <td> du 2ème table imbriqué avec. Cela n'est pas très beau, mais cela pourrait passé même si syntaxiquement, on n'est plus bon, si on ajoute la ligne dans un fichier XML
Mais ce que je voulais te démontrer est qu'il y a une base commune qu'il est possible de mettre en dur.
Il n'y a que le chemin DOM qui change.
Et il faudrait le faire sur quels sites d'ailleurs ? Ceux qui s'enregistrent, tous ceux rencontrés ?
Comme chaque site sont différents, chaque site seraient aurait sa propre conf.
Dans l'exemple du dessus, on aurait par exemple en base :
site1 => url => div#conteneur div
site2 => url => table.style tr td table tr
Chaque site aurait sa correspondance DOM. Mais il faut quelques tests avant divers site.
Tu as un site en particulier ?
Pas spécialement.
Je suis allé visité dernièrement un blog sur la mode que je trouvais sympa pour avoir des idées mais malheuresement, il n'y avait pas de flux RSS.
Je t'en montrerai quelques comme exemple.
Hors ligne
#19 Le 08/11/2012, à 06:21
- Mindiell
Re : Quelle utilisation pour un bot informatique ?
Comme chaque site sont différents, chaque site seraient aurait sa propre conf.
T'imagines le temps humain à passer pour faire ça ?
Il faut détecter qu'il n'y a pas de flux RSS, puis détecter que c'est un site qui "pourrait" en avoir un (je ne vais pas faire ça sur un wiki par exemple), puis détecter la manière de dégager les articles.
Je suis allé visité dernièrement un blog sur la mode que je trouvais sympa pour avoir des idées mais malheuresement, il n'y avait pas de flux RSS.
Je t'en montrerai quelques comme exemple.
Tu as plus vite fait d'écrire un coup à l'auteur du blog pour qu'il rajoute le flux non ?
Et puis je présente quoi au final ? Une liste de sites avec des flux RSS qui ne seront peut-être jamais lus par personne ?
Aie, aie, aie ! J'avais pas pensé à tout ça !
Hors ligne
#20 Le 28/11/2012, à 16:07
- Mindiell
Re : Quelle utilisation pour un bot informatique ?
Eh bien, après quelque temps laissé de côté, je me suis re-penché un peu sur les idées. HP (qui semble avoir détruit son message ?) avait eu une bonne idée sur les stats des tags utilisés.
Voici un premier résultat basé sur un certain nombre de pages d'accueil de sites connus (goog, faceb, amaz, eba, etc...)
Au total, plus de 17000 tags inspectés. Sur ce nombre, à peine une trentaine sont à ignorer (mauvais résultat après découpage par mon expression rationnelle).
Au final, div est largement en tête sur toutes les pages (25%), suivi par span, li et a.
C'est intéressant, à priori pas mal de sites ont basculé en présentation CSS (il était temps )
Le tag commentaire (!--) est en 7ème position avec moins de 5% d'utilisation.
Alors, certes, ce ne sont que des pages de présentation, et donc l'utilisation d'éléments de formulaires est faible (le premier option est en 11ème position avec un peu plus de 2% de présence), mais tout de même, ça dénote les plus présents !
Je ferai p'tet un article style blog si je me sens l'envie... Ou alors une thèse (pfff, n'importe quoi moi, faut qu'je dorme)
Hors ligne
#21 Le 28/11/2012, à 16:55
- Elzen
Re : Quelle utilisation pour un bot informatique ?
C'est intéressant, à priori pas mal de sites ont basculé en présentation CSS (il était temps )
L'inconvénient étant que les balises <div> et <span> n'ont aucune sémantique associée.
Autant, pour les divs, ça paraît relativement normal qu'il y en ait pas mal, pour séparer les divers éléments (du moins, pour les sites n'étant pas encore passé au HTML5 et ses <nav> et <section>), mais le haut nombre de spans n'est pas exactement une bonne nouvelle, je pense. Des <em>, <strong>, <dfn>, <q>, etc. seraient probablement préférables dans pas mal de cas.
Sinon, plus de <li> que de <a>, c'est intéressant, comme résultat : ça veut dire que la présentation en liste doit quand même être énormément utilisée, y compris pour afficher des informations textuelles… Intuitivement, j'aurais eu tendance à supposer la proportion inverse, mais c'est sans doute parce que j'utilise beaucoup les listes comme listes de liens, alors que j'utilise aussi pas mal de liens hors des listes.
Le fait que le commentaire soit aussi présent, alors justement que ton échantillon de sites ne me semble pas particulièrement réputé pour la lisibilité de son code source, me semble assez curieux également : pourquoi mettre des commentaires dans un truc fait pour ne pas être lu, ou au moins dont la tronche est tellement moche que personne ne va aller le lire ?
Dernière modification par ArkSeth (Le 28/11/2012, à 16:57)
Elzen : polisson, polémiste, polymathe ! (ex-ArkSeth)
Un script pour améliorer quelques trucs du forum.
La joie de t'avoir connu surpasse la peine de t'avoir perdu…
timezone[blocklist]
Hors ligne
#22 Le 29/11/2012, à 06:38
- Mindiell
Re : Quelle utilisation pour un bot informatique ?
Le fait que le commentaire soit aussi présent, alors justement que ton échantillon de sites ne me semble pas particulièrement réputé pour la lisibilité de son code source, me semble assez curieux également : pourquoi mettre des commentaires dans un truc fait pour ne pas être lu, ou au moins dont la tronche est tellement moche que personne ne va aller le lire ?
C'est une première lecture, mais si tu y penses bien, le tag commentaire "doit" être utilisé au sein du tag script pour ne pas gêner les navigateurs ne reconnaissant pas le tag script. Donc, dès que tu as un peu de javascript au sein de la page, tu as un tag commentaire.
Etant donné les sites (que des connus, et ubuntu-fr.org aussi ), ça ne m'étonne pas tant que ça.
Sinon, plus de <li> que de <a>, c'est intéressant, comme résultat : ça veut dire que la présentation en liste doit quand même être énormément utilisée, y compris pour afficher des informations textuelles… Intuitivement, j'aurais eu tendance à supposer la proportion inverse, mais c'est sans doute parce que j'utilise beaucoup les listes comme listes de liens, alors que j'utilise aussi pas mal de liens hors des listes.
La présentation en liste est beaucoup utilisée pour les menus de nos jours. Ceci doit expliquer cela.
De plus, des sites comme goog, faceb, et autre baid ont très peu de liens (rapport à youtu par exemple qui donne, sur sa page d'accueil, tout un tas de liens vers des vidéos (mais sont-ce bien des liens, il faudrait vérifier).
L'inconvénient étant que les balises <div> et <span> n'ont aucune sémantique associée.
Inconvénient ou pas Il y a assez peu de "sémantique" sur les sites visités je pense.
Hors ligne
#23 Le 30/11/2012, à 14:31
- Mindiell
Re : Quelle utilisation pour un bot informatique ?
Tiens, je me suis amusé à commencer l'idée de tester la norme et l'accessibilité aussi. C'est pas trop mal pour un premier jet (je ne teste pas grand chose encore) :
>python test_norme.py test_2.html
[9] Tags delimiters contain nothing
[10] Tags delimiters contain nothing
[4] Element name (br) must follows the tag open delimiter
[5] Element name (br) must follows the tag open delimiter
[6] Element name (br) must follows the tag open delimiter
[7] Element name (br) must follows the tag open delimiter
[8] Element name (a="") must follows the tag open delimiter
[13] You should represent '>' signs with an entity or numeric character reference when it appears in an attribute value
Ca donne donc le numéro de ligne du fichier, et l'erreur avec les informations qui vont bien (a priori) pour s'y retrouver.
Le fichier html_2.test ressemble à ça pour info :
<h3>Tests hors norme</h3>
Nom de l'élément situé plus loin que juste après le tag ouvrant :
<p>< br></p>
<p>< br ></p>
<p>< br/></p>
<p>< br /></p>
<p>< a=""></p>
<p>< ></p>
<p>< /></p>
Signe > positionné dans une valeur :
<p><img src="log.png" alt="lo>go"></p>
Signe " positionné dans une valeur entouré de " :
<p><img src="log.png" alt="lo"go"></p>
Signes " positionnés dans une valeur entouré de " :
<p><img src="log.png" alt="lo" e"e e"e e "go"></p>
Signe ' positionné dans une valeur entouré de ' :
<p><img src="log.png" alt='lo'go'></p>
Signes ' positionnés dans une valeur entouré de ' :
<p><img src="log.png" alt='lo' e'e e'e e 'go'></p>
Dernière modification par Mindiell (Le 30/11/2012, à 14:31)
Hors ligne
#24 Le 05/12/2012, à 14:05
- Mindiell
Re : Quelle utilisation pour un bot informatique ?
Bon, malgré l'anémie présente ici j'ai démarré un blog. On verra ce que ça donne et si je deviens riche...
Je le rajoute prochainement dans ma signature.
Dernière modification par Mindiell (Le 05/12/2012, à 14:06)
Hors ligne
#25 Le 05/12/2012, à 14:16
- Elzen
Re : Quelle utilisation pour un bot informatique ?
Un blog en anglais, t'es vache
(J'ai déjà trop d'anglais à lire/écrire pour le boulot ><)
Et sinon, oui, intéressante, la vérif de norme
La présentation en liste est beaucoup utilisée pour les menus de nos jours. Ceci doit expliquer cela.
Certes, mais à quoi servent les menus, sinon à mettre des liens dedans ?
(Ah, des options de personnalisation, p't'être aussi, mais je ne pense pas que ça se fasse tant que ça, si ?)
Inconvénient ou pas Il y a assez peu de "sémantique" sur les sites visités je pense.
Bah, s'il y a des raisons de mettre un style particulier à un span (ce qui est à peu près la seule utilité d'un span, de lui mettre un style CSS particulier), c'est qu'il y a des raisons de le mettre en évidence, à priori. Et s'il y a des raisons de le mettre en évidence, il y a de fortes chances que ce soit parce qu'il portait une fonction sémantique particulière qu'il aurait fallu préciser…
Elzen : polisson, polémiste, polymathe ! (ex-ArkSeth)
Un script pour améliorer quelques trucs du forum.
La joie de t'avoir connu surpasse la peine de t'avoir perdu…
timezone[blocklist]
Hors ligne