Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 06/11/2012, à 09:13

Mindiell

Quelle utilisation pour un bot informatique ?

Suite à cette discussion, j'ai commencé à programmer un petit script type webCrawler.
Imaginons maintenant un bot informatique capable de visiter l'Internet. A quoi pourrait-il servir ?

Pour le moment, j'ai ça en tête, n'hésitez pas à faire vos propositions :

  • Indexer Internet (comme Google le fait)

  • Trouver des sites potentiellement illégaux (et pouvoir les lister à la police : terrorisme, pédophiles, etc...)

  • Servir d'anti-spamBot (s'il trouve une adresse mail, il écrit à la personne pour la prévenir que des spamBots pourraient en profiter, avec le lien vers la page pour modification par l'utilisateur)

A vos idées ! smile

HP :

  • Faire des statistiques sur les serveurs utilisés

  • Faire des statistiques sur les codes HTTP (404, 200, 304, etc...) retournés

  • Faire des statistiques sur les balises/attributs HTML utilisés

ArkSeth :

  • Signaler des liens morts sur un site pour un webmaster

  • Signaler des problèmes de normes sur un site pour un webmaster

  • Signaler des problèmes d'accessibilité sur un site pour un webmaster

ssdg :

  • detecter les repompages des uns et des autres. (les copiers/collers de texte)

alex2423 :

  • créer des flux rss sur les sites qui ne l'ont malheureusement pas proposé

Dernière modification par Mindiell (Le 07/11/2012, à 06:35)

Hors ligne

#2 Le 06/11/2012, à 10:46

Elzen

Re : Quelle utilisation pour un bot informatique ?

Le concept d'anti-spambot est assez sympa smile

Après, ça dépend comment tu comptes le déployer ; ça peut par exemple servir à prévenir les webmasters intéressés en cas de lien mort sur leur site, de potentiels problème d'accessibilité ou de non-respect des normes…

Hors ligne

#3 Le 06/11/2012, à 11:08

ssdg

Re : Quelle utilisation pour un bot informatique ?

Compter les mots "castor" et "canard" et voir celui qui est le plus populaire.
Faire une grosse addition de tout les chiffres qu'il trouve. (des moyennes, des medianes, des...)
detecter les repompages des uns et des autres. (les copiers/collers de texte)

etc...


s'il n'y a pas de solution, c'est qu'il n'y a pas de problème... ou pas.

Hors ligne

#4 Le 06/11/2012, à 11:09

Mindiell

Re : Quelle utilisation pour un bot informatique ?

ArkSeth a écrit :

Le concept d'anti-spambot est assez sympa smile

Oui, mais j'ai peur que ça finisse par spammer les gens big_smile

@ssdg : euh, je ne prends que les idées qui ont une utilité potentielle wink
=> Canard/Castor, utilise GoogleFight
=> Additionner des chiffres : euh... comment dire ? smile

Dernière modification par Mindiell (Le 06/11/2012, à 11:11)

Hors ligne

#5 Le 06/11/2012, à 12:19

gnales

Re : Quelle utilisation pour un bot informatique ?

En profiter pour glanez des point sur le tdc ? tongue

Hors ligne

#6 Le 06/11/2012, à 12:33

Elzen

Re : Quelle utilisation pour un bot informatique ?

gnales a écrit :

En profiter pour glanez des point sur le tdc ? tongue

Il n'y a pas de points sur le TdC. Et sur le TdCT, si c'est de lui que tu parlais, c'est interdit tongue

Mindiell a écrit :

Oui, mais j'ai peur que ça finisse par spammer les gens big_smile

Il te faut une base derrière qui mémorise la page rencontrée, l'adresse mail, et le délai depuis lequel tu as spammé depuis la dernière fois tongue

(En tout cas, si tu retiens le concept de surveillance des problèmes que j'évoquais ci-dessus, j'veux bien m'inscrire ^^)

Hors ligne

#7 Le 06/11/2012, à 18:31

Mindiell

Re : Quelle utilisation pour un bot informatique ?

J'aurais plutôt tendance à ne spammer qu'une seule fois par adresse et par page : à l'utilisateur de faire le boulot, je ne vais pas lui renvoyer de mail au risque de me faire passer pour un spammeur, non ? wink

Je retiens ton inscription wink

EDIT : après quelques recherches rapides, il semble que la surveillance de sites est déjà bien existante. Ca surveille tes liens morts. Bon, a priori, pour ce que j'ai trouvé, seul google te signale des liens d'autres sites qui pointent vers le tien en 404, ce qui peut être très pratique tout de même. C'est un truc comme ça que tu souhaiterais ? Ou plus au niveau des normes et de l'accessibilité ?

Dernière modification par Mindiell (Le 06/11/2012, à 18:53)

Hors ligne

#8 Le 06/11/2012, à 19:21

Elzen

Re : Quelle utilisation pour un bot informatique ?

Plus niveau normes et accessibilité ; en général les liens morts de mon site, soit ce sont des articles que j'n'ai pas encore écrit et donc je le sais tout seul, soit c'est vers d'autres sites que le mien et j'n'y peut pas grand chose.

Et puis que ça existe déjà, c'est une chose ; qui le fait, c'en est une autre. Si c'est toi qui fournit le bot, ça m'intéresse, si c'est Google, moins ^^

Hors ligne

#9 Le 06/11/2012, à 22:17

alex2423

Re : Quelle utilisation pour un bot informatique ?

créer des flux rss sur les sites qui ne l'ont malheureusement pas proposé
mais après cela demande de configurer à chaque fois pour chaque site avec un DOM Html spécifique pour récupérer les info, les parser et les mettre ensuite sous forme XML compréhensible par un client RSS..

Et idéalement ces parsing DOM ne devrait pas être rentré en dur dans le code mais bien en paramêtrage

Hors ligne

#10 Le 06/11/2012, à 22:33

superDude

Re : Quelle utilisation pour un bot informatique ?

compter le castor et pister les canards me semble de loin la meilleure idée.

+42 pour un tracker de castors


˙lıɟoɹd ǝl suɐp ǝɹnʇɐuƃıs ǝp sɐd

Hors ligne

#11 Le 07/11/2012, à 06:34

Mindiell

Re : Quelle utilisation pour un bot informatique ?

ArkSeth a écrit :

soit c'est vers d'autres sites que le mien et j'n'y peut pas grand chose.

Bah tu peux déjà éviter la loose à ton visiteur en lui signalant que t'avais un super lien, mais qu'il est mort... wink
Et ça peut marcher dans l'autre sens : les liens d'autres sites pointants vers ton site, soit avec une faute de frappe, soit vers un truc qui a déménagé.

ArkSeth a écrit :

Si c'est toi qui fournit le bot, ça m'intéresse, si c'est Google, moins ^^

Wouh ! Ca fait plaisir de lire ça wink

@alex2423C'est assez chaud comme idée ça... Tu as un site en particulier ? Parce que récupérer des nouvelles choses sur un tel site, ça veut dire, en effet, parser de manière spécifique chaque site. Et il faudrait le faire sur quels sites d'ailleurs ? Ceux qui s'enregistrent, tous ceux rencontrés ?

@superDude : je le note, merci wink

Hors ligne

#12 Le 07/11/2012, à 09:19

Morgiver

Re : Quelle utilisation pour un bot informatique ?

Tiens ça m'a donné une idée.
Tu pourrais rajouter une fonction spéciale webmaster qui ferait en sorte que le bot aille chercher des sujets sur le web avec les mêmes mots clé cité par le webmaster. Dans un article (news par exemple), le visiteur aurait le loisir de cliquer sur un lien qui lui donnerait accès à une page qui liste les liens disponible en fonction des mots clé établi.
Ce qui pourrait être intéressant aussi c'est de pouvoir établir une liste de site où le bot pourrait aller chercher si les mots clé sont cité aussi.

Hors ligne

#13 Le 07/11/2012, à 09:48

Mindiell

Re : Quelle utilisation pour un bot informatique ?

Morgiver a écrit :

une fonction [...] qui ferait en sorte que le bot aille chercher des sujets sur le web avec les mêmes mots clé cité par le webmaster. Dans un article (news par exemple), le visiteur aurait le loisir de cliquer sur un lien qui lui donnerait accès à une page qui liste les liens disponible en fonction des mots clé établi.
Ce qui pourrait être intéressant aussi c'est de pouvoir établir une liste de site où le bot pourrait aller chercher si les mots clé sont cité aussi.

Pourrais-tu ré-expliquer l'idée de manière plus précise ? J'ai un peu de mal ce matin wink

Hors ligne

#14 Le 07/11/2012, à 11:58

Mindiell

Re : Quelle utilisation pour un bot informatique ?

Tiens, en passant, pour l'anti-SpamBot. Le problème c'est que si je libère les sources, certains pourraient s'en inspirer pour en faire un spamBot hmm

Hors ligne

#15 Le 07/11/2012, à 13:45

Elzen

Re : Quelle utilisation pour un bot informatique ?

Mindiell a écrit :

Bah tu peux déjà éviter la loose à ton visiteur en lui signalant que t'avais un super lien, mais qu'il est mort... wink

Pas faux ^^

Mindiell a écrit :

Et ça peut marcher dans l'autre sens : les liens d'autres sites pointants vers ton site, soit avec une faute de frappe, soit vers un truc qui a déménagé.

Pour la faute de frappe, je ne gère pas encore, mais pour les déplacements, j'ai (enfin, je vais avoir, dès que j'aurai fini la MàJ actuelle) une page d'erreur intelligente qui redirige automatiquement vers le nouvel emplacement, si la page a juste changé de répertoire parent sans être renommée.

Mindiell a écrit :

Tiens, en passant, pour l'anti-SpamBot. Le problème c'est que si je libère les sources, certains pourraient s'en inspirer pour en faire un spamBot hmm

Pas faux… d'un autre côté, j'pense que les gens n'ont pas besoin de pomper tes sources à toi pour ça hmm

Hors ligne

#16 Le 07/11/2012, à 19:15

Morgiver

Re : Quelle utilisation pour un bot informatique ?

Pour plus de détails :

Quand un webmaster tape un article et des mots clé lié à cet article (comme n'importe quelle métadonnée aujourd'hui).
Le bot se chargerai de :

- Soit chercher sur le plus de site possible les mots clés retrouvés dans des contenus venant d'autres sites web.
- Soit chercher dans une liste de domaines choisi par le webmaster.
- Soit les deux ensemble avec un système de préférences pour les domaines choisi (par exemple).

A mon avis pour ne pas faire trop bourrin, il vaudrait peut-être mieux ne mettre en liste que les contenus ayant un minimum de 85% des mots clés donnés par le webmaster.

Hors ligne

#17 Le 07/11/2012, à 21:14

Mindiell

Re : Quelle utilisation pour un bot informatique ?

Il a pas plus vite fait de faire une recherche Google le webmaster ? smile

Hors ligne

#18 Le 07/11/2012, à 22:09

alex2423

Re : Quelle utilisation pour un bot informatique ?

Mindiell a écrit :

@alex2423C'est assez chaud comme idée ça... Tu as un site en particulier ? Parce que récupérer des nouvelles choses sur un tel site, ça veut dire, en effet, parser de manière spécifique chaque site. Et il faudrait le faire sur quels sites d'ailleurs ? Ceux qui s'enregistrent, tous ceux rencontrés ?

En fait Mindiell, je pense que c'est quand même jouable.


Par exemple sur un site, tu as cette information formaté de cette sorte

<div id="conteneur">
<div><h1>titre article 1</h1><span>blablabla</span>
<div><h1>titre article 2</h1><span>blablabla</span>
<div><h1>titre article 3</h1><span>blablabla</span>
<div><h1>titre article 4</h1><span>blablabla</span>
</div>

Cela pourrait donner un truc du style pour récupérer les info (en JS avec Jquery mais il faudrait choisir un autre langage coté serveur bien sur) :

$('div#conteneur div').each(function(index) {
    alert(texte par article + ': ' + $(this).text()); //renvoi ligne par ligne chaque article
});

et sur un autre site d'une autre facon :

<table class="style">
<tr>
<td>
<table>
<tr><td><h1>titre article 1</h1></td><td><span>blablabla</span></td></tr>
<tr><td><h1>titre article 2</h1></td><td><span>blablabla</span></td></tr>
<tr><td><h1>titre article 3</h1></td><td><span>blablabla</span></td></tr>
<tr><td><h1>titre article 4</h1></td><td><span>blablabla</span></td></tr>
</td>
</tr>
</table>

Cela pourrait maintenant donner un truc du style :

$('table.style tr td table tr ').each(function(index) {
    alert(texte par article + ': ' + $(this).text()); //renvoi ligne par ligne chaque article
});

Bon je t'avoue qu'ici, il faudrait presque crée 2 niveaux. Parce que là, on récupére les <td> du 2ème table imbriqué avec. Cela n'est pas très beau, mais cela pourrait passé même si syntaxiquement, on n'est plus bon, si on ajoute la ligne dans un fichier XML


Mais ce que je voulais te démontrer est qu'il y a une base commune qu'il est possible de mettre en dur.
Il n'y a que le chemin DOM qui change.


Mindiell a écrit :

Et il faudrait le faire sur quels sites d'ailleurs ? Ceux qui s'enregistrent, tous ceux rencontrés ?

Comme chaque site sont différents, chaque site seraient aurait sa propre conf.
Dans l'exemple du dessus, on aurait par exemple en base :

site1 => url => div#conteneur div
site2 => url => table.style tr td table tr

Chaque site aurait sa correspondance DOM. Mais il faut quelques tests avant divers site.


Mindiell a écrit :

Tu as un site en particulier ?

Pas spécialement.
Je suis allé visité dernièrement un blog sur la mode que je trouvais sympa pour avoir des idées mais malheuresement, il n'y avait pas de flux RSS.
Je t'en montrerai quelques comme exemple.

Hors ligne

#19 Le 08/11/2012, à 06:21

Mindiell

Re : Quelle utilisation pour un bot informatique ?

alex2423 a écrit :

Comme chaque site sont différents, chaque site seraient aurait sa propre conf.

T'imagines le temps humain à passer pour faire ça ?
Il faut détecter qu'il n'y a pas de flux RSS, puis détecter que c'est un site qui "pourrait" en avoir un (je ne vais pas faire ça sur un wiki par exemple), puis détecter la manière de dégager les articles.

alex2423 a écrit :

Je suis allé visité dernièrement un blog sur la mode que je trouvais sympa pour avoir des idées mais malheuresement, il n'y avait pas de flux RSS.
Je t'en montrerai quelques comme exemple.

Tu as plus vite fait d'écrire un coup à l'auteur du blog pour qu'il rajoute le flux non ? smile

Et puis je présente quoi au final ? Une liste de sites avec des flux RSS qui ne seront peut-être jamais lus par personne ?
Aie, aie, aie ! J'avais pas pensé à tout ça ! big_smile

Hors ligne

#20 Le 28/11/2012, à 16:07

Mindiell

Re : Quelle utilisation pour un bot informatique ?

Eh bien, après quelque temps laissé de côté, je me suis re-penché un peu sur les idées. HP (qui semble avoir détruit son message ?) avait eu une bonne idée sur les stats des tags utilisés.

Voici un premier résultat basé sur un certain nombre de pages d'accueil de sites connus (goog, faceb, amaz, eba, etc...)

Au total, plus de 17000 tags inspectés. Sur ce nombre, à peine une trentaine sont à ignorer (mauvais résultat après découpage par mon expression rationnelle).

Au final, div est largement en tête sur toutes les pages (25%), suivi par span, li et a.
C'est intéressant, à priori pas mal de sites ont basculé en présentation CSS (il était temps smile )
Le tag commentaire (!--) est en 7ème position avec moins de 5% d'utilisation.

Alors, certes, ce ne sont que des pages de présentation, et donc l'utilisation d'éléments de formulaires est faible (le premier option est en 11ème position avec un peu plus de 2% de présence), mais tout de même, ça dénote les plus présents !

Je ferai p'tet un article style blog si je me sens l'envie... Ou alors une thèse big_smile (pfff, n'importe quoi moi, faut qu'je dorme)

Hors ligne

#21 Le 28/11/2012, à 16:55

Elzen

Re : Quelle utilisation pour un bot informatique ?

Mindiell a écrit :

C'est intéressant, à priori pas mal de sites ont basculé en présentation CSS (il était temps smile )

L'inconvénient étant que les balises <div> et <span> n'ont aucune sémantique associée.

Autant, pour les divs, ça paraît relativement normal qu'il y en ait pas mal, pour séparer les divers éléments (du moins, pour les sites n'étant pas encore passé au HTML5 et ses <nav> et <section>), mais le haut nombre de spans n'est pas exactement une bonne nouvelle, je pense. Des <em>, <strong>, <dfn>, <q>, etc. seraient probablement préférables dans pas mal de cas.

Sinon, plus de <li> que de <a>, c'est intéressant, comme résultat : ça veut dire que la présentation en liste doit quand même être énormément utilisée, y compris pour afficher des informations textuelles… Intuitivement, j'aurais eu tendance à supposer la proportion inverse, mais c'est sans doute parce que j'utilise beaucoup les listes comme listes de liens, alors que j'utilise aussi pas mal de liens hors des listes.

Le fait que le commentaire soit aussi présent, alors justement que ton échantillon de sites ne me semble pas particulièrement réputé pour la lisibilité de son code source, me semble assez curieux également : pourquoi mettre des commentaires dans un truc fait pour ne pas être lu, ou au moins dont la tronche est tellement moche que personne ne va aller le lire ?

Dernière modification par ArkSeth (Le 28/11/2012, à 16:57)

Hors ligne

#22 Le 29/11/2012, à 06:38

Mindiell

Re : Quelle utilisation pour un bot informatique ?

ArkSeth a écrit :

Le fait que le commentaire soit aussi présent, alors justement que ton échantillon de sites ne me semble pas particulièrement réputé pour la lisibilité de son code source, me semble assez curieux également : pourquoi mettre des commentaires dans un truc fait pour ne pas être lu, ou au moins dont la tronche est tellement moche que personne ne va aller le lire ?

C'est une première lecture, mais si tu y penses bien, le tag commentaire "doit" être utilisé au sein du tag script pour ne pas gêner les navigateurs ne reconnaissant pas le tag script. Donc, dès que tu as un peu de javascript au sein de la page, tu as un tag commentaire.
Etant donné les sites (que des connus, et ubuntu-fr.org aussi wink ), ça ne m'étonne pas tant que ça.

ArkSeth a écrit :

Sinon, plus de <li> que de <a>, c'est intéressant, comme résultat : ça veut dire que la présentation en liste doit quand même être énormément utilisée, y compris pour afficher des informations textuelles… Intuitivement, j'aurais eu tendance à supposer la proportion inverse, mais c'est sans doute parce que j'utilise beaucoup les listes comme listes de liens, alors que j'utilise aussi pas mal de liens hors des listes.

La présentation en liste est beaucoup utilisée pour les menus de nos jours. Ceci doit expliquer cela.
De plus, des sites comme goog, faceb, et autre baid ont très peu de liens (rapport à youtu par exemple qui donne, sur sa page d'accueil, tout un tas de liens vers des vidéos (mais sont-ce bien des liens, il faudrait vérifier).

ArkSeth a écrit :

L'inconvénient étant que les balises <div> et <span> n'ont aucune sémantique associée.

Inconvénient ou pas smile Il y a assez peu de "sémantique" sur les sites visités je pense.

Hors ligne

#23 Le 30/11/2012, à 14:31

Mindiell

Re : Quelle utilisation pour un bot informatique ?

Tiens, je me suis amusé à commencer l'idée de tester la norme et l'accessibilité aussi. C'est pas trop mal pour un premier jet (je ne teste pas grand chose encore) :

>python test_norme.py test_2.html
[9] Tags delimiters contain nothing
[10] Tags delimiters contain nothing
[4] Element name (br) must follows the tag open delimiter
[5] Element name (br) must follows the tag open delimiter
[6] Element name (br) must follows the tag open delimiter
[7] Element name (br) must follows the tag open delimiter
[8] Element name (a="") must follows the tag open delimiter
[13] You should represent '>' signs with an entity or numeric character reference when it appears in an attribute value

Ca donne donc le numéro de ligne du fichier, et l'erreur avec les informations qui vont bien (a priori) pour s'y retrouver.

Le fichier html_2.test ressemble à ça pour info :

<h3>Tests hors norme</h3>

Nom de l'élément situé plus loin que juste après le tag ouvrant :
<p>< br></p>
<p>< br ></p>
<p>< br/></p>
<p>< br /></p>
<p>< a=""></p>
<p>< ></p>
<p>< /></p>

Signe &gt; positionné dans une valeur :
<p><img src="log.png" alt="lo>go"></p>

Signe " positionné dans une valeur entouré de " :
<p><img src="log.png" alt="lo"go"></p>

Signes " positionnés dans une valeur entouré de " :
<p><img src="log.png" alt="lo" e"e  e"e e "go"></p>

Signe ' positionné dans une valeur entouré de ' :
<p><img src="log.png" alt='lo'go'></p>

Signes ' positionnés dans une valeur entouré de ' :
<p><img src="log.png" alt='lo' e'e  e'e e 'go'></p>

Dernière modification par Mindiell (Le 30/11/2012, à 14:31)

Hors ligne

#24 Le 05/12/2012, à 14:05

Mindiell

Re : Quelle utilisation pour un bot informatique ?

Bon, malgré l'anémie présente ici j'ai démarré un blog. On verra ce que ça donne et si je deviens riche...
Je le rajoute prochainement dans ma signature.

Dernière modification par Mindiell (Le 05/12/2012, à 14:06)

Hors ligne

#25 Le 05/12/2012, à 14:16

Elzen

Re : Quelle utilisation pour un bot informatique ?

Un blog en anglais, t'es vache tongue

(J'ai déjà trop d'anglais à lire/écrire pour le boulot ><)


Et sinon, oui, intéressante, la vérif de norme smile

Mindiell a écrit :

La présentation en liste est beaucoup utilisée pour les menus de nos jours. Ceci doit expliquer cela.

Certes, mais à quoi servent les menus, sinon à mettre des liens dedans ? yikes
(Ah, des options de personnalisation, p't'être aussi, mais je ne pense pas que ça se fasse tant que ça, si ?)

Mindiell a écrit :

Inconvénient ou pas smile Il y a assez peu de "sémantique" sur les sites visités je pense.

Bah, s'il y a des raisons de mettre un style particulier à un span (ce qui est à peu près la seule utilité d'un span, de lui mettre un style CSS particulier), c'est qu'il y a des raisons de le mettre en évidence, à priori. Et s'il y a des raisons de le mettre en évidence, il y a de fortes chances que ce soit parce qu'il portait une fonction sémantique particulière qu'il aurait fallu préciser…

Hors ligne