Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 11/05/2010, à 10:49

Astrolivier

idée de moteur de recherche

salut,

que pensez vous de l'idée moteur de recherche sur lequel chacun puisse s'inscrire, avec un algorithme libre, donc connu, et dont le bot n'irait voir que les sites inscrits ? ça mettrait du temps à se mettre en place, mais avec le temps ça pourrait être un mode d'alternative efficace à l'opacité des moteurs de recherches actuels.

je veux bien avoir votre avis là dessus, et puis pourquoi pas sur des idées pour un mode de financement (et je précise, je n'aime pas la pub, c'est problématique, c'est faire rerentrer le vice par la fenêtre lol ).


S'il faut absolument faire des sacrifices pour assurer le progrès de l'humanité, ne serait-il pas indispensable de s'en tenir au principe selon lequel c'est à ceux dont on exige le sacrifice que la décision doit revenir en dernier ressort ? (howard zinn)

Hors ligne

#2 Le 11/05/2010, à 10:52

skingrapher

Re : idée de moteur de recherche

Bonjour,

Tu as le projet Seeks qui va en ce sens : www.seeks-project.info/wiki/index.php/Main_Page.


Je suis un obsédé textuel. J'aime trop le LaTeX.

Hors ligne

#3 Le 11/05/2010, à 11:00

mimoun

Re : idée de moteur de recherche

Astrolivier a écrit :

que pensez vous de l'idée moteur de recherche sur lequel chacun puisse s'inscrire, avec un algorithme libre, donc connu, et dont le bot n'irait voir que les sites inscrits ?

Pourquoi n'aller voir que les sites inscrits ?

Hors ligne

#4 Le 11/05/2010, à 11:08

Astrolivier

Re : idée de moteur de recherche

skingrapher a écrit :

Bonjour,

Tu as le projet Seeks qui va en ce sens : www.seeks-project.info/wiki/index.php/Main_Page.

wow, merci !

ça a l'air encore plus balaise que mon idée, même pas besoin de serveur !
je fouille, merci beaucoup, ça fait un moment que je cherche une alternative.


S'il faut absolument faire des sacrifices pour assurer le progrès de l'humanité, ne serait-il pas indispensable de s'en tenir au principe selon lequel c'est à ceux dont on exige le sacrifice que la décision doit revenir en dernier ressort ? (howard zinn)

Hors ligne

#5 Le 11/05/2010, à 11:14

Astrolivier

Re : idée de moteur de recherche

mimoun a écrit :
Astrolivier a écrit :

que pensez vous de l'idée moteur de recherche sur lequel chacun puisse s'inscrire, avec un algorithme libre, donc connu, et dont le bot n'irait voir que les sites inscrits ?

Pourquoi n'aller voir que les sites inscrits ?

si je ne veux pas que mon site soit indexé ? en fait pourquoi indexer quelqu'un qui n'en ferait pas la demande ? si tu veux que ton site soit indexé, tu vas le demander (c'est pas très compliqué à faire), à tel point que certains payent des fortunes pour ça. ce qui amène l'autre problème, moi, chez moi (n'importe qui), pourquoi je devrais être obligé de voir ceux qui payent dans les premiers résultats (sachant que la plupart d'entre nous ne passe pas la première page). je devrais moi aussi payer pour avoir un vrai résultat ?


S'il faut absolument faire des sacrifices pour assurer le progrès de l'humanité, ne serait-il pas indispensable de s'en tenir au principe selon lequel c'est à ceux dont on exige le sacrifice que la décision doit revenir en dernier ressort ? (howard zinn)

Hors ligne

#6 Le 11/05/2010, à 15:33

Elzen

Re : idée de moteur de recherche

Certes, mais comment prouve-t-on, quand on inscrit un site, que l'on est son auteur ou que l'on a son accord ?
Si je ne veux pas que mon site soit indexé, mais que quelqu'un demande son indexation à ma place, je fais quoi ?

Idem dans l'autre sens, d'ailleurs : si on permet la désindexation, qu'est-ce qui empêche, par exemple, Google de venir désindexer Yahoo! ou réciproquement ?

Ce sont des inconvénients inhérents à tout projet Libre de ce type, ceci dit. Il y a la technique Wiki pour éviter les pertes d'indexation (conserver les anciennes révisions en arrière-plan), mais ça veut dire qu'un site indexé par erreur ou malveillance ne sera jamais vraiment désindexé (ou en tout cas pas tout de suite)...

Ceci dit, ce ne sera pas pire que les moteurs Google, Yahoo! et compagnie qui indexent tout ce qu'ils peuvent, sans demander l'avis du créateur du site, et sans que celui-ci n'ait de possibilité de contrôle sur les données indexées.

Dernière modification par ArkSeth (Le 11/05/2010, à 15:35)

Hors ligne

#7 Le 11/05/2010, à 16:01

Astrolivier

Re : idée de moteur de recherche

je me suis dis qu'il y a un email associé au site, et sur le site. s'il y a litige, on fait une inscription sur email avec la page du site où il est indiqué.


S'il faut absolument faire des sacrifices pour assurer le progrès de l'humanité, ne serait-il pas indispensable de s'en tenir au principe selon lequel c'est à ceux dont on exige le sacrifice que la décision doit revenir en dernier ressort ? (howard zinn)

Hors ligne

#8 Le 11/05/2010, à 16:14

bailchanis

Re : idée de moteur de recherche

ArkSeth a écrit :

Ceci dit, ce ne sera pas pire que les moteurs Google, Yahoo! et compagnie qui indexent tout ce qu'ils peuvent, sans demander l'avis du créateur du site, et sans que celui-ci n'ait de possibilité de contrôle sur les données indexées.

robots.txt ?

Hors ligne

#9 Le 11/05/2010, à 16:49

Elzen

Re : idée de moteur de recherche

Oui, mais ce n'est pas la même catégorie, bailchanis : on parlais de l'inscription du site dans la liste des sites à indexer, pas de l'indexation réelle de ses pages wink

Un peu comme la distribution du courrier, si tu veux : le fait que tu sois ou non (et de ta propre volonté ou pas) inscrit sur la liste des adresses à laquelle le facteur doit passer est indépendant du fait que tu aies ou non une boîte aux lettres. Bien sûr, si tu n'as pas de boîte aux lettres, le facteur ne pourra de toute façon pas déposer le courrier, mais là, on parlait de l'établissement préalable de son itinéraire de tournée.

(Le facteur est d'ailleurs, je pense, tenu de passer régulièrement vérifier si tu n'as pas fini par mettre une boîte à lettre, de même que si le site est référencé, mais protégé par un robots.txt, il faut quand même passer régulièrement vérifier si ce fichier n'a pas été modifié ou supprimé)

Dernière modification par ArkSeth (Le 11/05/2010, à 16:52)

Hors ligne

#10 Le 11/05/2010, à 17:08

Gage

Re : idée de moteur de recherche

J'ai un peu de mal à comprendre : si tu ne veux pas que ton site soit indexé, la solution passe par l'ajout d'un moteur de recherche qui n'indexera pas ton site et qui sera utilisé par trois geeks barbus, tandis que tous les autres moteurs de recherche continueront gentiment leur indexation ?


Ça, ce sont les sources. Le mouton que tu veux est dedans.
Merci, c'est tout à fait comme ça que je le voulais ! Crois-tu qu'il faille beaucoup de ressources à ce mouton ? Parce que ma config est toute petite...
Ça devrait aller. Tu peux te compiler un petit mouton.
Pas si petit que ça. Tiens ! il s'est mis en veille...

Hors ligne

#11 Le 11/05/2010, à 17:36

Astrolivier

Re : idée de moteur de recherche

Gage a écrit :

J'ai un peu de mal à comprendre : si tu ne veux pas que ton site soit indexé, la solution passe par l'ajout d'un moteur de recherche qui n'indexera pas ton site et qui sera utilisé par trois geeks barbus, tandis que tous les autres moteurs de recherche continueront gentiment leur indexation ?

dans le principe, ce n'est pas parce que les autres ont des mauvaises pratiques qu'il faut s'y adonner soi-même.

les robots, vu qu'un site est en accès libre (on ne va pas parler des site avec accès réservé), ils pourront toujours venir. mais c'est un gouffre énergétique (les serveurs google par exemple). ce que je trouve vraiment bien dans cette idée en p2p, c'est qu'il n'y a plus besoin d'un gros serveur central. je ne pense pas que de laisser des serveurs chercher toutes les possibilités de nom, et tout le web soit très utile.

puis tu parles de trois geeks barbus, ça ne t'intéresse pas d'avoir un référencement non pollué par différents conflits d'intérêt ? je pense que ça peut intéresser plus que trois geek barbus. enfin moi ça m'intéresse wink

edit :
http://pastoutafait.org/billets/Présentation-de-Seeks-et-installation-sous-Debian-Lenny

Dernière modification par Astrolivier (Le 11/05/2010, à 17:43)


S'il faut absolument faire des sacrifices pour assurer le progrès de l'humanité, ne serait-il pas indispensable de s'en tenir au principe selon lequel c'est à ceux dont on exige le sacrifice que la décision doit revenir en dernier ressort ? (howard zinn)

Hors ligne

#12 Le 11/05/2010, à 18:15

bailchanis

Re : idée de moteur de recherche

ArkSeth a écrit :

Oui, mais ce n'est pas la même catégorie, bailchanis : on parlais de l'inscription du site dans la liste des sites à indexer, pas de l'indexation réelle de ses pages wink

Un peu comme la distribution du courrier, si tu veux : le fait que tu sois ou non (et de ta propre volonté ou pas) inscrit sur la liste des adresses à laquelle le facteur doit passer est indépendant du fait que tu aies ou non une boîte aux lettres. Bien sûr, si tu n'as pas de boîte aux lettres, le facteur ne pourra de toute façon pas déposer le courrier, mais là, on parlait de l'établissement préalable de son itinéraire de tournée.

(Le facteur est d'ailleurs, je pense, tenu de passer régulièrement vérifier si tu n'as pas fini par mettre une boîte à lettre, de même que si le site est référencé, mais protégé par un robots.txt, il faut quand même passer régulièrement vérifier si ce fichier n'a pas été modifié ou supprimé)

Euh y'a pas comme un problème dans l'analogie là ?  Quel est exactement le problème posé par le fait qu'un moteur de recherche sache qu'il existe une page web à une adresse (IP/dns) ?  En gros, oui le facteur sait que telle adresse existe , la belle affaire ...  qu'un robots frappe à la porte du site régulièrement pour se voire envoyer paitre n'est pas vraiment un pb de respect de la liberté ou autre chose du genre, tant qu'il respecte les règles du robots.txt...


Astrolivier a écrit :

les robots, vu qu'un site est en accès libre (on ne va pas parler des site avec accès réservé), ils pourront toujours venir

bah non justement c'est pas du tout la même chose... un site avec un robots.txt interdisant tout parcours aux robots d'indexation peut très bien resté en accès libre par ailleurs. La seule différence est qu'il ne sera jamais indexé et ne ressortira jamais dans les résultats des requêtes...

Astrolivier a écrit :

ça ne t'intéresse pas d'avoir un référencement non pollué par différents conflits d'intérêt

Non... en fait... 
1 ) La politique de gestion des données personnelles de google me dérange
2)  la pertinences des résultats de requête ne m'a jamais posé de soucis et je ne me suis jamais dit que je préfèrerai que tel ou tel site n'ai jamais été indexé/référencé...


1) et 2) n'ayant strictement aucun rapport entre les deux ... non, définitivement non ... un moteur de recherche sur la base d'un référencement à la demande des admins d'un site me parait surtout un bon moyen de passer à coté d'un site parce que son admin ne saura pas que le-dit moteur de recherche existe ou qu'il aura la flemme de se faire référencer... Bref un genre de bond en arrière de 15 ans dans la recherche sur le web ...

Hors ligne

#13 Le 11/05/2010, à 18:24

Elzen

Re : idée de moteur de recherche

Bon, bailchanis, contrairement à toi, j'ai pas envie de troller, donc si tu trouves que l'idée n'a pas d'intérêt, tant mieux pour toi. Mon analogie n'avait pas pour vocation à être parfaite, juste à expliciter un peu la nuance (de taille) entre « ne pas être référencé » et « ne pas laisser le robot d'indexation indexer ». Apparemment, j'ai loupé mon coup, tant pis.

Hors ligne

#14 Le 11/05/2010, à 19:05

bailchanis

Re : idée de moteur de recherche

Tu fais erreur sur la différence entre être référencé et être indexé. Le coup du "être référencé" c'est être sur la liste des sites à indexer m'a beaucoup fait rire...

Le référencement, sur internet, c'est "proposer un lien vers un site".
Avant d'être référencé il faut passer par l'une des deux étapes : se déclarer volontairement (sur des listes de référencement) ou être indexé (par un robot).

Autrement dit, si ton site n'est pas indexé par un moteur et que tu ne fais
aucune démarche le moteur de recherche ne proposera aucun lien vers ton site... c'est à dire que tu ne seras pas référencé.
La logique est donc [pas indexé] => [pas référencé], tu sembles la prendre dans l'autre sens.
Après si tu conçois le fait de s'en tenir aux définitions et d'être un peu à cheval sur la logique  comme du troll... c'est triste mais c'est ton droit.

Et puis, être ou non sur une liste qui dit "à telle adresse, il y a un server web" ...
Qu'est-ce que ça changerait dans la pratique ? En quoi tester la présence d'un site web à une adresse, lui demander la permission d'indexer (robots.txt) et s'y plier est une mauvaise pratique ??

Ce n'est pas que l'idée générale qui sous-tend le fil ne m'intéresse pas... c'est qu'elle surtout qu'il y traine une paire de postulats qui reste largement à démontrer voire sont même faux :

- les référencements sont pollués par des conflits d'intérêt : ça reste largement à démontrer... surtout quand la solution est un genre d'annuaire comme on en faisait il y a 15 ans...

- l'indexation par des robots est une mauvaise pratique : la seule mauvaise pratique est celle de l'admin qui ne gère pas son robots.txt en fonction de ses désires. Si certains moteurs passaient outre le robots.txt ça serait effectivement plus génant mais ça n'est pas le cas.


Par contre, l'idée de la publication d'un algorithme ouvert de classement, pourquoi pas. LA ça changerait quelque chose à l' "opacité" des résultats (si tant est que ce soit un problème), mais n'aller voire que des inscrits ça serait juste un bon moyen d'affaiblir la pertinence et l'efficacité des recherches.

Hors ligne

#15 Le 11/05/2010, à 19:33

Roger Star

Re : idée de moteur de recherche

C'est intéressant mais tu parles pas des sites qui payent pour être référencés.
Ça s'appelle l'algorithme capitalistique qui nous soumet tous big_smile


Le désordre, c'est l'ordre moins le pouvoir

Hors ligne

#16 Le 12/05/2010, à 01:27

Elzen

Re : idée de moteur de recherche

@bailchanis : merci de me prendre pour un abruti, ça fait toujours plaisir.

« Être référencé » désigne le fait d'être connu (ici) du robot d'indexation : la liste des sites référencés par ce robot est la liste des sites que ce robot va aller parcourir pour les indexer.
« Être indexé » signifie que le robot d'indexation est venu parcourir le site pour en mémoriser le contenu. Ce qui suppose qu'il ait connaissance de l'existence de ce site, pour pouvoir aller dessus, et donc qu'il l'ait référencé.

Sur un moteur de recherche de type Google, le référencement fait effectivement suite à l'indexation. Plus exactement, il fait suite à l'indexation des autres sites : le robot d'indexation étudie les liens présents dans les pages, et référence les sites externes qui sont liés.
Sur un moteur du type ici présenté, en revanche, le référencement retrouverait probablement sa place de préalable : le référencement serait essentiellement manuel, et donc probablement pas automatisé d'après l'indexation des autres sites. Mon explication tient donc la route.

Que le principe te plaise ou pas, je m'en fiche, comme je l'ai dit, j'ai pas envie de troller. Mais évite au moins de faire des hors sujets.

Dernière modification par ArkSeth (Le 12/05/2010, à 01:29)

Hors ligne

#17 Le 12/05/2010, à 01:47

Ph3nix_

Re : idée de moteur de recherche

Tu es référencé dans le graphe du web à partir du moment où un site sujet à indexation connait ton adresse (le lien de ta page).
Rien ne t'obliges a refiler l'adresse de ton site web

Aprés le robot parcourant les liens, indexera ton site oupas selon les directives de ton robots.txt.

De plus un référencement basée sur l'inscription sera mauvaise, le page-rank participe grandement au bon référencement des pages, et ce référencement est basée uniquement sur les urls pointant vers des sites webs et est calculé lors du parcours du robots aléatoire dans le graphe du web.

Dernière modification par Ph3nix_ (Le 12/05/2010, à 01:48)


Hiroshima 45 / Chernobyl 86 / Windows '95

Hors ligne

#18 Le 12/05/2010, à 10:18

bailchanis

Re : idée de moteur de recherche

ArkSeth a écrit :

@bailchanis : merci de me prendre pour un abruti, ça fait toujours plaisir.
[...]
Que le principe te plaise ou pas, je m'en fiche, comme je l'ai dit, j'ai pas envie de troller. Mais évite au moins de faire des hors sujets.

Commence par éviter de marquer du sceau du troll tout ceux qui ne sont pas d'accord avec toi et peut être qu'ils te répondront poliment et gentilment. ("contrairement à toi je n'ai pas envie de troller..." c'est un peu comme un mec qui donne une gifle et se plaint de recevoir un pain en retour... )

Ma remarque te derange ?  Alors ne change pas les définitions des concepts... Google ne référence aucun site sans l'accord du webmaster, tu as dit exactement le contraire. Evidemment si d'un coup tu change la déifinition du référencement ... mais ne m'accuse pas de troller parce que j'emploi ce terme dans son "vrai" sens.

Par ailleurs si tu avais lu sans partir du principe que je troll tu aurais vu que je ne fais de hors sujet
: même en prenant le cas du site inscrit dans une liste de sites à indexer sans demande préalable  ... en quoi c'est un problème, quel problème on résous exactement ??
Ça sous-tend la démarche que c'est un problème et je cherche à comprendre en quoi.


Bref, c'est ton droit d'être susceptible mais je trouve ça triste tu sais être plus intelligent que ça

Ph3nix_ a écrit :

De plus un référencement basée sur l'inscription sera mauvaise, le page-rank participe grandement au bon référencement des pages, et ce référencement est basée uniquement sur les urls pointant vers des sites webs et est calculé lors du parcours du robots aléatoire dans le graphe du web.

Oui c'est exactement pour ça que les annuaires ont quasiment disparu depuis presque 10 ans. C'est exactement ce que je m'échine à vouloir faire comprendre...

Hors ligne

#19 Le 12/05/2010, à 14:05

Astrolivier

Re : idée de moteur de recherche

bailchanis a écrit :

Google ne référence aucun site sans l'accord du webmaster,

ah si si ! le mien par exemple. je peux vous assurer (faudra me croire mon site à peu d'intérêt et est pour mes étudiants, je n'ai pas envie d'en faire la pub) que je n'ai jamais demander à personne et certainement pas à google de référencer, indexer ou ce que vous voulez. pourtant il l'est.

donc google référence sans l'accord. pour au moins un cas, j'en suis sûr.


S'il faut absolument faire des sacrifices pour assurer le progrès de l'humanité, ne serait-il pas indispensable de s'en tenir au principe selon lequel c'est à ceux dont on exige le sacrifice que la décision doit revenir en dernier ressort ? (howard zinn)

Hors ligne

#20 Le 12/05/2010, à 15:52

bailchanis

Re : idée de moteur de recherche

Astrolivier a écrit :
bailchanis a écrit :

Google ne référence aucun site sans l'accord du webmaster,

ah si si ! le mien par exemple. je peux vous assurer (faudra me croire mon site à peu d'intérêt et est pour mes étudiants, je n'ai pas envie d'en faire la pub) que je n'ai jamais demander à personne et certainement pas à google de référencer, indexer ou ce que vous voulez. pourtant il l'est.
donc google référence sans l'accord. pour au moins un cas, j'en suis sûr.

La question n'est de savoir si tu as fais une démarche active pour le faire référencer. C'est le principe de l'opt-out qui vaut pour l'indexation nécessaire au référencement : tu dois prendre des mesures (très simples et bien connus des webmasters qui se renseignent un minimum sur les pratiques avant de mettre un site en ligne) pour que ton site ne soit pas indexé => robots.txt.

Tu as indiqué dans le robots.txt que tu ne voulais pas être indexé ?  Non, sinon tu ne serais pas référencé, à moins qu'un grand nombre de sites référencés aient des liens qui pointent vers ton site (et encore, ça sera probablement les pages qui contiennent les liens qui ressortiront). Partant de là (robots.txt qui laisse tout passer) tu as donné ton accord (tacite) pour être référencé. C'est comme ça que ça marche... si tu ne le sais pas c'est toi qui est responsable mais tu ne peux pas dire que google (ou qui que ce soit d'autre) a référencé ton site sans ton accord.

Hors ligne

#21 Le 12/05/2010, à 15:56

Elzen

Re : idée de moteur de recherche

Même chose qu'Astrolivier : ne pas confondre « sans l'accord de » avec « en contrant les mesures de protections mises en place par ». La différence est abyssale.

Surtout quand la législation (au moins en France, dans les autres pays je ne sais pas) fait que sauf mention contraire explicite, tout contenu publié l'est sous une licence non-permissive : en l'absence d'autorisation explicite de récupération du contenu (que l'on trouve sur un nombre de site assez restreint), non seulement Google indexe sans l'accord du propriétaire du site, mais en plus, l'acte est illégal.

Bien sûr, les propriétaires de ces sites sont souvent content d'être référencés. Mais il n'empêche que Google n'a, la plupart du temps, eu leur accord explicite à aucun moment, et référence donc sans leur accord.

« Qui ne dit mot consent », c'est bien joli, mais la loi ne dit pas ça : il ne devrait pas y avoir besoin d'utiliser des mesures de protection quand on ne veut pas être (référencé|indexé). En fait, si Google (et compagnie, hein, c'est pas juste pour taper sur eux) faisait correctement son boulot, le robots.txt serait utilisé exactement de la façon inverse (pour dire ce qui peut être indexé et pas ce qui ne doit pas l'être).

Bon, bailchanis, j'ai peut-être été un peu susceptible. La tournue du message, et ton entêtement apparent à vouloir ne pas comprendre ce que je disais n'aidaient pas, ceci dit.
Nous sommes peut-être en présence d'un paradoxe du fromage à trou, après tout : nous ne donnons pas le même sens aux mots que nous utilisions, ce qui nous conduit à des positions incompatibles.
Il se trouve simplement que « être référencé par un robots d'indexation » signifie « être dans la liste des sites que ce robot va indexer ». C'est la définition qui s'applique dans ce contexte précis, et j'ai ce me semble indiqué explicitement que c'était celle que j'utilisais.
Tu utilises quant à toi « être référencé par un moteur de recherche », qui signifie « être dans la liste des résultats de ce moteur ». C'est un autre sens tout à fait recevable du référencement, mais ça ne peut pas venir contredire ce que je disais, parce que ce n'est pas le même contexte, ni donc le même sens.

Hors ligne

#22 Le 12/05/2010, à 16:24

bailchanis

Re : idée de moteur de recherche

ArkSeth a écrit :

« Qui ne dit mot consent », c'est bien joli, mais la loi ne dit pas ça

Quelle loi ? La loi internationale de l'internet ? (je reviendrais sur la loi française un peu plus tard).


Même chose qu'Astrolivier : ne pas confondre « sans l'accord de » avec « en contrant les mesures de protections mises en place par ». La différence est abyssale.

les règles d'usage sont claires et connues de tout admin "qui se respecte" :
- robots.txt présent => le bot se conforme aux règles de l'administrateur
- robots.txt absent => correspond à une autorisation de tout indexer pour tout le monde.

c'est une forme d'accord explicite, puisque l'admin choisi toujours la présence et le contenu d'un robots.txt... après s'il ne sait pas faire son boulot c'est une autre histoire qui ne regarde que lui.

le robots.txt peut-être défendu comme une forme d'autorisation explicite. Dans la pratique, ceci-dit, je suis d'accord que ça revient plus à du tacite que de l'explicite. Pour revenir à ce que la loi dit  :  le principe de l'opt-out (qui ne dit mot consent) est tout à fait admissible (présent dans 99% des formulaires d'inscriptions/sondages/offres promotionnelles/... ) et pour ce qui est de la licence de publication, ni google ni aucun autre moteur de recherche ne publie du contenu issu d'un site (à l'exception de courtes citations autorisées par la loi) ... donc pas de violation de la licence de publication.


Pour le coté « être dans la liste des sites que ce robot va indexer » ... je le répète, je l'ai dit depuis le début : qu'est-ce que ça change sur le respect des libertés ??
si le robots suit les règles du robots.txt ... absolument rien sauf une petite connexion de temps en temps (1x / jour ? ... / semaine ?)  d'un bot qui vient, voit qu'il n'a rien le droit de faire et repart gros jean comme devant ....

Y a vraiment d'autres problèmes posés par google, nettement plus inquiétants que le désagrément de voir un robot venir lire un fichier d'autorisation sur chaque site qu'il croise.

Hors ligne

#23 Le 12/05/2010, à 16:33

Astrolivier

Re : idée de moteur de recherche

bailchanis a écrit :

tu as donné ton accord (tacite) pour être référencé

ah non non non, vu que je suis pas d'accord. j'ai la flemme de m'intéresser à ce fichier pour l'instant, ok, mon site est sur internet, ok, mais il n'y a pas mon accord, tacite, implicite, détourné ou ce que tu veux.

alors moi, je suis pour les licences libres, contre l'opacité, les brevets, la propriété intellectuelle, le secret industriel, d'état etc... donc je vais pas crier au scandale à ma propriété, ma "création", mon "projet" (c'est le vocabulaire capitaliste à la mode tongue ). toujours est-il que les mots ont un sens et que google référence sans accord, puisque c'est sur désaccord explicite* qu'il ne référence pas (et puis même ça, on en est sûr ?)

j'ai tout mis en gpl, parce que c'est pour mes étudiants, donc google peut bien utiliser mon travail (léger hein, pas de quoi fouetter un taureau). mais le fait est et reste que je n'ai pas donné mon accord, et que si on me le demande, je préfère ne pas être indexé (parce que les photos que je mets pour ma famille n'ont pas d'autre but que d'être vu par ma famille).

[edit : mal formulé]

Dernière modification par Astrolivier (Le 12/05/2010, à 16:36)


S'il faut absolument faire des sacrifices pour assurer le progrès de l'humanité, ne serait-il pas indispensable de s'en tenir au principe selon lequel c'est à ceux dont on exige le sacrifice que la décision doit revenir en dernier ressort ? (howard zinn)

Hors ligne

#24 Le 12/05/2010, à 16:46

Elzen

Re : idée de moteur de recherche

bailchanis a écrit :

Quelle loi ?

La loi française sus-citée qui indique que toute absence de mention de licence équivaut à une mise sous licence restrictive. Comment ça se passe dans les autres pays, j'en sais rien. Mais en France, la loi indique clairement que qui ne dit mot ne consent pas.

bailchanis a écrit :

les règles d'usage sont claires et connues de tout admin "qui se respecte" :
- robots.txt présent => le bot se conforme aux règles de l'administrateur
- robots.txt absent => correspond à une autorisation de tout indexer pour tout le monde.

Règle d'usage ne veut pas dire règle, de même qu'un standard de fait n'est pas un standard.
Nul n'était déjà censé ignorer la loi, si en plus nul n'est censé ignorer la politique de Google, de Yahoo!, de Bing, d'Exalead et de n'importe quel autre robot d'indexation qui apparaîtrait, ça devient intenable.
S'il existe quelque part (ICANN, W3C ou je ne sais pas quoi) une norme officielle définissant ce comportement, d'accord. Sinon, c'est juste du pur abus, même s'ils sont plusieurs gros à abuser de la même façon.

(Pour les formulaires d'inscriptions et compagnie, il faudrait peut-être que tu précises ce dont tu parles exactement, mais bon, c'est pas le sujet, donc laissons tomber)

bailchanis a écrit :

et pour ce qui est de la licence de publication, ni google ni aucun autre moteur de recherche ne publie du contenu issu d'un site (à l'exception de courtes citations autorisées par la loi) ... donc pas de violation de la licence de publication.

On m'aurait menti ? yikes

bailchanis a écrit :

Pour le coté « être dans la liste des sites que ce robot va indexer » ... je le répète, je l'ai dit depuis le début : qu'est-ce que ça change sur le respect des libertés ??

Je n'en sais strictement rien... sauf que ce n'est pas du respect des libertés, dont il était question, mais simplement du principe.
(Accessoirement, j'ai vu passer la remarque, de la consommation énergétique. Aller vérifier si le robots.txt des sites bloque toujours l'accès nécessite une dépense de ressources certes faibles, mais dispensable. Si on multiplie par le nombre de sites concernés, l'économie possible ne doit quand même pas être négligeable)

bailchanis a écrit :

Y a vraiment d'autres problèmes posés par google, nettement plus inquiétants que le désagrément de voir un robot venir lire un fichier d'autorisation sur chaque site qu'il croise.

Bien d'accord. C'est d'ailleurs sans doute pour ça qu'il n'était pas question de Google ici avant notre petit aparté. Le sujet n'était pas là pour taper sur le modèle existant, mais pour en proposer un autre, ça aussi c'est une nuance de taille tongue

Hors ligne

#25 Le 12/05/2010, à 17:25

bailchanis

Re : idée de moteur de recherche

ArkSeth a écrit :

S'il existe quelque part (ICANN, W3C ou je ne sais pas quoi) une norme officielle définissant ce comportement, d'accord. Sinon, c'est juste du pur abus, même s'ils sont plusieurs gros à abuser de la même façon.

BAh c'est exactement comme ça que TOUS les moteurs de recherche fonctionnent depuis au moins 15ans... je vais faire quelques recherches et ça ne m'étonnerait pas qu'il y ait une norme officielle... sinon au moins certains ne respecteraient pas le robots.txt qu'ils respectent tous.


ArkSeth a écrit :

Les différents problème liés au cache sont un peu "à la marge", non pas que le problème soit complètement innoncent mais largement décorrélé de l'indexation ou de quelque référencement que ce soit.
Certes il faut être référencé pour être dans le cache mais ça ne suffit pas non plus et le système d'indexation/référencement serait inchangé et tout aussi efficace sans le cache...

ArkSeth a écrit :

Je n'en sais strictement rien... sauf que ce n'est pas du respect des libertés, dont il était question, mais simplement du principe.

... Soit .... mais le principe de quoi alors ? le principe de râler contre "le système" pour le plaisir de... ?

tiens une analogie me vient pour campé la situation :
quelqu'un qui habit au rez-de-chaussé et qui ne veut pas qu'on voit chez lui mets les rideaux.. sinon rien n'empêche un passant de venir jeter un coup d'oeil.

Pas de robots.txt = pas de rideaux = ne vient pas râler si quelqu'un jette un coup d'oeil chez toi.

ArkSeth a écrit :

Accessoirement, j'ai vu passer la remarque, de la consommation énergétique. Aller vérifier si le robots.txt des sites bloque toujours l'accès nécessite une dépense de ressources certes faibles, mais dispensable. Si on multiplie par le nombre de sites concernés, l'économie possible ne doit quand même pas être négligeable

Mouais... dur à évlauer, mais vu que la grande majorité des sites on un robots.txt ultra-permissif ou absent je dirais que c'est largement négligeable devant la quantité d'indexes à rajouter tous les jours ou plus sur les blogs... que c'est largement négligeable devant le très dispensable service twitter... mais bon, chacun voit midi à sa porte.

bailchanis a écrit :

Bien d'accord. C'est d'ailleurs sans doute pour ça qu'il n'était pas question de Google ici avant notre petit aparté. Le sujet n'était pas là pour taper sur le modèle existant, mais pour en proposer un autre, ça aussi c'est une nuance de taille tongue

Euh, oui, mais proposer un autre système pour quoi faire et pour quel bénéfice exactement ?
En l'occurence la proposition règle un/des problèmes très flou  : le fameux "principe" qui dit que c'est inadmissible qu'un webmaster soit obligé de configurer un fichier pour définir les règles d'indexation (sic?)
et en pose d'autres un poil plus concrets bien connus (pauvreté des résultats de requêtes, Sites pas enregistré par manque de notoriété, etc... )  et qui ont conduit à la situation actuelle.


Astrolivier a écrit :

ah non non non, vu que je suis pas d'accord. j'ai la flemme de m'intéresser à ce fichier pour l'instant, ok, mon site est sur internet, ok, mais il n'y a pas mon accord, tacite, implicite, détourné ou ce que tu veux.

D'accord ou pas avec la situation, tu as, de fait, au moins donné ton accord tacite pour que les moteurs de recherche indexent ton site.  Exactement la même chose qu'un mec qui dit "ah mais on m'avait pas dit qu'il fallait définir un mot de passe pour mon utilisateur... j'avais la flemme de m'en souvenir alors je l'ai laissé vide... c'est scandaleux quelqu'un s'est connecté avec mon login... ".

C'est TON site, C'est TON pc... c'est à TOI de le configurer comme il faut pour que ça marche comme tu veux... dire "je ne savais donc c'est inadmissible que ça marche comme ça" est pour le moins puéril.
  Le coup du robots.txt est parmi les premiers trucs qu'on apprend en administration web et TOUS les moteurs de recherche s'y conforment.

Dernière modification par bailchanis (Le 12/05/2010, à 17:28)

Hors ligne