#26 Le 19/08/2010, à 15:10
- dudumomo
Re : Alternative libre au moteur de recherche Google ?
Merci pour ces nouvelles et explications.
En effet l'indexation est une tache très longue et si elle est présente sur un réseau distribué elle peut être très lente comme tu l'indique, mais je pense tout de même que plus il y aura de participant dans un réseau distribué, plus la tache sera rapide.
Les temps de réponse devrait tout de même diminuer dans une structure adéquate j'imagine.
Seeks est un metamoteur très prometteur, mais va t'il devenir un jour un moteur ?
Car il faut vraiment faire la différence entre anonymat, respect de la vie privé, etc... et indépendance de l'information, lutte contre la censure, etc...
Idipops, le réseau social des prestataires de services !
Tutorial and news on how to host your own server: http://freedif.org
Aidez la recherche avec BOINC et rejoignez la Mini-Team Libristes: http://www.boinc-af.org | http://libristes.boinc-af.net
Hors ligne
#27 Le 19/08/2010, à 15:21
- geenux
Re : Alternative libre au moteur de recherche Google ?
Pour que seeks devienne un vrai moteur, je pense qu'il faudra beaucoup d'utilisateurs interressés.
Je sais pas exactement où en est le côté programmation du projet, mais une fois tout en place, c'est les utilisateurs qui feront vivre ce type de projet. Il risque d'avoir un démarrage lent et difficile en tant que moteur à part entière, mais si le métamoteur fonctionne efficacement, ça ne devrait pas trop déranger d'utiliser seeks à la place de google.
Il faut que je teste...
Hors ligne
#28 Le 19/08/2010, à 15:31
- piti
Re : Alternative libre au moteur de recherche Google ?
Les temps de réponse devrait tout de même diminuer dans une structure adéquate j'imagine.
Le pdf que j'ai mis dans mon précédant post présente justement les problèmes dans un réseau distribué.
(ça n'est pas tant la constitution de l'index qui pose souci, mais plutôt la recherche en son sein.)
Seeks est un metamoteur très prometteur, mais va t'il devenir un jour un moteur ?
Car il faut vraiment faire la différence entre anonymat, respect de la vie privé, etc... et indépendance de l'information, lutte contre la censure, etc...
Seeks ne se borne justement pas à être un métamoteur.
C'est uniquement la première étape, celle qu'il fallait faire en premier pour que les utilisateurs n'aient pas qu'une coquille vide.
Selon la roadmap[1] pour solo, il n'y a qu'un méta moteur: une base solide que les utilisateurs peuvent adopter d'un coté, et sur laquelle on peut par la suite accrocher la dht (la partie p2p), en enrichissant au fur et à mesure les fonctionnalités disponibles.
Il faudra attendre fin octobre[2] pour avoir une collaboration basique, si la roadmap est respectée.
Ça n'est pas une raison pour ne pas adopter tout de suite le moteur, qui n'attend que des utilisateurs (et des contributeurs, bien évidement )
[1] http://seeks-project.info/wiki/index.php/Roadmap
[2] http://redmine.seeks-project.info/projects/seeks/roadmap
Dernière modification par piti-pablo (Le 19/08/2010, à 15:31)
Hors ligne
#29 Le 19/08/2010, à 15:34
- piti
Re : Alternative libre au moteur de recherche Google ?
[…]
Il faut que je teste...
tester le moteur n'est pas compliqué:
Il suffit de choisir un node sur la liste[1], et depuis sa page, l'ajouter aux moteurs par défaut dans firefox (avec la petite flèche qui ouvre la liste des moteurs).
[1] http://www.seeks-project.info/wiki/index.php/List_of_Web_Seeks_nodes
Dernière modification par piti-pablo (Le 19/08/2010, à 15:35)
Hors ligne
#30 Le 20/08/2010, à 09:34
- bloublou
Re : Alternative libre au moteur de recherche Google ?
Mais pour seeks, comment vous comptez vous y prendre pour avoir un vrai moteur, qui ne soit pas sur un réseau distribué ?
Hors ligne
#31 Le 20/08/2010, à 10:10
- piti
Re : Alternative libre au moteur de recherche Google ?
Seeks ne compte pas reprendre le concept classique des moteurs de recherche (crawl/indexation), si c'est ce que tu entends par «vrai moteur».
Au lieu de ça, il s'appuie directement sur les recherches effectuées par les internautes, pour les rapprocher et leur permettre de collaborer sur les résultats (ils forment alors des «groupes de recherche»).
Les informations résultantes de ces collaborations sont stockées dans une DHT[1] (table de hachage distribuée), et sont consultées lorsque la recherche correspondante est réalisée.
En fonctionnant de cette manière, Seeks s'évite le complexe travail d'indexation d'une part, et permet un travail de qualification intelligent des résultats, comme celui-ci est réalisé par les utilisateurs.
[1] http://fr.wikipedia.org/wiki/Table_de_hachage_distribu%C3%A9e
Hors ligne
#32 Le 20/08/2010, à 12:40
- dudumomo
Re : Alternative libre au moteur de recherche Google ?
Donc aucune protection niveau censure...?! (Je suis parano peut être mais qui peut le plus peut le moins)
Idipops, le réseau social des prestataires de services !
Tutorial and news on how to host your own server: http://freedif.org
Aidez la recherche avec BOINC et rejoignez la Mini-Team Libristes: http://www.boinc-af.org | http://libristes.boinc-af.net
Hors ligne
#33 Le 20/08/2010, à 12:44
- psychederic
Re : Alternative libre au moteur de recherche Google ?
@piti-pablo
4 questions ou peut être des idées :
Est ce que vous pensez intégrer des algorithmes de routage évolué : algorithme de fourmi ( mute )
Est ce que vous pensez ajouter/intégrer un service de bookmark : ( ce qui permettrait d'enrichir rapidement le moteur, en partant de l'existant ) tout en promouvant un outil toujours présent dans le navigateur , pour utilisation régulière du moteur.
Quid de la sécurité des connections ?
Quid de l' "anonymat" ? ( a tous les niveaux )
En tout cas merci pour votre travail.
Le monde du libre. Ubuntu :Ca rame ? | Installer un logiciel ? Avec Synaptic- Ubuntu Tweak. Msn ?
Hors ligne
#34 Le 20/08/2010, à 12:53
- piti
Re : Alternative libre au moteur de recherche Google ?
dudumomo:
Dans un premier temps, les résultats provenant de différents moteurs de recherches, il risque en effet d'être difficile de se prémunir contre l'éventuelle censure pratiquée par ceux ci. Bon, le coté méta permet quand même d'obtenir des résultats de la part d'autres moteurs si seulement un pratique cette soit disante censure.
L'étape Dandelion de la roadmap[1] précise qu'il s'agira principalement de la possibilité de publier de nouvelles url associées à une requête. C'est à ce moment là que le contrôle sur les recherches est pleinement rendu à l'utilisateur: De nouveaux résultats pourront être présentés aux groupes de recherches sans provenir des moteurs traditionnels.
[1] http://seeks-project.info/wiki/index.php/Roadmap
Hors ligne
#35 Le 20/08/2010, à 13:43
- piti
Re : Alternative libre au moteur de recherche Google ?
Est ce que vous pensez intégrer des algorithmes de routage évolué : algorithme de fourmi ( mute )
Seeks ne partage pas directement les requêtes, mais travaille à partir de leur hash.
ainsi, les requêtes des utilisateurs ne sont pas transmises en clair.
pour ce qui est du protocole utilisé, c'est basé sur chord:
http://seeks-project.info/wiki/index.php/FAQ#Which_existing_peer-to-peer_software_did_you_start_from_.3F_And_why_.3F
Est ce que vous pensez ajouter/intégrer un service de bookmark : ( ce qui permettrait d'enrichir rapidement le moteur, en partant de l'existant ) tout en promouvant un outil toujours présent dans le navigateur , pour utilisation régulière du moteur.
Comme je l'ai précisé dans mon post précédant, il sera possible de publier des url associées à des recherches.
Les formes que cela pourra prendre ne sont pas encore décidées, ça reste donc ouvert.
Quid de la sécurité des connections ?
L'accès, par exemple au nodes publiques peut se faire via ssl (certains le propose)
Quant à la connexion des nodes entre eux, il n'est sans doute pas judicieux de passer par des connexions chiffrées, les recherches ne circulant pas en clair, et le chiffrement ralentissant sensiblement le temps d'établissement des connexions (ce qui est génant car l'utilisateur souhaite tout de même obtenir sa réponse au plus vite.)
Quid de l' "anonymat" ? ( a tous les niveaux )
On peut par exemple utiliser Seeks conjointement avec tor:
Using Seeks with tor
Aussi, il y a la note que j'ai ajouté au bas de mon post de la page précédente
Dernière modification par piti (Le 20/08/2010, à 15:09)
Hors ligne
#36 Le 20/08/2010, à 14:29
- psychederic
Re : Alternative libre au moteur de recherche Google ?
Seeks ne partage pas directement les requêtes, mais travaille à partir de leur hash.
ainsi, les requêtes des utilisateurs ne sont pas transmises en clair.
pour ce qui est du protocole utilisé, c'est basé sur chord:
http://seeks-project.info/wiki/index.php/FAQ#Which_existing_peer-to-peer_software_did_you_start_from_.3F_And_why_.3F
Je pense qu'il y a possibilité d'amélioration pour les divers type de communication dans seek. (MAJ de la DHT, et requêtage : auto répartation de la charge, adaptation, convergence, et émergence)
https://secure.wikimedia.org/wikipedia/en/wiki/Ant_colony_optimization#Application
https://secure.wikimedia.org/wikipedia/fr/wiki/Algorithme_de_colonies_de_fourmis#Applications
Le monde du libre. Ubuntu :Ca rame ? | Installer un logiciel ? Avec Synaptic- Ubuntu Tweak. Msn ?
Hors ligne
#37 Le 20/08/2010, à 20:32
- bloublou
Re : Alternative libre au moteur de recherche Google ?
Seeks ne compte pas reprendre le concept classique des moteurs de recherche (crawl/indexation), si c'est ce que tu entends par «vrai moteur».
DONC ça restera une sorte de meta moteur (appalez ça comme vous voulez, mais un moteur de recherche qui utilise les résultats d'autres moteurs, c'est un meta moteur).
Donc pas intéressé…
Hors ligne
#38 Le 20/08/2010, à 20:56
- pilooch
Re : Alternative libre au moteur de recherche Google ?
@psychederic : Seeks implémente une DHT (http://fr.wikipedia.org/wiki/Table_de_hachage_distribuée) basée sur le protocol Chord (http://fr.wikipedia.org/wiki/Chord) modifié pour Seeks.
Dans ce contexte, la charge est automatiquement répartie, une conséquence de l'uniformité de la fonction de hachage. Ensuite, le principe de réplication des données d'un noeud chez ses voisins fournie directement un allègement de charge sur le réseau en mettant à disposition les mêmes données par plusieurs noeuds.
Pour un réseau P2P basé sur une DHT, la convergence revient à la stabilité du réseau (à quelle vitesse se stabilise-t-il par exemple, ou encore, combien de noeuds sont-ils affectés par la disparition d'un autre noeud sur le réseau). L'émergence n'a à ma connaissance aucune application avec les DHT.
@louiz : l'architecture crawler/indexer pour construire un moteur de recherche n'est qu'une architecture parmi d'autres. Le fait qu'elle nécessite le recopiage complet de l'intégralité du Web afin de pouvoir fonctionner, signe son arrêt de mort à long terme, sans parler du coût écologique faramineux en serveurs etc...
Seeks propose un modèle collaboratif qui utilise le Web lui-même, dans lequel les serveurs Web indexeront leurs propres contenus tout en gardant le contrôle de celui-ci et en le servant aux client du moteur. Que le projet survive ou pas, il constitue une alternative rationnelle à l'architecture crawler / indexer, et qui utilisera DIRECTEMENT le contenu des sites Web, sans le recopier.
La roadmap du projet est disponible ici :
http://seeks-project.info/wiki/index.php/Roadmap
Le meta-moteur est une première étape, pour se détacher graduellement, et à long terme des indexes et des crawlers, sans perte de qualité de résultats pour les utilisateurs, c'est à dire pour toi.
Hors ligne
#39 Le 20/08/2010, à 21:01
- geenux
Re : Alternative libre au moteur de recherche Google ?
Non, pas d'après ce que j'ai compris.
C'est un méta-moteur d'abord, le temps que les nodes aient assez de contenu utilisé pour tourner par elles-mêmes.
Mais avec un système comme ça, les site quasiment pas visités seront quasiment introuvable, non ?
Hors ligne
#40 Le 20/08/2010, à 21:03
- dudumomo
Re : Alternative libre au moteur de recherche Google ?
piti a écrit :Seeks ne compte pas reprendre le concept classique des moteurs de recherche (crawl/indexation), si c'est ce que tu entends par «vrai moteur».
DONC ça restera une sorte de meta moteur (appalez ça comme vous voulez, mais un moteur de recherche qui utilise les résultats d'autres moteurs, c'est un meta moteur).
Oui j'ai le même sentiment. Seeks est un très bon meta moteur mais ne constitue pas à mes yeux une alternative entière à Google car il n'est pas indépendant à celui ci.
Mais malheureusement YaCy n'est pas encore assez mature pour être une alternative immédiate. (Seeks en revanche, n'a pas besoin de cette même maturité)
Bref, je vais essayer de fouiner dans le forum allemand de YaCy, car la documentation en anglais ou français manquent crutialement et est très regrettable.
Idipops, le réseau social des prestataires de services !
Tutorial and news on how to host your own server: http://freedif.org
Aidez la recherche avec BOINC et rejoignez la Mini-Team Libristes: http://www.boinc-af.org | http://libristes.boinc-af.net
Hors ligne
#41 Le 20/08/2010, à 21:49
- taziden
Re : Alternative libre au moteur de recherche Google ?
Non, pas d'après ce que j'ai compris.
C'est un méta-moteur d'abord, le temps que les nodes aient assez de contenu utilisé pour tourner par elles-mêmes.
Mais avec un système comme ça, les site quasiment pas visités seront quasiment introuvable, non ?
Rien à voir, c'est d'abord un méta-moteur, le temps de coder la partie P2P, tout simplement.
Celle-ci sera finalisée vers automne-hiver, et tous les coups de main sont les bienvenus d'ailleurs.
Pour le référencement, les sites pertinents seront référencés, et là, le classement opéré dans Seeks sera social avec un part humaine et plus seulement le résultat d'algos tenus jalousement au secret par de grandes corporations.
Hors ligne
#42 Le 20/08/2010, à 21:55
- taziden
Re : Alternative libre au moteur de recherche Google ?
Oui j'ai le même sentiment. Seeks est un très bon meta moteur mais ne constitue pas à mes yeux une alternative entière à Google car il n'est pas indépendant à celui ci.
Le but n'est pas de concurrencer Google d'une part et d'autre part, l'aspect méta-moteur n'est que la première étape du projet.
Hors ligne
#43 Le 20/08/2010, à 22:03
- psychederic
Re : Alternative libre au moteur de recherche Google ?
@psychederic : Seeks implémente une DHT (http://fr.wikipedia.org/wiki/Table_de_hachage_distribuée) basée sur le protocol Chord (http://fr.wikipedia.org/wiki/Chord) modifié pour Seeks.
Dans ce contexte, la charge est automatiquement répartie, une conséquence de l'uniformité de la fonction de hachage. Ensuite, le principe de réplication des données d'un noeud chez ses voisins fournie directement un allègement de charge sur le réseau en mettant à disposition les mêmes données par plusieurs noeuds.
Pour un réseau P2P basé sur une DHT, la convergence revient à la stabilité du réseau (à quelle vitesse se stabilise-t-il par exemple, ou encore, combien de noeuds sont-ils affectés par la disparition d'un autre noeud sur le réseau). L'émergence n'a à ma connaissance aucune application avec les DHT.
"répartie uniformément" : si il y a un noeud avec plus de répondant : le DHT ne le prendra pas assez intelligemment en compte.
Kad utilise les proximité par rapport au ping. C'est déjà bien mais pas encore ca.
un point important pour la réussite c'est d'avoir un DHT qui permet des requêtes en moins de 0.1 secondes : pour que ce soit utilisable et attrayant, quelque soit sa charge : scallable à l'infini.
Donc tous les moyens sont bon pour améliorer tout ca.
https://secure.wikimedia.org/wikipedia/fr/wiki/Fichier:Aco_branches.svg
La fonction de mise à jour de la DHT pourrait surement se voir améliorer avec cette émergence de réseau.
La petite fourmi sait quel chemin est plus cour pour le donut, l'information : mis à jour : adapté en temps réel : est réparti sur un espace de noeuds.
Une charge répartie intelligemment, des noeuds/donuts pour fourmis, et des requêtes plus intelligentes.
Le monde du libre. Ubuntu :Ca rame ? | Installer un logiciel ? Avec Synaptic- Ubuntu Tweak. Msn ?
Hors ligne
#44 Le 20/08/2010, à 22:12
- pilooch
Re : Alternative libre au moteur de recherche Google ?
@dudumomo : je te conseille le très bon post #24 de piti. Si Yacy avait un avenir, Seeks n'existerait pas. Malheureusement, et avec tout le respect dû à ses développeurs, Yacy repose sur une base théorique peu efficace (cf le post de piti donc), et un calcul de pagerank erroné (dans les faits, très difficile, et à ma connaissance pas calculé par Yacy). Le résultat se voit... dans les résultats de Yacy.
Encore pire, Yacy fait effectuer les requête d'un utilisateur A sur les index d'utilisateurs B, C, D, ... Ces dernièrs voient donc les requêtes de l'utilisateur A en clair... Seeks a l'inverse utilise une architecture et un design théorique qui lui permettent de regrouper les utilisateurs effectuant des requêtes similaires et de les laisser partager leurs résultats, SANS JAMAIS révéler la requête elle-même. Cela en regroupant par l'intérmédaire de clés (hash).
@geenux : au début les requêtes rares bénéficieront peu du travail collaboratif. Les résultats seront dès lors ceux du méta-moteur pour ces requêtes. Pas de perte de qualité donc.
A terme, les serveurs Web pourront indexer leur contenu sur Seeks. De ce fait, les seuls sites invisibles seront ceux qui décideront de ne pas s'indexer sur Seeks. Au passage, il faut noter que c'est une liberté fondamentale que de ne pas être indéxé, aujourd'hui pratiquement inexistante, sauf à cause du robots.txt, que rien n'oblige à respecter...
Hors ligne
#45 Le 20/08/2010, à 22:23
- Link31
Re : Alternative libre au moteur de recherche Google ?
A terme, les serveurs Web pourront indexer leur contenu sur Seeks. De ce fait, les seuls sites invisibles seront ceux qui décideront de ne pas s'indexer sur Seeks. Au passage, il faut noter que c'est une liberté fondamentale que de ne pas être indéxé, aujourd'hui pratiquement inexistante, sauf à cause du robots.txt, que rien n'oblige à respecter...
Si tu veux blacklister les serveurs de Google sur ton serveur web, en supposant que ceux-ci ne respectent plus le robots.txt, tu en as parfaitement le droit. Il suffit de bloquer leurs IP ou noms de domaines. Ça m'étonnerait que Google se paye un botnet juste pour contourner ce genre de blocage...
Hors ligne
#46 Le 20/08/2010, à 22:28
- pilooch
Re : Alternative libre au moteur de recherche Google ?
@psychederic : as-tu seulement lu le protocol Chord déjà pointé par piti et moi-même ?
Chord route sur un CERCLE avec des tables logarithmiques ou par graphe de deBruijn.
Les algorithmes auxquels tu te réfères sont des algorithmes d'optimisation multicritère. As-tu seulement lu l'article sur une DHT ? Sur une DHT à 10000 noeuds nous pourrions encore avoir un accès en O(1) à chaque noeud, depuis chaque noeud, cad un temps de réponse de l'ordre de 100ms, avec une table de routage de taille 10000 * 160bit.
Donc tous les moyens sont bons pour améliorer la latence d'une DHT oui, mais certainement pas de l'optimisation multicritère probabiliste.
Hors ligne
#47 Le 20/08/2010, à 22:29
- dudumomo
Re : Alternative libre au moteur de recherche Google ?
En relisant le topic j'ai l'impression qu'on est cerné par 3 dev de seeks ! Haha décidemment si c'est le cas, seeks est très dynamique
Bref, merci pilooch pour ces explications.
Le fait que YaCy soit par structure lent peut, peut être se combler (enfin j'espère).
Le fait que ce soit acentré est un avantage et un inconvénient certes...
Mais je ne pense pas qu'on peut dire que YaCy n'a pas d'avenir....
En revanche, le défaut de sécurité que tu mentionnes me semble très important. Je vais essayer de me renseigner pour savoir où ils en sont.
Concernant le pagerank, il est évidemment différent de notre habitude (En gros Google), car n'est pas basé sur lui contrairement à bien des méta moteurs (Seeks diffère un peu dessus mais tout n'est pas en place évidemment), mais ce là ce qu'ils soit érroné, c'est regrettable si celui ci n'est pas pertinent.
Je vais essayer de les reveiller afin d'avoir plus d'info dessus.
Merci de ces infos précieuses !
Idipops, le réseau social des prestataires de services !
Tutorial and news on how to host your own server: http://freedif.org
Aidez la recherche avec BOINC et rejoignez la Mini-Team Libristes: http://www.boinc-af.org | http://libristes.boinc-af.net
Hors ligne
#48 Le 20/08/2010, à 22:32
- pilooch
Re : Alternative libre au moteur de recherche Google ?
@Link31 c'est tout à fait vrai. Ne pas oublier que l'on pourrait vouloir bloquer l'accès du crawler à seulement certaines des pages servies par un serveur.
Pas impossible mais pas très simple non plus amha (avec Apache mod_authz_host on me souffle dans l'oreillette).
Dernière modification par pilooch (Le 20/08/2010, à 22:35)
Hors ligne
#49 Le 20/08/2010, à 23:03
- pilooch
Re : Alternative libre au moteur de recherche Google ?
@dudumomo : cet article sur Yacy est intéressant : http://en.linuxreviews.org/YaCy
Les requêtes de Yacy sont dans une DHT maintenant, erreur de ma part donc. Elles sont routées et non broadcastées.
Evidemment un défaut équivalent existe chez Seeks, mais il est mitigé car la plupart des noeuds contactés sont des noeuds ayant effectué des requêtes similaires, donc concernés. C'est la contre-partie du partage, il faut s'exposer un minimum. Seeks cherche ce minimum.
Quant au "pas d'avenir" concernant Yacy, malheureusement, je pense rééllement que la recherche sur le Web demain ne passe pas par le pur modèle crawler/indexer. La consonnante sociale est à prendre en compte. Le tout algorithmique n'est pas suffisant, derrière les machines, il y a des humains capables de contextualiser l'information, il faut leur rendre ce pouvoir.
Dernière modification par pilooch (Le 20/08/2010, à 23:06)
Hors ligne
#50 Le 21/08/2010, à 08:55
- dudumomo
Re : Alternative libre au moteur de recherche Google ?
Je suis d'accord sur le fait qu'une part d'humain dans le classement des sites est opportun, mais il me semble qu'une partie crawler/indexation n'est pas incompatible en travail en amount.
Je vais lire l'article que tu m'indiques. Merci
Idipops, le réseau social des prestataires de services !
Tutorial and news on how to host your own server: http://freedif.org
Aidez la recherche avec BOINC et rejoignez la Mini-Team Libristes: http://www.boinc-af.org | http://libristes.boinc-af.net
Hors ligne