Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 23/02/2015, à 10:48

psic

crawler/spider web basé sur des mots-clés

Bonjour,

Je cherche un ensemble de sites web qui traitent d'un ensemble de mot clés, pour être plus clair, je cherche tout les sites web qui causent ou citent un certain nombre de communes en particuliers (et quelques autres mots clés).
Je pourrais faire toute les recherches à la main avec google ou autres, et faire ça à la main, mais j'aimerais bien automatiser tout ça!
Je ne sais pas du tout comment faire, je connais juste un peu Nutch, mais je ne sais pas s'il y aurais quelques chose de plus simple. Je veux juste connaître les urls des sites web, pas le contenu.

si vous avez des pistes...

Merci!

Hors ligne

#2 Le 23/02/2015, à 13:47

voxdemonix

Re : crawler/spider web basé sur des mots-clés

C'est tout con, au lieu de faire un bot qui scan le web, tu fais un bot qui interroge les moteurs de recherches. (c'est se que font StartPage et DuckDuckGo)

exemple:

<?php
$homepage = file_get_contents('https://www.google.com/search?q=Infernalis+Creatorem');
if (preg_match('/^(http|https|ftp)://([A-Z0-9][A-Z0-9_-]*(?:.[A-Z0-9][A-Z0-9_-]*)+):?(d+)?/?/i', $homepage)) {
    echo "URL Detected !.";
}
?>

PS: évite de balancer 2000 requêtes par seconde aux moteurs de recherche si non ils risquent de te bannir.

Dernière modification par voxdemonix (Le 23/02/2015, à 13:57)

Hors ligne