Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 07/08/2014, à 14:48

diabolos29

Trouver les actualités dominantes sur une période donnée

Bonjour,

Je voudrais parler d'un projet sur lequel je travaille en ce moment.

J'ai fait le constat que notre mémoire (la mienne par exemple) n'est pas assez exercée. Cela s'explique par diverses raisons et je pense que c'est un mouvement de fond enclenché car nous utilisons de plus en plus des outils qui font l'effort de mémorisation à notre place.
Bref, l'actualité est quelque chose qui évolue en permanence. Les dernières actualités "replacement" en quelque sorte celles plus anciennes. On n'oublie pas vraiment mais il est plus dur de les resituer.
Je me suis amusé à faire un test auprès de divers collègues/amis en leur demandant s'ils étaient en mesure de se souvenir d'une actualité les ayant marqué il y a 3 mois. Généralement, c'est non. Faites l'essai vous même pour voir big_smile.
Note : ce n'est pas l'actualité qui importe le plus mais bien si la personne en face arrive à se souvenir de quelque chose sur la période donnée.

Je détaille un peu plus ça sur mon blog : http://blog.sujets-libres.fr/?p=1575

Concrètement, il s'agit d'une part d'un script permettant d'effectuer une collecte des titres dans des flux (RSS ou ATOM) préalablement sélectionnés (en effet, la notion d'actualité varie d'un individu à un autre).
D'autre part, un autre script permet de lancer l'analyse sur ce que l'on a collecté au préalable.
Les scripts sont en Python et s'appuient sur une base de donnée PostgreSQL.

Je détaille la mise en place sur mon blog : http://blog.sujets-libres.fr/?p=1594

Voici ce que ça donne par exemple pour le flux du monde.fr entre le 16/07/2014 et le 24/07/2014 (mots fortement associés):

[1, ['actionnaire', 'azerbaïdjanais', 'soutien', 'perd']]
[1, ['adoptée', 'définitivement', 'ferroviaire', 'réforme']]
[1, ['afrique', 'sud']]
[1, ['diffusion', 'filippetti', 'VOD']]
[1, ['découverte', 'galaxie', 'étoiles', 'lointaines']]
[1, ['enfants', 'aube', 'six']]
[1, ['ennemis', 'refusent', 'juifs', 'arabes']]
[1, ['formule', 'rosberg']]
[1, ['françois', 'hollande']]
[1, ['james', 'rodriguez']]
[1, ['jour', 'images']]
[1, ['musulmans', 'attentats', 'FBI', 'américains']]
[1, ['pro-gaza', 'manifestation']]
[1, ['rammasun', 'typhon']]
[1, ['rugbymen', 'agressés', 'clermont']]
[1, ['russie', 'mistral', 'vente']]
[1, ['scénarios', '5017', 'disparition']]
[1, ['tarnac', 'épisode']]
[1, ['trafic', 'interrompu']]
[1, ['viande', 'périmée', 'chine']]
[2, ['armée', 'fois', 'civils', 'djihadistes']]
[2, ['force', 'boko', 'régionale', 'haram']]
[2, ['hommes-femmes', 'loi', 'égalité', 'projet', 'adopté']]
[5, ['avion', 'taïwan', 'accident']]
[5, ['week-end', 'mh17', 'retenir', 'gaza', 'manifestations']]

Le même flux mais entre le 25/07/2014 et le 31/07/2014 :

[1, ['accidents', 'avion']]
[1, ['algérie', 'air']]
[1, ['autoroute', 'a831']]
[1, ['avoir', 'accuse']]
[1, ['comic-con', 'grand-messe']]
[1, ['direct', 'suivez']]
[1, ['détournés', 'dons']]
[1, ['envisagerait', 'LDJ', 'dissolution']]
[1, ['ex-actionnaires', 'ioukos', 'moscou', 'verser']]
[1, ['examen', 'mis']]
[1, ['famille', 'membres']]
[1, ['game', 'thrones']]
[1, ['meuse', 'accident']]
[1, ['millions', 'euros']]
[1, ['nobel', 'prix']]
[1, ['pole', 'rosberg']]
[1, ['royaume-uni', 'ex-espion', 'litvinenko', 'russe']]
[1, ['site', 'ukraine']]
[1, ['évasion', 'fiscale']]
[2, ['5017', 'vol']]
[2, ['anglais', 'détenus', 'guitare', 'jouer', 'autorisés']]
[2, ['capital', 'augmentation', 'libération', 'lieu']]
[2, ['ebola', '660', 'alourdit', 'virus', 'bilan']]
[2, ['julio', 'football', 'parrain', 'argentin', 'grondona']]
[2, ['manquaient', 'procès', 'restaurant', 'preuves', 'casher']]
[2, ['pic', 'naissances', 'mois', 'neuf', 'shutdown']]
[2, ['présumée', 'affaire', 'australie', 'médias', 'corruption']]
[2, ['épisode', 'tarnac']]
[3, ['cocaïne', 'orfèvres', 'perquisition', 'disparition', 'quai']]
[3, ['zurich', 'lille', 'champions']]
[4, ['gaz', 'moins', 'explosions', 'taïwan']]
[7, ['aménagement', 'générale', 'jérôme', 'peine', 'kerviel', 'société']]

Tout est encore perfectible, certaines associations n'évoquant rien de particulier au premier abord, mais dans le cas présent, ça permet déjà de dégager des actus dominantes.
Petite précision : pour le moment, ça fonctionne avec des sources en Français (une partie de l'analyse nettoie les titres de leurs articles, pronoms, adjectifs et autres conjonctions) .

Dernière modification par diabolos29 (Le 07/08/2014, à 18:46)

Hors ligne