La question du filtrage revient systématiquement lorsque du déploiement d’un projet de veille. Et pour cause : plus il sera précis, plus elle sera efficace. Pourtant, épurer le contenu d’un flux RSS n’est pas chose aisée puisque peu d’agrégateurs proposent nativement cette fonctionnalité. Découvrez comment surmonter ce problème.
En éliminant le « bruit » (contenus inutiles) et en supprimant les éventuels doublons, la durée allouée à votre projet de veille sera considérablement réduite.
Ce gain de temps est l’objectif primordial à atteindre pour le pérenniser et obtenir un réel retour sur investissement. Plus vous serez rapide sur le traitement de l’information, plus vous pourrez vous concentrer sur les décisions à prendre.
J’avais déjà abordé cette question l’année dernière en vous apprenant comment éliminer les messages inutiles d’une liste Twitter. Cette fois, nous allons voir comment filtrer le contenu d’un flux RSS grâce à SiftRSS, un outil gratuit et accessible depuis un navigateur.
Son utilisation est très simple :
- collez le lien URL du flux à filtrer ;
- choisissez si vous souhaitez inclure (« include » = garder des contenus) ou exclure (« exclude » = supprimer des contenus) ;
- entrez le terme sur lequel vous souhaitez effectuer le filtrage
- copiez-collez le lien filtré dans votre agrégateur de flux RSS
Je vous recommande d’effectuer un filtrage sur le titre. Voici par exemple le flux RSS de la Une du Monde en ne gardant que les articles à propos de « Fillon » :
Ce qui donne en sortie, le flux RSS suivant :
Comment choisir entre inclusion et exclusion ?
Tout dépend de votre objectif de veille :
- l’inclusion est puissante mais très restrictive et nécessite de bien sélectionner son terme en amont (et donc de préciser ses besoins et le champ lexical associé) ;
- l’exclusion est plus large et plus souple, elle vise surtout à éliminer le « bruit » autour de sujets dont vous êtes sûrs qu’ils ne vous intéressent pas.
Ce qu’il faut savoir sur siftRSS
Après plusieurs paramétrages pour des projets clients, voici les éléments utiles à connaître pour exploiter au mieux l’outil :
- combiner l’option « include » et « does not contains » revient à exclure des articles (= « exclude » + « contains ») ;
- combiner l’option « exclude » et « does not contains » revient à inclure des articles (= « include » + « contains ») ;
- il n’est pas possible d’utiliser les opérateurs booléens (OR ou expression exacte) dans le champ où indiquer le terme à filtrer ;
- il est cependant possible de filtrer un flux sur deux termes, peu importe leur ordre d’apparition (exemple : direct politique) ;
- il est également possible de filtrer « en cascade » : cette méthode est assez utile pour exclure au fur et à mesure des sujets, sans le côté trop restrictif de l’inclusion dont je parlais plus haut.
Exemple d’un filtrage en cascade
Si vous souhaitez par exemple exclure du flux RSS du Monde tous les articles à propos de « Fillon » ET de « Trump », vous pouvez :
- effectuer un premier filtrage du flux RSS du Monde pour exclure les articles sur « Fillon ». Nous obtenons le flux filtré sur « Fillon » : https://siftrss.com/f/7459r4 ;
- filtrer ensuite le flux https://siftrss.com/f/7459r4 pour exclure les articles sur « Trump ».
Nous obtenons ainsi le flux https://siftrss.com/f/a2mXL4 :
Ce lien est donc un flux filtré en 2 étapes, auquel nous avons d’abord exclu les articles sur Fillon, puis sur Trump. Par extension, il est possible de le filtrer en 3, 4, 5 étapes ou plus.
Pour utiliser cette méthode, un conseil : archivez la méthodologie de votre processus et la description des différents liens générés pour y retrouver à l’avenir.
Filtrer un flux RSS issu de plusieurs sources
Dans nos exemples précédents, nous avons vu comment filtrer un flux simple, i.e. issu d’un seul site. Mais il est possible de réaliser la même opération via un flux combiné, i.e. qui regroupe les RSS issus de plusieurs sites.
L’un des outils que je vous recommande d’utiliser est RSSmix (le plus stable) qui vous permettra d’assembler gratuitement jusqu’à 100 flux RSS.
Pour l’exemple, commençons par associer 3 flux RSS : celui du Monde, du Figaro et de Libération pour réaliser une mini-veille médias :
Le flux généré par RSSMix est alors : http://www.rssmix.com/u/8226572/rss.xml
Pour filtrer ce flux et ne garder que les articles à propos de « Fillon », nous allons réitérer les étapes vues précédemment :
Nous obtenons bien un flux filtré, reprenant les deux derniers articles sur le sujet, l’un de Libération, l’autre du Monde :
Conclusion
SiftRSS est un outil qui ravira les veilleurs amateurs et professionnels. Mais il met l’accent sur un point essentiel que j’ai abordé en septembre durant l’une de mes conférences : la nécessité de perdre du temps au démarrage (définition des besoins, paramétrage, consignations de votre processus) pour en gagner par la suite.
Par ailleurs, c’est un outil qui se nourrit exclusivement de flux RSS. Pour en saisir tout le potentiel, je vous invite à consulter la méthodologie complète pour générer des fils RSS sur le web 2.0.
Enfin, notons que si vous êtes équipé de l’agrégateur Inoreader (dont je parle en vidéo ici) en version premium, vous n’avez ni besoin d’utiliser RSSmix pour combiner vos fils, ni besoin d’utiliser siftRSS pour les filtrer. Si vous me lisez régulièrement, vous vous êtes probablement rendu compte que je parlais de plus en plus de cet agrégateur. La raison est simple : c’est selon moi (et je ne suis pas le seul !), l’outil le plus abouti pour se constituer une veille efficace et à moindre coût, compte tenu du temps économisé pour paramétrer votre veille sur internet.