Dans les questions fréquemment posées en formation veille, celle de la création d’un flux RSS est systématique. Il faut dire qu’à l’instar du filtrage des fils RSS, cette problématique est au coeur de la pratique quotidienne. Voici 4 méthodes gratuites que je propose pour contourner ce problème, quelque soit votre niveau.
Cette question se pose dans le cas où vous avez épuisé toutes les méthodes pour trouver un flux RSS sur un site. Chacune des techniques présentées ci-dessous présente ses propres avantages et inconvénients. Tout dépendra donc de la problématique à laquelle vous êtes confrontés (réactivité, stabilité, fiabilité, simplicité,…).
Sommaire
Trouver un flux caché en fonction du CMS
Sur un grand nombre de site, ces derniers sont purement et simplement cachés. La première approche consiste donc à les révéler en fonction du système de gestion de contenus du site.
Avant de se lancer, il est ainsi essentiel de connaitre la technologie derrière le site cible : est-il propulsé par WordPress, Joomla, Drupal ou autre ?
Pour cela, il y a deux possibilités :
- soit vous êtes à l’aise (ou simplement amoureux des lignes de code) et vous allez lire le code source d’une des pages du site pour chercher l’information ;
- soit vous installez l’extension BuiltWith Technology Profiler (pour Chrome et Firefox). C’est l’approche que je vous recommande. Cette extension deviendra votre nouvelle meilleure amie pour décortiquer un site internet.
Dès que vous aurez connaissance du CMS du site à surveiller, consultez ma liste pour découvrir comment générer le flux RSS d’un site.
Vous pourrez notamment découvrir qu’il est possible d’aller plus loin que créer un flux RSS générique des sites. A vous la création des fils thématiques (et donc plus ciblés) ou même la surveillance des commentaires d’un blog ou d’un article spécifique.
Utiliser Google Alertes et l’opérateur site:
Si vous me lisez régulièrement, vous êtes probablement déjà à l’aise la recherche avancée sur Google. En utilisant l’opérateur site: pour Google, vous allez afficher toutes les pages web que Google a indexé.
Supposons par exemple que vous souhaitiez fabriquer un flux pour le site du Monde. Cela reste un exemple car Le Monde propose nativement des fils de veille ;-). En tapant site:lemonde.fr dans Google, vous afficherez toutes ses pages internet référencées dans Google.
Copiez votre requête Google site:lemonde.fr, puis connectez-vous à Google (via votre compte Gmail ou GSuite).
Rendez-vous ensuite sur l’outil Google Alertes puis collez votre requête. Cliquez sur « affichez les options », puis configurez l’outil comme suit en prenant soin dans « envoyer à » de choisir « flux RSS » :
Après avoir créé l’alerte, survolez l’icône RSS puis copiez le lien de destination. Collez le ensuite dans votre lecteur de flux.
Au démarrage, il est normal que le flux soit vide. Dès que Google indexera une nouvelle page du site du Monde, vous le recevrez dans votre agrégateur.
Notez qu’il est possible d’aller plus loin en ne créant que le flux RSS d’une catégorie. En observant la constitution du site du Monde, nous remarquons que les articles de la rubrique « éducation » ont tous au début de leur URL http://www.lemonde.fr/education/.
Ainsi, en ajoutant dans Google Alerts la requête site:lemonde.fr/education/, vous ne recevrez que les articles de cette catégorie. Cette astuce sera très précieuse car elle vous évitera par la suite de devoir filtrer votre flux, surtout pour des sites qui produisent beaucoup de contenus quotidiens.
Surveiller le compte Twitter relié à un site internet
L’une des autres méthodes consiste à surveiller le compte Twitter du site. Pour cela, nous allons d’abord utiliser deux opérateurs de recherche avancée sur Twitter pour constituer une requête :
- l’opérateur from: pour ne garder que les tweets du compte cible ;
- et l’opérateur url: pour ne garder que les tweets intégrant des liens renvoyant vers le site en question.
Par exemple, vous savez que l’éditeur du blog keepitsimple.fr est le compte Twitter @brycoder. Votre requête sera donc :
from:brycoder url:keepitsimple.fr
Afin d’éliminer le bruit de cette requête, je vous recommande d’ajouter l’opérateur exclude:replies. Cela aura pour effet de supprimer les conversations d’utilisateurs sur Twitter, qui ne vous intéressent pas. Nous aurons ainsi la requête suivante :
Une fois votre requête constituée, utilisez l’outil Queryfeed.net pour créer son flux RSS. Cet outil agira comme Google Alerts dans notre exemple précédent :
Notez que si vous utilisez la version premium d’Inoreader, vous n’êtes pas obligés d’utiliser Queryfeed. Vous pourrez directement importer le lien de la requête Twitter directement dans l’outil.
Créer un flux RSS manuellement via Politepol ou Fivefilters
Les deux outils suivants vont vous permettre de créer directement un flux RSS, sans passer par Google ou Twitter. Si je vous en présente 2, c’est qu’ils ont chacun leurs atouts et inconvénients :
- Politepol est user-friendly mais parfois instable ;
- Fivefilters est stable et peut-être installé sur votre serveur, mais est plus complexe à utiliser.
Politepol est une trouvaille de Serge Courrier que j’ai testé récemment. L’outil pourra faire l’affaire si vous souhaitez éviter de passer par Google Alerts ou Twitter. C’est un outil user-friendly, comme ceux que je privilégiais auparavant comme Open Dapper (tué par Yahoo à l’instar de Y! Pipes) ou encore Kimonolabs.
Prenons l’exemple où vous souhaitez surveiller la rubrique « boite à outils & tutoriels » de Keep it simple. Rendez-vous sur politepol.com/en/ puis ajoutez le lien de ma rubrique tutoriels : https://www.keepitsimple.fr/outils-tutoriels
Un écran s’ouvre ensuite où serez invités à indiquer à l’outil quels sont les titres des articles, puis quelles sont les descriptions :
A la fin, vous aurez un flux RSS de la rubrique concernée, prêt à être suivi dans votre lecteur de flux.
Il est aussi possible d’utiliser Fivefilters qui permet de réaliser la même chose que Politepol. Moins user-friendly, il est globalement plus stable et offre l’avantage de personnaliser le flux sortant (date de publication, auteur, etc.), si vous êtes à l’aise avec la technique.
Reprenons l’exemple précédent où vous souhaitez créer une veille sur ma rubrique tutoriels. Rendez-vous sur createfeed.fivefilters.org/ puis ajoutez le lien de ma rubrique tutoriels. Indiquez ensuite à Fivefilters la class CSS qui détermine les titres des articles :
Pour découvrir un autre cas d’usage de Fivefilters, sachez que c’est cet outil que j’utilise pour faire une veille concurrentielle sur Tripadvisor.
Conclusion
Le choix de l’une de ces méthodes dépend naturellement de votre aisance technique, mais aussi de vos enjeux de veille.
Dans la majorité des cas, je privilégie d’abord la première approche. Il est fréquent de tomber sur des sites avec des CMS génériques, notamment WordPress.
Si cela ne me donne aucune satisfaction, je vous recommande de vous tourner vers la 4ème technique. Elle est plus complexe mais vous affranchira de l’indexation Google ou de l’absence de comptes Twitter.
Et vous, quelles méthodes/ techniques utilisez-vous ?