Google a lancé un concours de présentation et d’interprétation de données (dataviz) pour les élections présidentielles françaises de 2012.  Nommé GoogleViz, le challenge est ouvert à tous et les candidats doivent soumettre une application web répondant un à cahier des charges très libre. Le but : proposer un nouvel éclairage sur la campagne présidentielle 2012.

Avec trois compères (Quentin, Vincent et Matthieu), nous avons décidé de participer à ce concours. La problématique dégagée est la suivante : développer une application permettant d’agréger, de traiter et de présenter clairement et simplement toutes les informations relatives aux candidats des élections 2012. Ambitieux n’est-ce pas ? Mais nous y sommes parvenu, Tendance 2012 est née.

 

Logo Tendance 2012

Les sources de données

Réfléchir aux sources pertinentes fut la première étape, voici celles que nous avons sélectionnées :

  • Twitter est un flux continu d’informations plus ou moins précises dans un langage plus ou moins bon dont les sources sont plus ou moins bonnes. Autant le dire, il va falloir trier tout ça.
  • Google Insight fournit les tendances des recherches sur la toile et permet d’avoir un bon ressenti de ce qui intéresse vraiment les internautes. Précise et organisée, c’est une source d’information parfaite pour nous.
  • Les flux RSS de 10 grands journaux français (Le Monde, Libération, Le Figaro…) représentent une bonne vision des informations sur les candidats et leurs campagnes. Des données quotidiennes et parlantes.

Il est certain que le web à bien plus de données que celles-ci mais il a fallu faire un choix. Cependant, nous ne voulions pas fermer de porte et avons donc garder en tête de produire une application modulable permettant d’agréger de nouvelles sources d’informations par la suite facilement.

Le gros challenge dans ces sources de données est véritablement Twitter. On y trouve vraiment tout et n’importe quoi et il était indispensable de trier et hiérachiser les données. Compter le nombre de tweets d’un candidat, compter son nombre de retweets, analyser l’évolution de son nombre de followers… ok mais tout cela ne veut au final rien dire puisque peu représentatif. Chaque jour les tweets les plus retweetés sont des blagues ou des conseils beautés, c’est insignifiant. Il fallait trouver mieux.

 

L’analyse de sentiments

C’est le terme qui commence à être à la mode, on veut récupérer un maximum d’informations, oui, mais on veut surtout savoir si elles sont positives ou négatives. C’est un procédé que nous avons mis en place pour analyser les tweets. En entrée, un tweet parlant d’un candidat à la présidentielle et chose importante : il est en français. Ce tweet brute doit être alors être classer dans une catégorie : positifs, négatifs ou neutre. C’est ce que nous avons mis en place grâce à la librairie java LingPipe.

Le processus que nous avons mis en place est simple. Dans un premier temps nous notons des tweets à la main. Puis, une fois quelques centaines de tweets notés, nous les utilisons comme entraînement pour l’analyse de sentiments. C’est-à-dire qu’en se basant sur les tweets approuvés manuellement, notre programme est capable de catégoriser les tweets brutes que nous lui présentons, une sorte d’intelligence artificielle. Les tweets sont notés directement dans la base de données par lots de 300 et nous nous retrouvons vite avec une véritable analyse des tweets par date et par candidat. Vraiment bluffant.

 

Codons !

C’est la partie sur laquelle nous avons eu le moins d’hésitations. Geeks dans l’âme nous avons opté pour des technos récentes pour développer vite et efficace. En ce sens nous sommes partis sur du Spring 3.0, du MongoDB et un front-office propulsé par motools. MongoDB est vraiment adapté à ce genre de projet de par sa scalabilité et sa rapidité, a raison de 20.000 tweets quotidiens, il valait mieux. Les données ont été présentées à l’aide de HighCharts. Après 3 semaines et quelques courtes nuits, notre application tournait (même sur IE :) ).

Une grande partie de notre temps a été alloué aux « mashups » des données c’est-à-dire aux formules mathématiques que nous avons mise en place pour déterminer les différentes graphiques à exposer. Popularité, tendance ou encore désintérêt sont des calculs que nous avons mis du temps à appliquer à un modèle mathématiques. Et à partir de là, pourquoi ne pas les extrapoler et prédire le gagnant futur des élections ?

France tendance 2012

Game Over

Les résultats ont alors été annoncés et Tendance2012 n’a malheureusement pas été sélectionnée parmi les applications finalistes. Sans doute n’avons-nous pas assez appuyé nos démarches par des écrits, sans doute n’avons-nous pas su mettre en avant nos points forts ou valoriser les données traitées. Nous ne savons pas.

Quoi qu’il en soit, l’équipe est très fière du rendu final de l’application tendance2012.fr. Et même si à l’évidence nous n’avons pas su répondre aux attentes du jury de ce concours, ce fut une excellente expérience riche et mémorable ! Merci à l’équipe GoogleViz qui a organisé ce concours.

Tagged with:
 

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Set your Twitter account name in your settings to use the TwitterBar Section.