L’étude présentée par Transparence International France et Regards Citoyens porte sur l'intégralité des rapports parlementaires produits par l'Assemblée nationale entre juillet 2007 et juillet 2010.
Tous les éléments utilisés sont issus de données publiques.
Le défi majeur de cette démarche reposait sur la multiplicité et la grande hétérogénéïté des documents traités, à savoir 1174 documents et le grand nombre d’acteurs auditionnés.
L'étude s'est déroulée en cinq étapes, depuis la mise à jour de données inédites jusqu'à leur analyse.
Afin de recenser les personnes auditionnées à l'Assemblée, nous nous sommes penchés spécifiquement sur les rapports qui publient une liste de ces auditions. La première étape a donc consisté à créer un logiciel permettant de repérer les documents contenant cette information, généralement en annexe, et d'en extraire ces listes.
Nous avons ainsi pu identifier des listes de personnes auditionnées dans 38% des rapports étudiés.
Les noms des organisations entendues par les députés prenant des formes très diverses, le repérage de manière automatique était impossible. Nous avons donc commencé par identifier l'élément le plus simple pour y parvenir : les noms des personnes auditionnées, avec deux techniques utilisées :
A la fin de cette étape, une base de 16 725 auditionnés potentiels a été constituée.
Nous avons ensuite fait appel à l'intelligence collective en construisant une application web de crowdsourcing invitant les internautes à retrouver pour nous le sexe, la fonction et l'organisation des personnes auditionnées. Entre le 4 et le 15 août 2010, 3 200 personnes informées par nos sites web et par les réseaux sociaux (twitter, identica, ...) nous ont aidé dans cette tâche. Afin de prévenir tout risque de données faussées lors de cette coproduction, chacun des 16 700 noms a été saisi par au moins 3 internautes différents : lorsque 2 au moins d'entre eux avaient rempli exactement la même information, les données étaient validées. Une option permettait de signaler les doublons ou les enregistrements ne correspondant pas à des personnes ayant été auditionnées. Elle a été utilisée pour un peu plus de 1 000 enregistrements.
En moins de 15 jours, 3 200 internautes nous ont aidé à enrichir notre base des organisations, fonctions et genre pour les 15 451 personnes auditionnées.
Pour plus d'information, lire le bilan sur le blog de Regards Citoyens
Une dernière information nous manquait : dans quelles catégories classer chacune des organisations ainsi recensées ? Nous avons mis au point une typologie d’acteurs inspirée notamment du travail des institutions européennes pour leur registre de lobbyistes. En affectant les données cette typologie a évolué peu à peu de façon itérative, rendant cette tâche difficile à partager avec les internautes. Nous avons donc développé une nouvelle application web interne permettant à une demi-douzaine de membres de Transparence International France et Regards Citoyens de réaliser cette catégorisation.
La création de la typologie et la catégorisation des 4 635 organisations repérées nous ont mobilisé pendant 3 mois.
Enfin, dernière étape, la qualification des données. Un travail d'agrégation a été nécessaire afin de regrouper les différentes occurences d'une même organisation saisies différemment. Nous avons utilisé pour cela des algorithmes assez classiques, notamment grâce au logiciel libre Freebase Grid Works, et par le développement d'un petit outil logiciel permettant de traiter les acronymes. Certaines organisations étant représentées par plusieurs représentants lors d'une même audition, nous avons estimé que cela pouvait introduire un biais dans l'étude. Nous n'avons donc comptabilisé qu'une seule fois par rapport chacun de ces organismes.
Les 30 thèmes qui sont présentés sont issus des mots clés affectés par l’Assemblée nationale aux rapports qu’elle publie
En mars 2011 sont rendues publiques une interface de visualisation ainsi qu'une première analyse des données.
Au vu de l’étendue des données traitées et de leur hétérogénéité, celles-ci contiennent encore des erreurs : chacune des personnes auditionnées dans tous les rapports n’a peut être pas encore été repérée, certaines organisations au profil particulier n'ont peut-être pas été catégorisées correctement. Cependant, Au regard de la taille de l'échantillon traité, de la période de temps étudiée (3 ans), et des méthodes de travail employées requérant une saisie multiple ainsi qu'une phase de validation à la fin de chaque étape, nous évaluons le taux d'erreur à un maximum de 5%.
Dans une démarche transparente, les données produites sont accessibles et librement réutilisables par tous. Même si les documents contenant les noms des personnes auditionnées sont tous publics, nous n'avons pu, malgré nos demandes, obtenir une réponse claire de la CNIL et de l'Assemblée nationale. C'est pourquoi, en attendant, nous avons fait le choix de ne publier que les noms des organismes afin d'anonymiser les personnes. Cette libre mise à disposition devrait notamment permettre à toutes les personnes intéressées par le fonctionnement de la vie publique d'approfondir leur connaissance du lobbying et de nous aider à améliorer, si nécessaire, ces données.
Les données et les premiers éléments d’analyse de mars 2011 sont issus de l’étude sur l’influence à l’Assemblée nationale de Transparence International France et Regards Citoyens. Ces données sont librement réutilisables suivant les clauses de la licence ODBL. Deux conditions sont demandées en échange de l'exploitation des données :
Elles sont téléchageables depuis http://www.regardscitoyens.org/transparence-france/etude-lobbying/téléchargement/