Open Data : Quand les données deviennent libres

A l’occasion de la publication de l’ouvrage “Open Data : comprendre l’ouverture des données publiques” de Simon Chignard chez notre partenaire FYP Editions, voici un petit article pour en savoir plus sur les enjeux de l’ouverture des données publiques.

A l’ère du numérique, nous produisons tous en permanence des millions de données. Dès que l’on se connecte à Internet, des statistiques sont produites en permanence. Mais ce n’est pas tout : on mesure également le nombre de produits achetés en moyenne dans les supermarchés, le nombre de SMS envoyés par jour, la quantité d’eau utilisée par chaque foyer… Bref, “tout est donnée” comme le dit Simon Chignard, auteur du livre [Open Data : Comprendre l’ouverture des données publiques

(FYP Editions), ouvrage qui sert de référence et d’inspiration à cet article.

Définition

La donnée est un concept très large : il s’agit, en gros, d’une mesure. Mais une mesure à l’état brut, non traitée. Exemple : population de la France : 65 436 552. A l’état brut — cela veut dire dans un tableau tout moche et pas sur un magnifique graphe montrant l’évolution de la population comme sur Google. Une distinction importante et extrêmement bien formulée par Simon Chignard est la distinction entre donnée et information. L’exemple pris est celui de la température. Si je dis, il fait exactement 17°C, je fournis une donnée. Si en revanche je constate qu’il fait 17°C, et que cela est frais pour un mois de juillet, je produis alors une information : j’ai combiné plusieurs données ainsi que de l’expérience pour produire une information certes plus complète que la donnée, mais moins objective. La donnée doit être brute pour être la plus objective possible et ainsi permettre toutes les réutilisations possibles. En effet, il y a plus de possibilités de réutilisation de la donnée “17°C” que de l’information “il fait frais pour un mois de juillet”.

Vous vous doutez donc que toutes les entreprises, mais aussi tous les sites webs créent en permanence des données et les conservent. Par exemple, dans le cas d’Inside Electronic Pipo et de la plupart des sites webs, nous conservons et analysons des données sur la fréquentation du site.

Nos institutions, elles aussi (et même surtout), créent et conservent des données, en quantités considérables. Et de tous types : démographiques (la population et ce qui l’entoure), économiques (statistiques etc), géographiques (localisation des sources d’eau par exemple) “assistantielles” (données sur l’utilisation des transports par exemple)… il y en a à profusion ! Le mouvement Open Data consiste, pour les institutions publiques et les personnes privées, entreprises ou individus, à publier et rendre accessible librement leurs jeux de données. Cependant, une donnée publiée n’est pas forcément ouverte : il y a un certain nombre de critères qui définissent l’ouverture ou non d’une donnée.

-* Le format : il faut que le format de publication soit le plus ouvert possible. En gros, certains formats sont libres de droits, comme le format CSV pour les données sous forme de tableaux, tandis que d’autres sont “propriétaires”, donc non libres. Un exemple : le format XLSX, correspondant à Excel version 2007 et supérieures (qui appartient donc à Microsoft).
-* La licence de publication : tous les contenus publiés doivent l’être sous une licence pour les protéger et garantir les droits des auteurs en cas de litige. Cependant, certains licences (comme la licence Creative Commons utilisée par Inside Electronic Pipo) permettent de réutiliser le contenu, sous certaines conditions, tandis que d’autres, plus fermées, n’autorisent aucune ré-exploitation du contenu.
-* Le prix : l’ouverture des données ne va pas forcément de pair avec leur gratuité. Cependant, il est évident que les données les plus ouvertes seront les moins chères.
D’autres critères ont été ajoutés pour décrire les données ouvertes. Il faut ainsi, d’après Lawrence Lessig, promoteur des licences Creative Commons, et Tim O’Reilly, créateur du concept de “Web 2.0”, que les données soient complètes, qu’elles soient tenues à jour et publiées immédiatement et qu’elles soient accessibles à tous sans nécessité d’inscription ou d’authentification. Ce sont cependant des critères très précis, et dans la pratique, il est rare de trouver des données totalement ouvertes.

Mais à quoi ça sert ?

Il est en effet légitime de se demander quelle est l’utilité d’ouvrir et de publier ces données. Cela entraine en effet des coûts considérables, et l’on peut aussi se demander s’il est vraiment dans l’intérêt d’une entreprise, et a fortiori d’une institution publique, de publier toutes ses données. Ces deux raisons sont d’ailleurs souvent citées lors du refus de publication des données, ou de toutes les données.

Il y a cependant beaucoup d’avantages à l’ouverture des données, et surtout à l’ouverture des données publiques. Tout d’abord, on peut considérer que cela nous est dû. En effet, ces données sont produites grâce à l’argent du contribuable, et il est donc logique que celui-ci puisse les exploiter. Par ailleurs, cela peut permettre de revitaliser la vie politique et la démocratie grâce à la participation des citoyens. Le lien entre administrateurs et administrés est revisité : on permet ainsi aux administrés de donner de nouveaux avis et de donner de nouvelles possibilités d’utilisation des données. Car l’ouverture des données publiques permet également (et surtout ?) de promouvoir l’innovation, en permettant à tout un chacun de ré-exploiter les données et d’en faire quelque chose. Un exemple mis en avant par Simon Chignard, et qui donne tout son sens à l’ouverture des données publiques, est celui de Handimap.

En 2010, à Rennes, à l’occasion du concours de Rennes Métropole, des centaines de jeux de données concernant Rennes et ses alentours ont été publiés. Les données étaient géographiques et territoriales et concernaient également les transports en commun, Keolis étant l’entreprise gérant les transports publics de Rennes. Le but du concours était de récompenser des services innovants réutilisant ces données publiées. L’initiative primée en 2011 se nomme Handimap. Il s’agit de la ré-exploitation par un site web des données sur l’emplacement des trottoirs surbaissés. Grâce à ces données, le site calcule l’itinéraire le plus simple pour les handicapés moteurs, afin de leur faciliter le déplacement piéton en ville. Une utilisation qui n’aurait probablement jamais vu le jour sans la combinaison de l’ouverture totale et complète des données par Rennes et l’esprit d’innovation des ré-utilisateurs des données.

Il va sans dire que si, dans ce cas-là, la ré-exploitation a ravi toutes les parties en présence, à savoir le producteur des données, le ré-utilisateur (Handimap) et le public visé (dans ce cas précis, les handicapés moteurs — cependant, les ré-utilisateurs et le public visé peuvent être confondus), cela ne se passe pas toujours aussi bien. L’ouverture des données publiques peut aboutir à des réutilisations entrainant leur privatisation. Par exemple, la publication des données brutes de généalogie ne sert à rien pour un particulier cherchant à retrouver le nom de ses arrières-arrières-arrières-arrières-arrières-grands-parents. En revanche, des services spécialisés permettent, moyennant paiement, de retrouver ces informations. Le principe de l’open data en est ainsi détourné.

Cependant, au vu de la qualité des produits qui sont issus de l’ouverture des données publiques, les arguments allant à l’encontre de cette publication paraissent bien faibles. Après tout, peut-on vraiment reprocher trop de transparence à une institution publique ? En tout cas, il y a encore de la marge avant que l’on puisse effectivement adresser ce reproche à une institution française : si l’open data se développe en France, cela reste de façon localisée et pour certains jeux de données. Même aux Etats-Unis et au Royaume-Uni, d’où est issu le mouvement Open Data, l’ouverture des données publiques n’est pas encore la norme pour les institutions publiques. Et les entreprises privées qui publient leurs données sont encore moins nombreuses. Il ne reste plus qu’à espérer que les effets positifs des premières publications de données ouvertes inspireront les collectivités locales et les gouvernements à encourager ces initiatives. En attendant, si vous voulez en savoir plus sur le sujet, n’hésitez pas à vous plonger dans l’ouvrage de Simon Chignard chez FYP Editions, Open Data : Comprendre l’ouverture des données publiques. Cet article n’aurait pas vu le jour sans sa lecture.