Web de données ouvertes

Dans le cadre de notre saison d'animation co-opérée avec la Communauté Urbaine de Bordeaux, nous organisons le 2 décembre 2013, un atelier autour des technologies qui permettent d'enrichir les données en les restructurant et en permettant leur interrogation suivant de nouveaux paradigmes.

Cet événément est l'occasion de revenir sur le projet mené par le département de la Gironde avec la société Mondeca pour la construction d'une ontologie permettant d'importer dans un entrepôt de données des informations relatives aux collèges de la Gironde, au réseau de transport en autobus Transgironde ainsi qu'aux équipements sportifs du département. Pour réaliser cette mise en commun, plusieurs ateliers ont été nécessaires pour que la société Mondeca puisse comprendre le sens des données et proposer des descripteurs candidats permettant d'aligner celles-ci sur des concepts pré-existants dans le web de données.

En effet, la méthodologie employée dans l'univers du web sémantique est la ré-utilisation de concepts modélisés par des communautés pour les ré-employer dans le même contexte ou pour en hériter certaines propriétés dans le cadre d'une utilisation connexe. Dans notre cas, la base permamente des équipements réalisée par l'INSEE a fourni la matrice de la structuration des données. De la même manière plusieurs éléments de référence ont été repris du travail de modélisation effectué par l'établissement public.

Ces éléments sont disponibles sur cet espace de publication. Pour la définition des localisations, la modélisation fournie par le référentiel geonames a été utilisée.  
Au final, nous souhaitions vérifier s'il serait plus facile par cette méthode de répondre à des questions du genre

Quels sont les équipements sportifs du collège Aliénor d’aquitaine?
Quels sont les collèges équipements sportifs, lignes et points d’arrêts d’autocar de Libourne ?
Quels sont les collèges du canton de Libourne ?

Les étapes du projet

Les différents étapes nécessaires à la réalisation du projet ont été les suivantes :

  • Étape 1 Identifier le sens de chaque entité d’information : nom, identifiant, pourcentage, valeur numérique, localisation, etc…
  • Étape 2 Identifier les concepts qui me servent à préciser la nature de mes objets : établissement scolaire, entité administrative, trajet
  • Étape 3 : Identifier les concepts existants sur le web qui peuvent être réutilisés pour définir mes objets
  • Étape 4 : mise en place de la chaîne de transformation : xsl
  • Étape 5 : mise en place de l’ontologie définissant les types de relation qui existent entre mes objets
  • Étape 6 : chargement des données dans un entrepôt stockant les informations sous forme de graphe
  • Étape 7 : interrogation de l’entrepôt

Identification des objets à modéliser

Au travers de ces étapes plusieurs objets à modéliser ont été identifiés qui constituent aujourd'hui les classes de l'ontologie collège réalisée :

Objet 1 : établissement scolaire

  • Type collège public
  • Classe : équipement
  • Propriétés : adresse, personnes responsables, effectifs, etc…

Objet 2 : équipement sportif

  • Type équipement public
  • Classe : équipement
  • Propriétés : composant de, sports pratiqués, localisation

Objet 3 : autocar

  • Type : transport public
  • Classe : transport
  • Propriétés : lignes, trajets, points d’arrêts, horaires

Objet 4 : découpage administratif

  • Type : entité publique
  • Classe : administration territoriale
  • Propriétés : identifiant, nom, territoire

Les livrables

A l'issue de ce projet d'expérimentation les livrables sont de 3 types :

  • des feuilles de traitement de type xsl permettant de transformer les fichiers csv (transformés en XML par le biais de l'outil csved, en téléchargement libre) publiés sur la ressourcerie en fichier rdf.
  • une ontologie OWL modélisant la fiche collège et l'ensemble des objets que l'on a souhaité y lier lors de cette phase et un dump de l'entrepôt RDF résultant de l'importation de tous les fichiers utilisés dans l'entrepôt RDF SESAME (en téléchargement libre)
  • un espace de démonstration à l'usage des agents de la collectivité et de leurs partenaires pour démontrer un usage qui pourrait être fait à partir des données agrégées.
  • Ce démonstrateur est basé sur l'outil Knowledge browser de la société Mondeca et permet :
    • d'interroger les données
    • de naviguer dans les données en fournissant un mécanisme de rebond à partir des liens effectués entre les données partageant des éléments communs
    • de visualiser certaiens données sur une carte.

Le bilan

A partir de cette expérience il est possible de tirer un certain nombre d'enseignement quant à l'apport des technologies du web de données pour répondre aux problématiques des systèmes d'informations des collectivités publiques:

  • des connaissances sont nécessaires pour l’utilisation des technologies du web de données
  • l’approche par ontologie permet de mettre en relation différents acteurs d’un même domaine de manière assez souple
  • les utilisateurs producteurs de données sont nécessaires pour concevoir l’ontologie en fonction d’usages réels
  • il y a encore pas mal de travail à réaliser pour qualifier les données sources pour permettre au croisement d’avoir toute la pertinence attendue

D'ors et déjà l'ensemble des feuilles de transformation et des données transformées en RDF ainsi que l'ontologie produite sont à diposition sous licence Creative Commons (CC-By-SA) sur cette forge Github : https://github.com/datalocale/rdf-data/

Commentaires archivés

Aucun commentaire disponible.