Données connectées et OpenData en Master MIASHS

Depuis l’année universitaire 2016 – 2017, l’équipe du master MIASHS de l’université Paul Valéry à Montpellier me fait confiance et m’a confié deux modules d’enseignement :

  • En Master 1, un module Données Connectées
  • En Master 2, un module OpenData

MIASHS ça signifie Mathématiques Informatique Appliqués aux Sciences Humaines et Sociales.

L’une des particularités de ce master c’est que les étudiants sont dans un parcours professionnalisant avec de l’apprentissage pour former des Data Scientists. Les étudiants sont souvent en reprise d’étude et ont rarement un parcours informatique.

C’est un grand plaisir pour moi d’enseigner dans ces modules parce que :

  • ça me permet de voir d’anciens collègues du LIRMM que j’adore et pour lesquels je manque de temps le reste de l’année
  • ça me force à rester au niveau en programmation Web et en culture Web
  • ça me permet de rencontrer des étudiants aux parcours atypiques
  • ça me sort un peu des préoccupations de NaturalPad pendant deux semaines

Concrètement qu’est-ce qu’on aborde en cours ?

Ou pourquoi un cours de programmation Web dans un master de Data Science ?

Le Web, l’application d’internet probablement la plus connue, est une plateforme permettant à des humains et des machines de consulter et de produire de grandes quantités de données. Le Web peut être vu comme une grande base de données ( plus ou moins bien ) liées les unes aux autres. L’une des compétences attendues d’un Data Scientist étant de constituer un corpus de données pour en extraire des informations, dans ce cours, on apprend à moissonner des données sur le web et les croiser (ou créer des Mashup).

En deuxième année, on met le focus sur les sources de données ouvertes : l’Opendata.

  • Définir ce qu’est l’interopérabilité.
  • Revenir sur les fondements du Web ( http, les URI et les formats de données ).
  • Javascript client en année 1 : du code client pour récupérer des données via des requêtes http et croiser ces données.
  • Javascript serveur web (node.js) en année 2 : requêtes http pour moissonner et croiser des données et fournir à son tour des données via une API Web.
  • Github est central dans la réalisation des projets et dans leurs évaluations.

Le format du cours ?

Pour chaque année, les enseignements sont concentrés en une seule semaine assez intensive. Ce format se prête bien à un enseignement par la pratique en menant un projet. Le projet sert d’évaluation principale du module.

Je cherche à sortir d’un enseignement pyramidal en faisant produire les supports de cours par les étudiants de façon collaborative et en fonction des questions qu’ils posent.

Cette année, cela donne un support rédigé en peer avec un étudiant à côté de moi pour chaque définition hébergé sur Github.

Les projets étudiants

Le sujet est prévu pour être réalisable dans la semaine d’enseignement.

Il s’agit à chaque fois de réaliser un mashup croisant au moins deux sources de données requêtées via http.

En Master 1, le mashup est réalisé uniquement en code client (en utilisant fetch) hébergé en githubpages.

En Master 2, le mashup est réalisé côté serveur en utilisant node.js. Le serveur node doit également fournir à son tour des données dans plusieurs formats via une API web et en mettant en place une négociation de contenu server-driven.

Les idées et réalisations

Parmi les bonnes idées et bonnes réalisations des étudiants ( malheureusement elles ne sont plus toutes disponibles à cette date ) :

RDF et les débats en ligne

Cela fait maintenant deux ans que je travaille dans le cadre de l’ANR intermed sur les débats en ligne. Et après deux ans, nous avons via de nouvelles rencontres, de nouvelles opportunités d’échange sur le sujet. J’en profite alors pour recommander des formats d’échange de données entre différentes applications dédiées aux débats en ligne. Les formats sont des utilisations conjointes de divers vocabulaires RDF.

Il faut dire que ça commence à faire pas mal de temps qu’on nous parle de démocratie participative et que sur le net, il n’y a pas grand chose. Un blog institutionnel par là (voir le travail de blog-territorial et leur livre sur l’usage des blogs dans des collectivités), un élu qui raconte sa vie ici et là, une candidate qui propose une plateforme … En fait si, il y a beaucoup de choses. Il y a beaucoup de forums ou blogs ou l’on peut débattre, quelques wikis aussi. Mais il n’y a pas de réelle plateforme pour les débats qui permette de passer à une grande échelle (de sujets et d’utilisateurs). Il n’y a pas non plus de système qui fasse correctement le lien entre les discussions (en ligne ou non) et les décisions ainsi que leurs mises en application.

L’objectif de l’article n’est pas de dresser un état de l’art de la pratique de débats en ligne mais de proposer des formats d’échanges de données afin de faciliter la création d’une véritable plateforme de débat (ou de transformer le web en une véritable plateforme de débats …).

Dans une vision trés web 2.0, le débat 2.0 permettrait de partager les données entre applications, offrant des possibilité de réutilisation et de traitement de ces données (on veut des Mashups pour le débat !!). Au lieu d’encourager une collectivité à avoir son propre blog et imposer celui-ci comme espace de discussion privilégié des administrés, pourquoi ne pas proposer à la collectivité une application qui lui permette d’aggréger les flux RSS des blogs déjà existant et de synthétiser les critiques qui y sont exprimées.

L’article se compose en deux parties:

  1. La première partie a pour objectif de présenter ce qu’est un débat en ligne et les problématiques d’interopérabilité intrinséque à cette notion.
  2. La deuxième partie présente un ensemble de vocabulaires RDF et leur utilisation conjointe pour représenter les éléments d’une discussion. Les vocabulaires choisis ont leur limite mais l’un des avantages de RDF est que des ponts existent entre les vocabulaires (cf le projet LOD) et que les vocabulaires peuvent être étendus (ajout de classes plus spécialisées, ajout de propriétés, …). La solution de “format” ici présentée n’est donc qu’un début de proposition que nous serons amenés à faire évoluer, cependant, ce qui est présenté ici devrait constituer un noyau stable.

Un débat en ligne c’est quoi ?

Déjà, il m’est très difficile de définir ce qu’est un débat. Alors définir ce qu’est un débat en ligne… Je vous propose un début de définition mais je vous invite à m’aider à la raffiner.

Un débat en ligne c’est un débat supporté (au moins en partie) par des applications web.

Une fois qu’on a dit ça, on n’a pas dit grand chose.

Voici quelques citations pour m’aider à définir ce qu’est un débat.

  • La version wikipédia : Un débat est une discussion sur un sujet, précis ou de fond, annoncé à l’avance, à laquelle prennent part des individus ayant des avis, idées, réflexions ou opinions divergentes pour le sujet considéré.
  • Dans le décret de 2002 relatif à l’organisation du débat public, on observe qu’un débat public est évalué par une commission (de trois à sept membres), avec un président. Une personne publique ou un maître d’ouvrage porteur du débat doit proposer au président de la commission un dossier à destination du public. Ce dossier peut contenir des documents de références jugés nécessaires pour le débat. Ce dossier est donc évalué par la commission avant que le débat public ne soit organisé. Le porteur du débat peut également proposer des modalités d’action et un calendrier. Sont susceptibles de donner naissance à un débat, des projets d’aménagement ou d’équipement d’intérêt national de l’Etat, des collectivités territoriales, des établissements publics, et des personnes privées entrant dans un ensemble de catégories listées dans le décret. La commission peut estimer que le débat n’a pas lieu d’être et proposer une concertation à la place. Le bilan du débat ou de la concertation, doit être publié et transmis aux décisionnaires.
  • Dans la Loi du 27 février 2002 relative à la démocratie de proximité, Champ d’application et objet du débat public : La Commission nationale du débat public, autorité administrative indépendante, est chargée de veiller au respect de la participation du public au processus d’élaboration des projets d’aménagement ou d’équipement d’intérêt national de l’Etat, des collectivités territoriales, des établissements publics et des personnes privées, relevant de catégories d’opérations dont la liste est fixée par décret en Conseil d’Etat, dès lors qu’ils présentent de forts enjeux socio-économiques ou ont des impacts significatifs sur l’environnement ou l’aménagement du territoire. (…) « En outre, la Commission nationale du débat public veille au respect de bonnes conditions d’information du public durant la phase de réalisation des projets dont elle a été saisie jusqu’à la réception des équipements et travaux. « Elle conseille à leur demande les autorités compétentes et tout maître d’ouvrage sur toute question relative à la concertation avec le public tout au long de l’élaboration d’un projet. « La Commission nationale du débat public a également pour mission d’émettre tous avis et recommandations à caractère général ou méthodologique de nature à favoriser et développer la concertation avec le public. « La Commission nationale du débat public et les commissions particulières ne se prononcent pas sur le fond des projets qui leur sont soumis.
  • (Testard-Vaillant, 2008) parle de La place publique ou de l’espace public qui « est un des concepts fondamentaux de la démocratie. Il désigne le lieu symbolique où peuvent s’exprimer toutes les opinions qui structurent le jeu politique, où l’on traite des questions relevant de la collectivité ».
  • Chez (Vedel, 2003), le débat est une phase séparée de l’information des citoyens et de la délibération. C’est l’une des 3 dimensions (information, débat, délibération) de son cube de la démocratie. Le débat ou la discussion permet de mesurer l’étroitesse ou la fermeture de l’espace public. Le débat est la phase entre l’information et la délibération. Le débat s’inscrit donc dans un processus de prise de décision.
  • (Bidima, 1997 p113 ) : Toute palabre suppose la prédisposition des groupes ou sujets en débat à mettre en péril leur vérité par la confrontation. Il s’établit implicitement un mouvement de corrosion des positions assurées et absolues. Palabrer signifie mettre “ses absolus” devant la possibilité de leur relativisation. Ce jeu entre un absolu qui devient relatif et l’émergence du seul absolu qui est le relatif, constitue l’une des composantes du mouvement de prise et de dépossession de la parole qu’est la palabre.
  • (Callon et al, 2002) définissent l’objectif d’un débat public de la façon suivante : “il doit organiser l’accueil des groupes concernés et faciliter la réduction des incertitudes.”
  • (Fung, 2006) estime que les mécanismes participatifs sont évalués selon trois critéres : la légitimité, l’équité et l’efficacité. Les indicateurs pour cette évaluation sont : le champ de participation (qui peut s’exprimer et qui s’exprime), les modes de communication et de prise de décision, l’impact réel des discussions sur les prises de décision.
  • (Vignaux, 1988) la définition d’Aristote de la discussion dialectique est la suivante : c’est un jeu à deux où le couple de partenaires incarne à la fois deux oppositions binaires, celle de l’affirmation et de la négation, celle de la victoire et de la défaite.
  • (Chabrol, 1999), une opinion est un acte discursif où l’énonciateur « modalise » explicitement ou implicitement l’objet de son énonciation avec les dimensions « possible/impossible », « souhaitable/non souhaitable », « beau/laid », « agréable/désagréable » …

On ne trouve pas vraiment de définition de ce qu’est un débat public sur le site du CNDP. On apprend ce qui justifie la mise en place de débats publics, qui sont les acteurs important dans l’organisation du débat et quel est l’objectif principal d’un débat (consulter et informer le citoyen, le faire participer à l’élaboration d’un projet socio-environnemental qui le concerne). Mais on ne nous fournit pas de définition formelle de ce qu’est un débat.

Un débat s’inscrit dans un processus de prise de décision. Le mot débat peut concerner le processus complet ou une étape uniquement du processus de décision. Dans tous les cas, la discussion est un élément central du débat. C’est un échange qui permet d’exprimer des opinions contraires, des oppositions, de revoir ses certitudes ou incertitudes à la lumière de celles des autres participants dans le but d’aider à prendre une décision. Un débat fait intervenir des acteurs différents : des organisateurs, des évaluateurs, des groupes concernés qui se sont manifestés ou qu’il faut identifier.

Ajoutons que pour certains, la discussion est source de formation et d’information, pour d’autres, il faut déjà être informé pour pouvoir discuter. Pour certain il faut réduire les incertitudes des groupes concernés, pour d’autre, il faut aider le décideur.

Soulignons l’importance du sujet et de l’expression du sujet. L’un des échecs du débat public sur les nanotechnologies semble être d’avoir voulu traiter des Nanos dans leur ensemble (cf le site du débat Nano). La formulation du sujet d’un débat a de l’importance, “êtes vous pour ou contre les nanotechnologies ? ” est différent de “sur les options générales en matière de développement et de régulation des nanotechnologies”.

Et enfin, il ne faut pas sous-estimer l’aspect “image” de l’organisateur du débat public. Un autre facteur d’échec du débat public sur les nanotechnologies est peut-être d’avoir été organisé par le CNDP, organisme d’état jugé comme parti pris dans la discussion par de nombreux participants.

Dans notre approche, jusqu’ici, nous avons utilisé des ressources de départ (en l’occurence des documents html en ligne) comme point d’accroche des discussions. Nous avons adopté la position de l’information avant la discussion. Cependant, les deux approches ne sont pas incompatibles. La discussion permet dans tous les cas de s’informer.

Peut-on considérer qu’il existe déjà des outils de débats en ligne ?

Si l’on considére qu’un débat est une discussion dans laquelle s’expriment des opinions alors oui il existe déjà des outils. Tous les outils de discussion permettent d’exprimer des opinions sur des sujets. Après, le traitement de ces opinions n’est pas toujours une mince affaire (Wilson et al, 2009). Dans ce cas, il existe des solutions pour déceler les opinion, mais limitées par des problématiques de taille et de dynamique. La plupart des solutions de détection d’opinions sont effectuées à posteriori, sur des corpus ciblés et de taille limitée. Pas de fouille d’opinion en temps réel.

Si l’on considére que le débat est un processus de décision à part entiére, alors ce processus peut-être découpé en étapes (information, discussion, décision, ou autre découpage). Chaque étape pouvant être plus ou moins soutenue par des outils en ligne, comment faire en sorte que les données produites puissent être utiles d’étapes en étapes (que ces étapes soient intégralement en ligne, ou intégralement en présentiel ou les deux) ?

Nous sommes dans une vision du débat en ligne ou la phase de discussion est primordiale mais non suffisante. Nous sommes dans une vision du débat ou il y a un complément entre “réel et virtuel” (virtuel au sens de numérique). Dans ce contexte, il existe déjà des applications et d’autres sont à inventer. Cette hétérogénéité d’outils pose avant tout un problème d’interopérabilité.

Par exemple, on peut concevoir un outil pour aider à constituer un réseau. Ce réseau aura ensuite besoin de discuter en ligne et en présentiel. Il y aura donc besoin d’outils de discussion en ligne mais aussi d’outils d’organisation d’événements. Il faudra à un moment trouver des documents de références et en produire (donc outils d’annotations, de bookmarking et outils de co-rédaction). A certains moments il faudra prendre des décisions (besoin d’outils de vote). Et à chaque phase en présence, il faudra se référer à ce qui a été produit en ligne (outils de production de synthèses) et éventuellement faire part de ce qui a été dit en présence via des outils en ligne pour ceux qui n’ont pas pu venir aux événements présentiels…

Soit on imagine faire un outil monolithique qui englobe toutes les fonctionnalités nécessaires au débat, soit on conçoit des outils indépendants en garantissant des ponts entre ces outils.

Nous avons fait le choix de la deuxième solution parce que cela permet de réintégrer des outils déjà existants, cela permet de travailler plus facilement à plusieurs acteurs (chaque acteur pouvant développer un module indépendant), cela permet de prévoir des environnements modulables et adaptables à des formules de débats différents (comme le dit le CNDP, à chaque débat ses modalités d’action).

Nous allons dans la deuxième partie de cet article traiter d’un début de solution pour l’interopérabilité.

RDF c’est quoi et à quoi ça sert pour les débats?

Maintenant que l’on a fait le constat qu’il n’y avait pas de réelle application existante pour les débats en ligne mais qu’il existe un ensemble d’applications pouvant supporter des processus de débats en présences, il faut penser à l’articulation de ces outils en ligne entre eux et à l’articulation de ces outils avec les phases de débats en présentiel.

Le premier problème que cela pose est celui des formats de représentation des données. Il faut des formats ouverts, facile à comprendre par des programmes et par des humains. RDF nous semble donc être un bon candidat.

Qu’est-ce que RDF ?

RDF est un langage de description de méta-données. Une méta-donnée est une donnée sur une donnée. Par exemple, vous accédez à un document : la date de création de ce document, l’auteur de ce document sont des méta-données.

Sur la page du W3C consacrée à RDF, la première phrase est : RDF est un modèle standard pour l’échange de données sur le web.

La syntaxe de RDF est basée sur des triplets : sujet-prédicat-objet. Ceci permet d’exprimer des relations binaires entre des ressources. Par exemple, sujet:  Natoine, prédicat : est auteur, Objet : de ce document.

RDF permet de représenter des relations entre des ressources.

RDF permet de typer le lien entre des ressources et de typer les ressources. L’exemple précédent devrait être complété de la façon suivante : sujet : Une Personne identifié comme étant Natoine, est lié : par un lien de type “est auteur”, à une ressource objet : ce document qui est un Billet de blog. On sait que Natoine est une Personne, que le lien est de type est_auteur et que le document est un Billet de Blog. RDF utilise des notions de Classes (Personne, Billet de blog, …), de Relations (est auteur) et d’instances (Natoine est une Personne).

Une ressource est identifiée par une URI. Une URI est un identifiant unique, c’est cette unicité qui est importante. Une URL peut-être utilisée en tant qu’URI.

L’un des intérêts de RDF, c’est que grâce à son mécanisme d’identification des ressources, il est possible à plusieurs personnes de créer des méta-données sur une même ressource et il est possible d’aggréger ces différentes méta-données. RDF semble avoir été inventé pour faire des mashups . Par exemple, le site lastfm va créer un descriptif des musiques que j’écoute. Facebook va créer un descriptif de ma liste d’amis. Dans mon blog je crée un ensemble d’articles. Dans delicious je renseigne les pages web que je lie et les tags que j’utilise. Si ces systèmes proposaient tous des exports RDF des données précitées, je pourrai faire des recoupements comme par exemple savoir quels sont mes amis facebook qui me répondent sur mon blog ou les musiques que nous écoutons en commun, les tags communs que nous utilisons…

Concrétement comment fonctionne RDF?

J’ai présenté dans un article précédent de ce blog un cas d’utilisation du vocabulaire FOAF.

Je vais revenir sur cet exemple pour mieux présenter ce que permet de faire RDF.

La spécification de RDF nous apprend que RDF est un langage de description. Si on y regarde de plus prés, RDF est un méta-langage de description, c’est à dire qu’il permet d’écrire des langages de description (aussi appelés vocabulaires).

RDFS (pour RDF schéma) défini les expressions de base du langage RDF. RDFS définit un ensemble de classes et de propriétés. Dans les classes de RDF, on trouve la classe Classe et la classe Property.

En gros RDF permet d’écrire que Personne est une Classe que cette classe a, entre autres, une Propriété est_auteur. RDF permet aussi de préciser que la Propriété est_auteur permet de relier des instances de la classe Personne et des instances de la classe Document (grâce au Range et au Domain).

Bref, RDF permet de définir des vocabulaires, c’est le cas du Vocabulaire FOAF, donc de fournir un descriptif de classes et de relations entre ces classes.

A partir de ce vocabulaire, et toujours avec la même syntaxe, il devient possible d’exprimer des bases de faits. Il est possible grâce à FOAF de décrire un ensemble d’instances de Personne et les relations entre ces personnes.

Pourquoi définir plusieurs Vocabulaires ?

Il faut peut-être revenir sur la définition de ce qu’est une Ontologie. Le but d’un langage de description est de fournir une syntaxe pour écrire une Ontologie.

Une Ontologie, au sens informatique inspiré du sens philosophique, est une description formelle ou semi-formelle du monde.

Le but ultime est donc de pouvoir décrire le monde dans son ensemble, c’est à dire tous les éléments du monde et leurs relations, toutes les règles,  et ce selon tous les points de vue. Mais aussi de pouvoir raisonner (au sens de créer de nouvelles connaissances) à partir de cette description du monde.

Cependant, il faut constater que ce travail est impossible. Une description du monde dans son ensemble est une tâche colossale, le monde est en évolution constante, le point de vue des uns n’est pas toujours compatible avec le point de vue des autres, …

Du coup au lieu de parler d’Ontologie pour représenter le monde dans son ensemble, on préférera parler d’ontologies légéres permettant de représenter une partie bien définie du monde.

Par exemple, le vocabulaire FOAF permet de faire une ontologie des Personnes et de leurs relations. Le vocabulaire Dublin Core permet de faire une ontologie des documents. Et il existe de nombreuses ontologies pour représenter bien des choses différentes.

Quel format de données utiliser pour les débats ?

Le constat est fait, il faut des outils différents pour les différentes phases des débats. Nous proposons d’utiliser RDF pour représenter les données produites par ces débats.

Maintenant, allons-nous proposer un Vocabulaire pour les débats ?

La réponse est non. Comme dit précédement, il existe déjà des outils qui peuvent servir aux débats. Il existe aussi des vocabulaires pour représenter les données produites par ces différents outils.

Nous n’allons donc pas proposer un Vocabulaire unique pour représenter le débat dans son ensemble, nous allons utiliser des vocabulaires existants pour représenter certaines données des débats.

Par exemple, FOAF nous permettra de représenter les liens entre les individus.

SIOC nous permettra de représenter les productions des individus dans des discussions.

Dublin Core et RSS nous permettront de représenter des informations sur les documents de références servant à informer les participants des débats et les documents produits par les débats.

Annotea permettra de représenter des annotations (c’est à dire des liens entre de nouvelles données et des sélections de documents).

Il existe aussi des vocabulaires pour représenter d’autres données comme des événements (cf travail d’état de l’art et LODE de Raphaël Troncy and co), des coordonnées géographiques, des tags (MOAT, NiceTag), …

Nous allons détailler ici des solutions concrétes de représentation des données de la discussion. Pour le reste, il faut bien comprendre que nous nous inscrivons dans cette démarche de choix de vocabulaires pour lesquels il existe des “ponts” vers d’autres vocabulaires. Par exemple, le vocabulaire SIOC définit une classe UserAccount comme étant une sous-classe de OnlineAccount du vocabulaire FOAF. Cette démarche de lier des ontologies les unes aux autres est centrale dans le projet Linking Open Data. Elle accentue encore plus les possibilités d’aggrégations de méta-données sur des ressources.

Concrétement nous représentons quelles informations et comment ?

Profil “minimal” d’un utilisateur

Le profil minimal d’un utilisateur consiste à associer une ressource à un compte utilisateur. Ceci est fait par la classe UserAccount du vocabulaire SIOC.

Un utilisateur en lui-même est représenté par la classe Person de FOAF.

Ceci sert de point de départ à la représentation du réseau social et d’autres informations de profil de l’utilisateur.

Deux exemples suivent ou nous représentons une personne qui posséde un compte utilisateur avec le login Natoine dans la plateforme de débat “debat2.0.org” (plateforme fictive). Le premier exemple part d’une personne et présente l’un de ses comptes. Le deuxième part d’un compte et présente la personne à qui le compte appartient.

<!– Exemple 1 –>

<?xml version =”1.0″ encoding =”utf-8″?>

<rdf:RDF xmlns:rdf=”http://www.w3.org/1999/02/22-rdf-syntax-ns#”

xmlns:rdfs=”http://www.w3.org/2000/01/rdf-schema#”

xmlns:foaf=”http://xmlns.com/foaf/0.1/”

xmlns:sioc=”http://rdfs.org/sioc/ns#”>

<foaf:Person rdf:about=”http://www.natoine.fr/#me” xml:base=”http://www.natoine.fr”>

<foaf:account>

<sioc:UserAccount rdf:about=”http://www.debat20.com/#natoine” rdfs:label=”natoine”>

<!– Autres informations sur le compte –>

</sioc:UserAccount>

</foaf:account>

<!– Autres informations sur la personne –>

<rdfs:seeAlso rdf:resource=”http://www.natoine.fr/natoine.rdf”/>

</foaf:Person>

</rdf:RDF>

<!– Exemple 2 –>

<?xml version =”1.0″ encoding =”utf-8″?>

<rdf:RDF xmlns:rdf=”http://www.w3.org/1999/02/22-rdf-syntax-ns#”

xmlns:rdfs=”http://www.w3.org/2000/01/rdf-schema#”

xmlns:foaf=”http://xmlns.com/foaf/0.1/”

xmlns:sioc=”http://rdfs.org/sioc/ns#”>

<sioc:UserAccount rdf:about=”http://www.debat20.com/#natoine” rdfs:label=”natoine”>

<sioc:account_of>

<foaf:Person rdf:about=”http://www.natoine.fr/#me” xml:base=”http://www.natoine.fr”>

<!– Autres informations sur la personne –>

<rdfs:seeAlso rdf:resource=”http://www.natoine.fr/natoine.rdf”/>

</foaf:Person>

</sioc:account_of>

<!– Autres informations sur le compte –>

</sioc:UserAccount>

</rdf:RDF>

Pour un exemple plus complet, voir mon article de blog sur FOAF.

Deux remarques :

  • la plupart des propriétés sont définies avec leur propriété inverse. Ici, on a montré qu’il existait une propriété foaf:account et une propriété sioc:account_of qui sont l’inverse l’une de l’autre.
  • Il n’est pas obligatoire de donner toutes les informations au sujet d’une instance. Ici j’utilise la propriété rdfs:seeAlso pour renvoyer à un autre document RDF dans lequel je donne plus d’informations sur la ressource. Cette pratique n’est pas obligatoire mais elle est recommandée. Elle permet d’alléger un document RDF et de guider la recherche d’information sur une ressource.

Participation d’un utilisateur

La participation d’un utilisateur est pour l’instant essentiellement représentée par la classe Post de SIOC. Un Post est un élément de discussion comme il est possible d’en émettre dans un blog ou un forum. L’utilisateur est relié à un Post comme en étant l’auteur grâce à la relation has_creator de SIOC. Cette relation lie le Post au UserAccount de la personne.

Le Post est aussi lié au site, ou espace de discussion, dans lequel il a été émis par la relation has_container de SIOC. Un espace de discussion étant représenté par la classe Forum de SIOC. Un commentaire de blog est représenté par la classe BlogPost de l’extension SIOC types, cette classe BlogPost étant une sous-classe de la classe Post. Un BlogPost est contenu par un Blog qui est une classe spécialisant la classe Forum. Il deviendra peut-être nécessaire de définir d’autres classes étendant la classe Forum pour définir de nouveaux espaces de discussion. Mais il existe déjà pas mal de classes intéressantes, comme une classe Wiki, dans l’extension SIOC types. Il y a aussi d’autres classes et propriétés définies dans SWAN.

Bien d’autres informations peuvent être ajoutées à un Post en utilisant des propriétés de SIOC, ou de Dublin Core et RSS (puisque Dublin Core et RSS permettent d’ajouter des informations sur toutes ressources).

Un exemple ou nous représentons deux posts créés par l’utilisateur Natoine, un dans un forum, un dans un blog :

<?xml version =”1.0″ encoding =”utf-8″?>

<rdf:RDF xmlns:rdf=”http://www.w3.org/1999/02/22-rdf-syntax-ns#”

xmlns:rdfs=”http://www.w3.org/2000/01/rdf-schema#”

xmlns:foaf=”http://xmlns.com/foaf/0.1/”

xmlns:sioc=”http://rdfs.org/sioc/ns#”

xmlns:dc=”http://purl.org/dc/elements/1.1/”

xmlns:dcterms=”http://purl.org/dc/terms/”

xmlns:content=”http://purl.org/rss/1.0/modules/content/”

xmlns:siocType=”http://rdfs.org/sioc/types”

>

<sioc:UserAccount rdf:about=”http://www.debat20.com/#natoine” rdfs:label=”natoine”>

<rdfs:seeAlso rdf:resource=”http://www.debat20.com/useraccount?p=natoine”/>

<sioc:creator_of>

<!– Premier Post –>

<sioc:Post rdf:about=”http://www.natoine.fr/blog/?p=437″>

<sioc:has_container>

<siocType:Weblog rdf:about=”http://www.natoine.fr/wordpress/?sioc_type=site#weblog”>

<sioc:name>Main blog at natoine</sioc:name>

</siocType:Weblog>

</sioc:has_container>

<dcterms:created>2010-02-01T15:56:28Z</dcterms:created>

<sioc:content>le commentaire libre version texte simple.</sioc:content>

<content:encoded><![CDATA[ le commentaire libre version HTML ]]></content:encoded>

<sioc:topic rdfs:label=”Programmation” rdf:resource=”http://www.natoine.fr/wordpress/?cat=5″/>

<sioc:topic rdfs:label=”Tutoriels” rdf:resource=”http://www.natoine.fr/wordpress/?cat=4″/>

<sioc:links_to rdf:resource=”http://www.natoine.fr/wordpress/?p=393″ rdfs:label=”tutoriel précédent sur la POO java”/>

<sioc:links_to rdf:resource=”http://java.sun.com/docs/codeconv/html/CodeConvTOC.doc.html” rdfs:label=”la convention de codage recommandée par sun”/>

<sioc:has_reply>

<sioc:Post rdf:about=”http://www.natoine.fr/forum/?p=444″/>

</sioc:has_reply>

<sioc:reply_of>

<sioc:Post rdf:about=”http://www.natoine.fr/wordpress/?p=398″/>

</sioc:reply_of>

</sioc:Post>

<!– Deuxième Post –>

<sioc:Post rdf:about=”http://www.natoine.fr/forum/?p=444″>

<sioc:has_container>

<sioc:Forum rdf:about=”http://www.natoine.fr/wordpress/?sioc_type=site#forum”>

<sioc:name>Main forum at natoine</sioc:name>

</sioc:Forum>

</sioc:has_container>

<dcterms:created>2010-03-01T15:56:28Z</dcterms:created>

<sioc:content>le commentaire libre version texte simple.</sioc:content>

<content:encoded><![CDATA[ le commentaire libre version HTML ]]></content:encoded>

<sioc:topic rdfs:label=”Programmation” rdf:resource=”http://www.natoine.fr/wordpress/?cat=5″/>

<sioc:topic rdfs:label=”Tutoriels” rdf:resource=”http://www.natoine.fr/wordpress/?cat=4″/>

<sioc:has_reply>

<sioc:Post rdf:about=”http://www.natoine.fr/forum/?p=445″/>

</sioc:has_reply>

<sioc:reply_of>

<sioc:Post rdf:about=”http://www.natoine.fr/blog/?p=437″/>

</sioc:reply_of>

</sioc:Post>

</sioc:creator_of>

</sioc:UserAccount>

</rdf:RDF>

De la même façon que précédemment, puisque il existe des propriétés inverses, il est possible de décrire un site web et l’ensemble des messages qu’il contient. Par exemple, vous pouvez accéder à l’export SIOC des données de ce blog.

La description d’un Post peut déclarer qui en est l’auteur par la relation sioc:has_creator.

Un graphe de discussion

Un graphe de discussion s’obtient en liant des Posts par les status de réponses. Un Post peut être une réponse à un ou plusieurs autres Post par la relation reply_to de SIOC. Un Post peut avoir des réponses par la relation has_reply de SIOC.

Des POSTS peuvent être des réponses les uns aux autres sans nécessairement provenir d’un même espace de discussion.

Il est aussi possible de dire qu’un Post fait référence à une autre ressource par la relation links_to de SIOC.

Documents de référence

Les documents de référence sont des ressources web HTML ou vidéo ou audio. En utilisant les vocabulaires Dublin Core et RSS, on peut décrire la plupart des informations utiles sur ces documents comme qui en est auteur, le contenu, la date de mise en ligne … On peut éventuellement utiliser la classe Document de FOAF. Si le document est d’une autre ressource que texte, il est possible d’utiliser d’autres vocabulaires.

Plutôt que de détailler des exemples ici, je vous invite à consulter un exemple simple sur le site de Dublin Core et un exemple de RSS1.0 utilisant le module Dublin Core.

Annotations

Les annotations telles que nous les définissons recouvrent toute pratique visant à ajouter des données sur des documents ou des sélections de documents.

On peut alors considérer un Post sur un blog comme étant une annotation d’article de blog, un Post sur un forum comme étant une annotation de la discussion dans son ensemble ou du Topic de celle-ci.

Les annotations faisant référence à des pratiques classiques de discussion sur le web comme les blogs ou forums ont été présentées précédemment.

Nous allons ici détailler un type d’annotations : les annotations portant sur des sélections de document.

Nous nous basons sur le vocabulaire Annotea pour représenter ce type d’annotations.

Les éléments important à représenter dans une annotation :

  • L’annotation en elle-même, représentée par la classe annotea:Annotation
  • La ressource annotée, liée à l’annotation par la propriété annotea:annotates
  • L’emplacement exact annoté, ou la sélection de la portion de ressource annotée, lié à l’annotation par la propriété annotea:context.
  • Le corps de l’annotation, ou la nouvelle information apportée par l’annotation, liée à l’annotation par la propriété annotea:body.

Dans le cas d’une ressource HTML annotée, l’emplacement exact, la sélection est précisée par l’utilisation d’un XPointer.

Dans notre cas, la plupart des annotations que nous représentons sont dites discursives. Les informations ajoutées à des portions de documents sont des commentaires saisis par les utilisateurs dans le cadre d’une discussion. Je vous renvoie à la thèse de Gaëlle Lortal pour en savoir plus sur l’annotation discursive. Dans ce contexte, nous avons choisi de représenter le corps de l’annotation par la classe Post de SIOC.

Un exemple d’annotation discursive :

<?xml version =”1.0″ encoding =”utf-8″?>

<rdf:RDF xmlns:rdf=”http://www.w3.org/1999/02/22-rdf-syntax-ns#”

xmlns:rdfs=”http://www.w3.org/2000/01/rdf-schema#”

xmlns:sioc=”http://rdfs.org/sioc/ns#”

xmlns:dc=”http://purl.org/dc/elements/1.1/”

xmlns:annotea=”http://www.w3.org/2000/10/annotation-ns”

>

<annotea:Annotation rdf:about=”http://www.natoine.fr/annotation/?p=479″>

<annotea:annotates rdf:resource=”http://www.jeanSallantin.fr/homepage”/>

<annotea:body>

<sioc:Post rdf:about=”http://www.natoine.fr/wordpress/?p=401″ dc:title=”IPC ou communication inter portlet 2. JSR286″>

<rdfs:seeAlso rdf:resource=”http://www.natoine.fr/wordpress/index.php?sioc_type=post&amp;sioc_id=401″/>

</sioc:Post>

</annotea:body>

<annotea:context>

http://www.jeanSallantin.fr/homepage#xpointer(id(”Main”)/p[2])

</annotea:context>

</annotea:Annotation>

</rdf:RDF>

Nous ne développons pas dans cet article de blog le cas des annotations de type Tag. Il existe actuellement plusieurs solutions pour représenter les tags.

Par exemple, s’il s’agit d’un domaine auquel la ressource fait référence, on peut utiliser la propriété topic de SIOC, on peut aussi dans ce cas utiliser la classe Concept de SKOS, il est possible de désambiguïser le sens d’un tag en faisant référence à une définition de wikipédia en passant par l’ontologie MOAT. Enfin, il existe un vocabulaire Nice Tag Ontology permettant de préciser le sens d’une action de tagging.

A ce sujet, je vous recommande de suivre les travaux de Freddy Limpens et Alexandre Monnin. Nous sommes encore en train de travailler sur l’utilisation des résultats de ces travaux dans notre contexte.

Ce qu’il manque !!!

Nous venons de voir plusieurs données qu’il est essentiel de représenter pour des débats en ligne. Cependant, il en manque encore.

En particulier, il n’est pas encore possible de représenter une opinion ou de typer un Post (c’est un contre-argument, une conclusion, …). Et ceci est central comme exposé précédemment. Le travail du VoCamp à Paris donne pas mal de pointeurs sur ce sujet, notamment des vocabulaires comme ARGDF. Enfin, les travaux sur NiceTag sont trés prometteurs à ce sujet. Cependant, NiceTag se concentre essentiellement sur le sens de l’activité de tagging et non sur l’activité d’annoter. Il est possible de dire qu’un tag exprime un désaccord en spécialisant la relation nt:isRelatedTo. Mais il n’est pas encore possible de dire qu’une annotation discursive exprime un désaccord.

Pour l’instant j’entrevois deux possibilités :

  • soit on ajoute dans le corps d’une annotation une action de tagging exprimant le désaccord. Mais ceci créera une redondance d’information. Une action de tagging lie la ressource taggée à la ressource représentant le tag par la propriété isRelatedTo. Il faudrait donc répéter l’information de quelle ressource est taggée alors que celle-ci est déjà exprimée par la propriété annotates de l’annotation.
  • soit les vocabulaires NiceTag et Annotea évoluent. Pour ma part je considére qu’une action de tagging est un cas particulier d’une action d’annotation. Il me semble qu’alors la propriété isRelatedTo est une propriété inverse et plus spécialisée de la relation annotates … Piste à suivre

Il n’existe pas à ma connaissance de vocabulaire définissant une classe Debate.

Je n’ai pas présenté de solutions permettant de représenter les groupes d’opinion ou stakeholders (parties prenantes). Il est sûrement possible d’utiliser des notions de groupes comme celles présentées dans FOAF. Dans ces groupes, il serait sûrement intéressant de représenter les rôles de chacun. Ceci pose la question de la légitimité de la prise de parole au nom d’un groupe. Est-ce que n’importe qui membre d’un groupe s’exprime nécessairement au nom de ce groupe ?

Enfin, je ne discute pas de la nature des ressources (ce qui est identifié par une URI). C’est à dire que je ne discute pas du fait qu’une ressource soit accessible par le web ou non (voir l’ontologie IRW à ce sujet). Du coup, il serait intéressant de se demander ce que peut être une annotation sur une ressource comme la tour eiffel par exemple (la tour eiffel a une URI, donc est une ressource, mais n’est pas accessible par le web).Bien entendu le travail de représentation des débats n’est pas fini. Ce que je propose ici est l’utilisation de vocabulaires existant pour une représentation de l’activité d’un réseau social au cours d’une discussion. Je m’appuie beaucoup sur les propositions de A.Passant dans sa thèse. Essentiellement, je n’ai fait qu’ajouter le lien entre les annotations d’Annotea et les Post de SIOC.

Qu’est-ce qui fait que votre application sera utilisée ? : La pression sociale

D’habitude j’écris mes billets en prenant le temps de bien les réfléchir et de bien les documenter. Et du coup je mets du temps avant de les publier. En gros je suis pas un vrai blogueur qui publie au moins trois billets par semaine (quoique, ce point mériterait d’être discuté…).

Bref, je fais ce billet un peu vite parce que :

  • c’est le résultat d’une discussion à table au cours de la conf ic2010. Donc je veux traiter cette idée à chaud.
  • et puis parce que je suis sur que ça a déjà été dit ailleurs ( d’ailleurs si vous avez de bonnes références à ce sujet ça m’intéresse. J’ai pas le temps de chercher en ce moment et je ne sais pas quand j’aurai du temps )

Le contexte : à table durant la conf, Julien Cotret en face de moi. Doctorant au LIRMM en CIFRE et entrepreneur par ailleurs. A côté de lui un autre entrepreneur. Nous discutons tous les trois de ce qui nous intéresse, la création de nouveaux services web. On n’était pas vraiment que tous les 3 à table mais je résume.

La question : Comment faire en sorte que la nouvelle application web que je viens de créer soit vraiment utilisée ?

En gros, comment expliquer la réussite de Facebook, Twitter et les autres et comment appliquer la recette de cette réussite sur mon nouveau concept ?

Alors, le classique effet réseau : Plus il y a d’utilisateurs de ton application, plus il y aura d’utilisateurs de ton application. Ce fameux bouche à oreille qui fait que les utilisateurs de ton appli vont recruter de nouveaux utilisateurs à ta place.

J’en profite pour souligner que, à mes yeux, mesurer le taux d’inscrits venant du bouche à oreille est probablement le meilleur indicateur de réussite de votre application. Plus il y a d’utilisateurs qui viennent s’inscrire sans passer par un lien commercial ou un lien spam plus cela indique que vos utilisateurs aiment votre application au point de la recommander à d’autres.

Maintenant que l’on a dit ça, c’est bien joli mais on n’a pas dit comment il fallait commencer.

On sait que parce que on est dans un petit monde (cf Milgram) et que parce que les recommandations de nos proches sont ce qui compte le plus (cf la force des liens faibles de Granovetter), il y a une sorte de phénoméne d’amplification qui facilite le travail de recrutement d’utilisateurs (attention l’inverse est vrai aussi, si les utilisateurs commencent à se plaindre de votre appli auprés des autres, vous allez vite avoir une masse d’utilisateurs mécontents, voir plus du tout d’utilisateurs). Ce phénoméne pourrait être appelé : la pression sociale. Si vous avez vu l’épisode de Southpark au sujet de Facebook, c’est tout à fait ça. Stan se retrouve forcé de gérer son compte facebook parce que ses potes en ont tous un. Ses potes en arrivent même à lui créer un compte à sa place et du coup il est harcelé de gens qui veulent être ses amis et qui commencent à le menacer. Le père de Stan en arrive à le punir parce qu’il n’a pas ajouté sa grand-mère en ami…

Vous vous rendez compte que sans compte facebook je serai sûrement privé des dernières photos de ma petite cousine ? Je n’aurai pas de nouvelles de mon cousin en Chine ? Tiens je me demande si ma grand-mère n’a pas fini par se créer un compte facebook exactement pour ces raisons…

La pression sociale autour de facebook n’est plus vraiment : “quoi ! t’as pas facebook ? mais t’es trop has-been !”

C’est plutôt :”pourquoi on t’a pas vu à la dernière soirée chez machin ? Ah oui, c’est parce que t’as pas de facebook, du coup t’as pas vu son invitation.”

Voilà, sans facebook vous perdez la moitié des informations qui transitent entre vos amis proches. Du coup, vous partagez de moins en moins avec vos amis proches et ce sont de moins en moins vos amis proches. Alors dépéchez-vous d’ouvrir un compte !!!

Donc, il est nécessaire de faire en sorte que vos utilisateurs exercent une pression sociale auprés des non utilisateurs pour recruter de nouveaux utilisateurs. Si possible il faut faire ça discrétement histoire de ne pas se donner une mauvaise image.

Par contre ce n’est pas suffisant. Il manque toujours un point de départ. Il vous faut des premiers utilisateurs. Et des utilisateurs que vous allez pouvoir harceler vous-mêmes quotidiennement si nécessaire pour qu’ils utilisent votre appli. Par exemple les étudiants de votre ancienne école…Si tu veux que ton application web fonctionne, cible un groupe d’une dizaine de personnes que tu pourras relancer quotidiennement s’il le faut et force les (poliment et gentiment quand même) à utiliser ton application web.

Big Brother VS Small Brothers

L’idée de ce billet m’est venue à la suite de la lecture de l’article de Sylvain Lavelle : Politique des artefacts et suite à mes conversations avec Julien Cotret et Fanny Georges sur ce sujet (et beaucoup d’autres finalement).

L’article de Sylvain Lavelle traite en partie de la société du contrôle. La question soulevée dans ce billet, et qui renvoie à la lecture de l’article de Sylvain Lavelle, est celle de la réputation numérique et de son rôle dans notre société actuelle. Sylvain Lavelle évoque le fait que l’on est dans une société ou le contrôle s’exerce des uns sur les autres plutôt que dans une société ou le contrôle est exercé par une entité supérieure type Big Brother. Mais que dans tous les cas, ce contrôle est lié à l’usage qui est fait des techniques de la société numérique.

Sylvain Lavelle : “Il reste que l’interconnexion d’une variété de techniques caractéristiques de la société numérique et le maillage informatique « intelligent » des faits, dires et gestes des individus produit un certain type de société. Il ne s’agit peut-être pas d’une société résultant d’un projet machiavélique de contrôle de l’individu, mais l’ensemble de ces techniques en réseau n’en produit pas moins une surveillance globale. Or il ne faut jamais oublier que le Panopticon de Bentham, étudié par Foucault, soit l’utopie d’une surveillance totale et dissuasive de la majorité par la minorité, peut être un danger moins grand, car moins réel, que le Synopticon, soit la surveillance de la minorité par la majorité, qui associe l’individu à la surveillance politique. Ainsi, le mythe – pour ne pas dire : le spectre – du Big Brother, si souvent agité, risque d’occulter la complexité du rapport que le concepteur, le promoteur et l’utilisateur entretiennent avec l’artifice technique.”

Big Brother fait référence au livre de George Orwell, 1984. Dans 1984, Big Brother est une entité omniprésente. Ce n’est pas un personnage réel mais plutôt une effigie, une mascotte, qui représente la tête pensante du parti. Le parti étant le régime qui gouverne l’Angleterre dans le Roman. Les habitants de l’Angleterre dans le roman sont soumis à un contrôle permanent par le biais de télévisions diffusant les messages du parti et recueillant des informations (par micros et caméras) sur les individus. Tout le monde est fiché, observé, tracé. Et toute entorse aux régles du parti est synonime de condamnation à mort. Le parti encourage à la dellation et à la suspicion entre les individus. Il est donc question d’endoctrinement et de surveillance permanente.

De nos jours, les questions de fichage et de surveillance des individus sont bien présentes. L’Angleterre n’hésite pas à utiliser des systèmes de vidéo-surveillance aux quatres coins du pays. La France propose le projet Edvige. Certains craignent la dérive étatique et la mise en place de moyens de contrôles de nos activités, notamment sur le web et par le web. Les systèmes de renseignement Français (et les autres aussi), consacrent une grande part de leur activité à la fouille des données du web.

Dans le même temps :

  • de plus en plus d’utilisateurs sur Facebook, Twitter et autres sites de réseaux sociaux,
  • tout le monde (ou presque ^^) fait confiance à google,
  • et qui n’a pas un site perso (la plupart du temps un blog ou on peut raconter tout ce qui nous passe par la tête)…

Au final on est tous ( plus ou moins ) “fichés” sur internet. A quel point en est-on conscient et à quel point en est-on responsable ? Quelle est la part de fichage faite à notre insu ? Quels sont les risques ?

Big Brother VS Small Brothers : soit on est surveillé par un grand méchant machiavélique qui veut tout savoir de nous, soit nous livrons nous mêmes nos informations pour que les autres puissent mieux nous surveiller.

La réputation numérique

Votre réputation numérique est l’ensemble de ce qui se dit sur vous sur internet. Ce sont les informations que vous produisez consciemment, les informations produites par les systèmes en fonction de vos activités et les informations produites par les autres à votre sujet.

Il paraît pratiquement impossible de nos jours de ne pas avoir de réputation numérique. Il faudrait fuir l’usage d’internet mais aussi s’assurer que les gens qui vous connaissent ne vous mentionnent pas sur internet. Quasi impossible !!! Essayez de taper votre nom sur google pour voir si vous êtes anonymes sur internet.

Tout le jeu maintenant est de savoir comment peuvent être utilisées ces informations et quelles sont les véritables moyens de contrôle existant. Mais surtout comment je peux moi même jouer de cette réputation numérique.

Je veux bien confier mes mails, mon agenda et mes documents à google tant que cela me permet de mieux profiter du web, tant que google me rend service et me rend de mieux en mieux service. Par contre, si je faisais de la recherche dans le privé, je ne voudrais pas que google me pique mes dernières idées. Je veux bien partager mes dernières photos de soirée bien arrosée sur facebook avec mes potes. Par contre, je ne veux pas que mon futur employeur ou ma voisine ne puissent les voir et les utiliser pour me faire du tord.

On a tous des exemples de personnes qui dérapent sur internet : une soeur qui balance sur twitter qu’on la saoule au lieu de le dire en face, des parents d’élèves qui savent tout de l’institutrice de leurs enfants, un journal qui reconstitue la journée de Mr Lambda (voir l’histoire de Marc L sur le Tigre)…

Ou est la responsabilité dans les cas de dérive ? Est-ce la faute du grand méchant internet ou est-ce la faute des utilisateurs qui se livrent sur internet parfois comme dans un journal intime ?

Comme présenté par Sylvain Lavelle, il y a donc deux types de surveillance qui créent un malaise :

  • La surveillance par une entité qui emmagasinerait un maximum d’information sur les personnes. Donc une entité qui ferait des recoupements d’information et qui ficherait chaque individu.
  • La surveillance par les autres. Tout le monde pouvant tout savoir sur tout le monde, et tout le monde pouvant exprimer son accord ou son désaccord, il y a contrôle des uns sur les autres.

Faisons un point sur ces deux types de surveillance : Quels sont les craintes et les risques du contrôle par une entité type Big Brother et du contrôle par les autres, les Small Brothers ?

Big Brother

Finalement qu’est-ce que l’on craint de Google (l’entité qui actuellement sait tout sur vous grâce à internet)?

  • Les publicités ciblées.
  • L’espionnage industriel.
  • Le contrôle, le chantâge, l’usage à mauvais escient qui pourrait s’apparenter à une dérive étatique.

Les publicités ciblées ne sont pas vraiment une crainte des utilisateurs mais c’est le résultat le plus visible, le plus choquant de ce que peut faire google grâce aux informations qu’il a sur ses utilisateurs. La publicité ciblée c’est le fait de vous proposer des publicités qui sont bien adaptées à votre profil. On va savoir que vous êtes informaticien, célibataire et on va donc vous proposer des publicités de jeux vidéos et de sites de rencontres. Pourquoi est-ce le plus choquant ? Parce que c’est ce qu’il y a de plus visible (liens commerciaux, banniéres, recommandations par mail,…) et parce que en régle générale, ça marche, les publicités sont bien ciblées. Et du coup on a vraiment l’impression que Google sait tout de nous. Pourtant je ne me souviens pas avoir dit à google que j’étais informaticien et célibataire ? En fait, il faut bien avoir conscience que vous n’avez pas besoin de dire à google que vous êtes informaticien et célibataire pour qu’il le sache. Je vais utiliser la terminologie de Fanny Georges pour parler d’identité. Google n’est pas intéressé (ou trés peu) par votre identité déclarative (tout ce que vous déclarez sur vous-mêmes, pages de profil etc). Il s’intéresse principalement à votre activité, votre identité agissante ou calculée (google va faire des recoupements en fonction des liens que vous visitez, des termes que vous employez, des horaires de vos connections, de votre rythme de navigation, …). Cette identité agissante est d’une valeur bien plus élevée que votre identité déclarée pour une simple raison : il est impossible de mentir sur votre activité. Vous n’allez pas faire semblant d’aller écouter de la musique que vous n’aimez pas ou consulter des pages web qui ne vous intéressent pas. Donc votre activité, votre identité agissante, est une information plus fiable et largement suffisante pour en déduire que vous êtes informaticien, célibataire, …

Est-ce que la publicité ciblée est vraiment un problème? Je trouve personnellement que c’est trés discutable. Il ne me semble pas que ce soit véritablement un risque. Le véritable problème est plutôt celui de la publicité sur internet. A partir du moment ou on est résilié et que l’on considére que il y a de la publicité sur internet, alors autant qu’elle soit ciblée, qu’elle puisse peut-être vraiment nous intéresser. Ca ne nous force pas à consommer, ça nous encourage juste un peu mieux. Google utilise exactement la même stratégie de collecte d’informations et de recoupement de l’information pour améliorer les résultats de son moteur de recherche et personne ne s’en plaint (qui en a conscience d’ailleurs ?). Preuve que la collecte d’informations peut servir à quelque chose de bien. Par contre, là ou ça craint plus, c’est tout ce qui concerne les données sensibles. Je ne pense pas qu’il soit judicieux d’utiliser gmail (le système de mail de google) pour faire transiter des informations confidentielles concernant sa jeune entreprise innovante en informatique. Sur ce point, si google venait à utiliser ces informations sensibles, il serait dans l’illégalité. Ce serait de l’espionnage industriel. Cependant, il y a bien d’autres techniques pour l’espionnage que d’offrir un serveur de mail gratuit et performant. Donc si google voulait vraiment piquer vos informations sensibles, ils auraient sûrement d’autres moyens d’action. Après il est sûrement plus raisonnable de ne pas tenter le diable.

La dernière crainte est la plus science-fictionnesque qu’il y est. Si un organisme mal intentionné pouvait accéder à toutes les données du web concernant chaque individu, que pourrait-il en faire? Cette crainte n’est peut-être pas si science-fictionnesque que ça. Après tout, google a peut-être déjà cédé une part de ces données au FBI, la CIA ou d’autres. Je pense que cette crainte du complot raméne à une question classique en technologie et en sciences : est-ce que cette nouvelle technologie est dangereuse ? La réponse souvent avancée par les scientifiques, ingénieurs créateurs est : non. La réponse souvent avancée par les paranoïaques est : oui. La réponse souvent démago (mais sûrement la plus raisonnable aussi) est : ça dépend de qui l’utilise et comment. Vous entendrez souvent des exemples provocateurs sur ce sujet : est-ce l’inventeur du fusil ou celui qui s’en sert qui est coupable? Faut-il reprocher le nucléaire à Einstein à cause de la bombe atomique? … Et ben là j’ai envie de dire que c’est pareil pour internet et pour cette crainte de Big Brother. Internet est un super outil de communication, d’échange et de partage des connaissances. Mais oui, il est possible d’obtenir beaucoup d’information à partir de votre usage d’internet et donc, il est possible d’utiliser ces informations (à bon ou à mauvais escient). Le véritable problème est donc qu’actuellement, il n’y a aucune procédure de contrôle efficace de ce que deviennent vos données, qui les utilise et comment (il existe la CNIL et son équivalent européen, mais ces personnes créent des recommandations, sont peu nombreuses et ont peu de pouvoir d’action).

Le problème de fond est donc que l’on ait actuellement aucun contrôle sur ce que sait google ou un autre au sujet de soi. Je ne peux pas dire à google : “tu fermes les yeux sur ma fréquentation internet aujourd’hui” ou “dis moi ce que tu sais sur moi”, “oublie ce truc là”,… En gros, mes données, une fois saisies ou une fois déduites de mon activité, ne m’appartiennent plus. Tant que ce sera le cas, la théorie du complot et de Big Brother restera plausible.

Si vous voulez en savoir un peu plus sur comment ça marche, ce que l’on peut faire actuellement avec vos données sur le web, je recommande l’exposé de Anne Marie Kermarrec au collége de France. Dans cet exposé, Anne Marie Kermarrec présente un cas d’utilisation des données personnelles, du profil d’utilisateurs, pour améliorer la recherche sur internet. Son exposé est bien dans la thématique de l’utilisation des réseaux sociaux et du web sémantique pour améliorer la recherche et la navigation dans les données du web. Par contre cet exposé ne parle pas du tout de problèmes de confidentialité ou de contrôle des données.

Small Brothers

L’autre crainte est celle du contrôle par le réseau social, les individus de votre réseau sont autant de “small brothers” qui vous observent et vous contrôlent (exercent des régulations sur vos activités). C’est la mode du web 2.0 ou du web dit social, on partage tout avec ses amis du web. Le problème c’est que l’on a parfois l’impression que l’on partage vraiment tout (et donc même ce qu’on ne voudrait pas partager) avec des amis qui ne sont pas toujours tant que ça des amis. Ce problème est souvent exprimé de bien des façons :

  • Une information me concernant a été transmise à des gens à qui je ne voulais pas transmettre cette information.
  • Mes relations se retrouvent liées à mon insu. Deux de mes connaissances se connaissent alors que je ne le voulais pas.
  • Mon réseau n’est pas exploité comme je le souhaite. On l’utilise pour des entretiens d’embauche alors que je voulais juste gérer mon annuaire d’amis.
  • Des informations malintentionées (ou en tout cas me causant du tord) sont véhiculées par mon réseau.

Je commencerai par une parenthése sur le virtuel et le réel avant de revenir sur ces problèmes d’image de soi et de réputation dans un réseau. Il me semble qu’il est temps d’arréter de parler de réel et de virtuel n’importe comment. Le terme virtuel renvoie pour la plupart des indivdus à des expériences qui ne sont pas réelles, qui ne se font pas dans un environnement réel avec des individus réels. Internet est réel. Il est même devenu omniprésent. Les gens consultent leurs mails de n’importe où et à n’importe quelle heure. Nos téléphones sont en permanence connectés, bientôt nos voitures et tout nos appareils électroniques (et l’électronique est partout). Les gens avec qui nous chattons, avec qui nous échangeons par le web, sont réels même si ils sont identifiés par des pseudos (la plupart des bots ne passent pas encore les tests de turing, donc on a encore tendance à n’entretenir des discussions qu’avec des êtres humains). Les sujets de nos échanges sont réels. Les utilisateurs d’outils de communication médiée par ordinateur utilisent ces nouveaux moyens de communication comme moyen de prolonger des relations réelles. On peut prolonger une discussion commencée en présentiel ou garder un contact avec quelqu’un éloigné physiquement. On ne dit pas qu’une conversation téléphonique est virtuelle alors pourquoi Facebook serait une expérience virtuelle ?

Je pense que cette distinction réel et virtuel est, en plus d’être absurde, dangereuse. Elle fait croire aux gens que ce qui est virtuel n’est pas réel. Le véritable sens de virtuel est ce qui est numérique. Alors disons numérique dans ce cas. J’entretiens une amitié numérique et non virtuelle avec mon cousin en Chine. C’est quand même pas la même chose que mon orc niveau 15 qui tue des elfes dans World of Warcraft en compagnie d’un troll niveau 20 du doux nom de SNRF.

Revenons-en à la réputation numérique. La réputation numérique n’est pas virtuelle mais bien réelle. C’est pour ça que les chercheurs de tête et DRH consultent viadéo, linkedIn ou Facebook pour recruter. Cette réputation numérique est réelle et donc elle est soumise aux mêmes régles que tout jeu de réputation. Quand vous sortez avec vos amis ou vos collégues de travail, vous ne racontez pas tout et n’importe quoi. Vous triez les informations que vous transmettez. Vous adaptez votre discours aux personnes en présence. Vous avez conscience de ce qui peut être dit ou non, de l’impact que cela peut avoir dans vos relations et vous aussi vous exercez un contrôle sur vos interlocuteurs qui adaptent leurs comportemnents. Et bien c’est pareil sur internet avec les réseaux sociaux, les blogs etc… On en peut pas tout raconter dans n’importe quel espace. Heureusement tout n’est pas public sur internet. Il est encore possible de ménager des espaces d’intimité. Tout le monde n’a pas nécessairement accés à votre mur facebook. Par contre tout le monde a accés à votre blog ou à votre twitter (et encore vous pouvez gérer des droits d’accés). Par contre, les outils de réseau vous encouragent à tout laisser en accés publique et ne sont pas toujours transparents sur ce point. Dans ce cas, il faut que les utilisateurs agissent en conséquence. Il est important d’avoir conscience du niveau d’intimité en fonction de l’espace d’expression.

Le véritable problème des réseaux sociaux se situe dans la perte de la maîtrise du flux d’information sur notre réseau, quand le système utilise notre réseau pour diffuser des informations à notre insu, et encore pire, des informations fausses. Un individu modifie son statut facebook de “en couple” à “célibataire” et tout le réseau est au courant de son changement de statut. Mais là encore, est-ce important de signaler à un outil de réseau social que l’on est célibataire? N’est-ce pas à l’utilisateur d’avoir conscience qu’il livre une information peut-être sensible ? Ca dépend de l’utilisation que l’on va faire de l’outil de réseau. Si le but est de ne pas rester célibataire alors ce n’est peut-être pas si mal que l’application transmette cette information. Les réseaux sociaux sont un moyen de propager une information trés efficacement. Et une fois un message lancé sur le réseau, il est impossible de faire machine arriére. Ca ça peut-être problèmatique, surtout dans le cas des rumeurs.

Patrick Valduriez dans l’un des ses exposés à l’UM2 disait que l’important dans les réseaux c’est de bien se présenter. Je ne suis pas tout à fait d’accord (sur la formulation parce que je pense que dans le fond on veut dire la même chose). Pour moi l’essentiel dans les réseaux sociaux, c’est de bien agir. Comme dans la vie réelle, les gens de notre réseau sont en permanence en train d’exercer un contrôle sur nous-mêmes. Ils nous renvoient une image de nous qui n’est pas nécessairement celle que l’on veut afficher. Et sur internet, cette image n’est pas faite uniquement de ce que l’on a renseigné sur soi en remplissant des pages de profil. Cette image est avant tout le résultat de notre activité, de nos interactions, nos réelles relations avec les gens de notre réseau. Par exemple dans le cadre d’une recherche d’emploi, vous pourrez toujours dire que vous avez travaillé avec untel ou untel, si cette personne ne valide pas auprés de votre futur employeur que vous avez bien travaillé dans de bonnes conditions ensemble, l’information dans votre profil n’aura pas le bon impact. C’est valable pour toute votre activité numérique. Vous pourrez toujours déclarer des informations si votre activité dit le contraire, le système corrigera l’information (amazon vous recommande des livres en fonction des derniers livres que vous avez acheté plus que par des informations de profil saisies à la création de votre compte).

Après, je considére qu’internet et plus particulièrement les réseaux sociaux sont un trés bon moyen de se mettre en relation, d’échanger et d’organiser des événements. Par contre je crains l’usage de certains qui est une course à la collection de relations et qui est une sorte de mise en spectacle de sa vie (référence épisode 14 saison 6 de DrHouse). Dans ce cas, les utilisateurs dérivent effectivement du réel. Faire de sa vie un spectacle sur la toile risque de devenir une açon de s’imaginer une autre vie. C’est une fuite de la réalité et bien une expérience virtuelle. L’usage du web et des réseaux sociaux dans ce cas devient un échapatoire du réel et des responsabilités.

Conclusion

Je n’adhére pas (encore) à la théorie du complot qui veut que un grand méchant utilise internet pour nous ficher pour, plus tard, nous contrôler. Maisj’admets qu’il serait possible de le faire, que certaines sociétés le font probablement mais pas à des fins néfastes pour l’instant et qu’il n’y a pas à l’heure actuelle de gardes fous assez stricts pour nous garantir que 1984 n’est pas notre futur. Je pense que l’on est dans une société du contrôle, mais contrôle par nos pairs. Par contre, cela me semble intrinséque à notre nature sociale et je ne suis pas sûr qu’internet et les outils de réseaux sociaux aggravent la situation. Peut-être que tout simplement ils répondent à un besoin de notre société et dans ce cas, c’est plutôt une réflexion sur cette société de contrôle qui doit être faite plutôt qu’une diabolisation des outils.

Ce qui est vraiment problématique pour moi actuellement, c’est l’absence de conscience que ces outils de réseaux sociaux fonctionnent exactement selon les mêmes régles de réputations que hors d’internet. Les utilisateurs ont parfois tendance à oublier qu’un blog n’est pas un journal intime et que tout le monde peut le lire. Internet ne nous rappelle pas clairement les limites de notre intimité parce que le plus souvent il n’y a volontairement pas d’intimité sur internet.

Les Anglosaxons ont une autre approche du contrôle et de la surveillance. Il y a une expression anglaise qui dit : “si vous voulez vous cacher, c’est que vous avez quelque chose à cacher”. Avec internet, si vous voulez être anonyme (c’est à dire sans aucune identité numérique), n’utilisez pas internet.

Il manque actuellement une vision, pour l’utilisateur, de son identité numérique, c’est à dire un système qui lui ferait part de toutes les informations le concernant transitant sur le web. A partir d’un tel système, l’utilisateur pourrait mieux appréhender les enjeux de ces agissements sur internet et peut-être corriger sa pratique du web. Ensuite, il faudrait voir à garantir la propriété des données utilisateurs à l’utilisateur. Mais là je pense que je rêve un peu non ?

Passé les problèmes de réputation, de contrôle et de surveillance, il reste le problème de la fuite du réel et de la virtualisation de ses relations. Si internet n’est plus un complément du réel mais bien un substitut alors là, ça craint. Sur ce point, il me semble qu’il faut faire de la prévention et de l’éducation.

utilisation d’un vocabulaire RDF – le cas de FOAF

Je commence une série de tutoriels axés web sémantique. Dans le cadre de mes travaux je dois utiliser des vocabulaires RDF-OWL pour représenter des données et les échanger entre des applications.

Du coup, je me suis dit en voyant le peu de tutoriels en français sur le web que ça vaudrait le coup d’en faire un moi-même.

Ce premier tutoriel concerne l’utilisation d’un vocabulaire existant. En particulier le vocabulaire FOAF qui permet de décrire des personnes et le réseau de connaissances de ces personnes.

Nous allons dans ce premier tutoriel utiliser une syntaxe RDF/XML. Ce n’est pas la seule solution possible mais c’est celle qui m’a semblé “la plus propre”, la plus simple à lire par un humain. Je reviendrai peut-être dans d’autres tutoriels sur d’autres syntaxes.

Le mieux étant de s’appuyer sur l’usage, je vais m’appuyer sur la construction du RDF FOAF permettant de me décrire.

Début du document

Un document RDF/XML est avant tout un document XML. Donc vous pouvez déclarer la version d’xml utilisée et l’encodage :

<?xml version =”1.0″ encoding =”utf-8″?>

Vous pouvez aussi lui associer un style.

Ensuite, vous allez devoir dans votre RDF faire référence aux vocabulaires existants que vous utilisez. Par exemple, FOAF est défini à l’url http://xmlns.com/foaf/0.1/

A chaque fois que vous allez utiliser une classe de FOAF, vous allez devoir taper http://xmlns.com/foaf/0.1/:ClasseAUtiliser

Mais heureusement vous pouvez déclarer au début de votre RDF que vous allez utiliser ce vocabulaire et lui associer un alias. Cette déclaration peut se faire dans la balise <rdf:RDF> signalant le début de votre document RDF. Mais notez que vous pouvez déclarer un alias pour un vocabulaire dans n’importe quel noeud. L’alias n’étant alors valable que pour les noeuds fils.

Exemple pour FOAF en début de document :

<rdf:RDF xmlns:foaf=”http://xmlns.com/foaf/0.1/”>

On a associé l’alias foaf au vocabulaire défini à l’url http://xmlns.com/foaf/0.1/

On aura aussi besoin de quelques éléments du vocabulaire RDF de base donc le début de document devient :

<rdf:RDF xmlns:rdf=”http://www.w3.org/1999/02/22-rdf-syntax-ns#” xmlns:rdfs=”http://www.w3.org/2000/01/rdf-schema#” xmlns:foaf=”http://xmlns.com/foaf/0.1/”>

Nous ajouterons d’autres vocabulaires par la suite dans ce tutoriel. Mais je ne reviendrai pas sur la déclaration des alias.

Principes de RDF

Avant de nous intéresser au corps du document, nous allons faire un petit rappel sur le principe de base de RDF.

RDF permet d’écrire des triplets Sujet Prédicat Objet.

Un sujet, un prédicat et un objet sont des ressources identifiées par des URI. Une URI étant censée être unique pour une ressource. Par exemple, une URL est une URI.

Afin de permettre de réifier un triplet en concept, il est possible d’associer une URI à un triplet. Ces triplets réifiés sont appelés des Statement.

Les Objets et Sujets sont des instances de classes RDF. Les prédicats sont des propriétés RDF. Dans les spécifications, pour chaque propriété est précisé son Domaine (le type ou la classe du Sujet) et son Range (le type ou la classe de l’Objet).

Corps du document

Nous allons dans ce document décrire ma personne Natoine. Nous allons utiliser la classe foaf:Person. Le début de la déclaration :

<foaf:Person rdf:about=”http://www.natoine.fr/#me”>

  • foaf:Person, je fais une instance de Person.
  • rdf:about=”http://www.natoine.fr/#me” , je précise l’URI de la ressource. En l’occurence j’utilise une URL existante, la page d’accueil de mon domaine à laquelle je concaténe #me. Il existe d’autres façons de faire référence à une ressource. Par exemple, au lieu de rdf:about on peut utiliser rdf:ID. Dans ce cas, la valeur prise est concaténée à l’URL du document pour constituer l’URI ou bien concaténée à une URI précisée par xml:base. Par exemple :

<rdf:RDF xmlns:foaf=”http://xmlns.com/foaf/0.1/” xml:base=”http://www.natoine.fr”>

<foaf:Person rdf:ID=”me”>

</foaf:Person>

</rdf:RDF>

On parle toujours de la personne identifiée par l’URI http://www.natoine.fr/#me. rdf:ID ajoute un #. Notez aussi que rdf:about=”#me” serait totalement équivalent. Si rdf:about ne précise pas une URI compléte, celle-ci est construite par concaténation.

Foaf Basics

Maintenant que peut-on dire sur ma personne?  FOAF définit un ensemble de propriétés. Je ne vais pas toutes les détailler. Il suffit d’aller regarder les spécifications de FOAF.

Mais pour l’exemple je vais préciser mon nom, prénom, surnom,… En gros les Basics de FOAF. Que du très simple pour l’instant. On utilise des Strings ou des références à des ressources web.

<foaf:Person rdf:about=”http://www.natoine.fr/#me”>

<!– FOAF Basics –>

<foaf:name xml:lang=”fr”>Antoine Seilles</foaf:name>

<foaf:nick>Natoine</foaf:nick>

<foaf:surname>Natoine</foaf:surname>

<foaf:familyName>Seilles</foaf:familyName>

<foaf:firstName>Antoine</foaf:firstName>

<foaf:title>phD Student</foaf:title>

<foaf:homepage rdf:resource=”http://www.natoine.fr/”/>

<foaf:img rdf:resource=”/natoine.ico”/>

<foaf:depiction rdf:resource=”/natoine.ico”/>

<foaf:depiction rdf:resource=”http://www.imagilab.fr/wp-content/gallery/RiviereTournage/01.JPG”/>

<foaf:depiction rdf:resource=”http://www.imagilab.fr/wp-content/gallery/RiviereTournage/02.JPG”/>

<foaf:depiction rdf:resource=”http://www.imagilab.fr/wp-content/gallery/RiviereTournage/07.JPG”/>

<foaf:depiction rdf:resource=”http://www.imagilab.fr/wp-content/gallery/RiviereTournage/08.JPG”/>

<foaf:depiction rdf:resource=”http://www.imagilab.fr/wp-content/gallery/RiviereTournage/13.JPG”/>

<foaf:depiction rdf:resource=”http://www.imagilab.fr/wp-content/gallery/RiviereTournage/18.JPG”/>

<foaf:depiction rdf:resource=”http://www.imagilab.fr/wp-content/gallery/RiviereTournage/19.JPG”/>

<foaf:depiction rdf:resource=”http://www.imagilab.fr/wp-content/gallery/RiviereTournage/20.JPG”/>

</foaf:Person>

Notez l’utilisation de rdf:resource pour faire référence à des ressources existantes. Il est possible de faire des références absolues, ou relatives (celles-ci obéissent aux mêmes règles que rdf:ID).

Pour des ressources présentes sur internet, vous pouvez vous contenter de préciser l’URL. Mais je vous encourage à en dire un peu plus quand c’est possible. Par exemple pour des images, il est possible d’utiliser la classe foaf:Image. Je détaille l’utilisation de foaf:Image un peu plus loin dans ce tutoriel.

Foaf Personal Info

Attaquons-nous maintenant aux informations personnelles (Personal Info), tout en restant sur des ressources internet ou des String.

Voilà ce que je rajoute comme infos me concernant :

<!– FOAF Personal Info –>

<foaf:weblog rdf:resource=”/wordpress”/>

<foaf:currentProject rdf:resource=”http://www.imagilab.fr”/>

<foaf:currentProject rdf:resource=”http://www.blackpad.fr”/>

<foaf:currentProject rdf:resource=”http://intermed.csregistry.org/tiki-index.php”/>

<foaf:workplaceHomepage rdf:resource=”http://www.lirmm.fr/”/>

<foaf:workInfoHomepage rdf:resource=”http://www.lirmm.fr/”/>

<foaf:schoolHomepage rdf:resource=”http://lycee-pompidou-34.org/”/>

<foaf:schoolHomepage rdf:resource=”http://www.univ-montp2.fr/”/>

<foaf:publications rdf:resource=”/publications”/>

Venons-en maintenant aux centres d’intèrets. L’un de mes centres d’interêt est l’Intelligence Artificielle. Dans les spécifications de FOAF, il est dit que la propriété interst a pour range un foaf:Document.

Une syntaxe minimale pour dire que je suis intéressé par l’intelligence artificielle serait :

<foaf:interest rdf:resource=”http://fr.wikipedia.org/wiki/Intelligence_artificielle”/>

Mais on peut faire mieux grâce à la classe foaf:Document :

<foaf:interest>

<foaf:Document rdf:about=”http://fr.wikipedia.org/wiki/Intelligence_artificielle”/>

</foaf:interest>

Cependant on peut avoir envie d’en dire un peu plus au sujet de ce centre d’intérêt que de faire référence à une page wikipedia. Pour l’exemple, on va dire que la page en question a pour titre Intelligence Artificielle, qu’elle est la page française de wikipedia au sujet de l’intelligence artificielle.

On va utiliser les propriétés title et description du vocabulaire Dublin Core et la propriété foaf:topic de FOAF.

Il faut ajouter l’alias à dublin core : xmlns:dc=”http://purl.org/dc/elements/1.1/”

et notre foaf interest devient :

<foaf:interest>

<foaf:Document rdf:about=”http://fr.wikipedia.org/wiki/Intelligence_artificielle”>

<dc:title>Intelligence Artificielle</dc:title>

<dc:description>French Artificial Intelligence page on wikipedia</dc:description>

<foaf:topic>Artificial Intelligence</foaf:topic>

</foaf:Document>

</foaf:interest>

De la même façon on peut donner plus d’information sur les foaf:Image utilisées comme foaf:depiction. Par exemple, j’ai enrichi les infos concernant mes photos de la façon suivante :

<foaf:depiction>

<foaf:Image rdf:about=”http://www.imagilab.fr/wp-content/gallery/RiviereTournage/01.JPG”>

<dc:title>Antoine et Erik</dc:title>

<dc:description>Picture of Natoine and Erik during “La riviere” shooting</dc:description>

<dc:format>image/jpg</dc:format>

<foaf:maker rdf:resource=”http://www.vincentrok.com/”/>

</foaf:Image>

</foaf:depiction>

J’utilise à la fois le vocabulaire Dublin Core et le vocabulaire FOAF. La propriété foaf:maker est équivalente à la propriété Dublin Core dc:creator. Elle permet de préciser qui est l’auteur d’une ressource. En l’occurence, les photos sont prises par Vincent Rok.

foaf:maker est censé être une foaf:Person. Donc comme toujours, je peux me contenter d’une URL ou je peux créer une foaf:Person. Ce qui donne à minima:

<foaf:maker>

<foaf:Person rdf:about=”http://www.vincentrok.com/”/>

</foaf:maker>

Cependant, il se trouve que je connais Vincent Rok et donc je déclarerai Vincent Rok comme une personne quand je déclarerai mes connaissances. Du coup je peux me contenter de la ligne <foaf:maker rdf:resource=”http://www.vincentrok.com”/> .

Lien à DBPedia

Bien sûr on pourrait faire encore mieux. Surtout qu’un topic foaf est “A thing” (la super classe) pour RDF. Du coup on pourrait faire de topic n’importe quoi d’autre, comme un tag par exemple, ou une discipline. Mais il faudrait s’appuyer sur un autre vocabulaire. Gardez en tête que une URL est souvent la meilleure information à donner. Surtout si par cette URL on peut à nouveau récupérer du RDF. Pensez à DBPedia par exemple. Au lieu de décrire dans mon profil ce qu’est mon centre d’intérêt en utilisant le vocabulaire de Dublin Core, je pourrai mettre une url à laquelle on trouvera une description de ce centre d’intérêt.

Un autre de mes centres d’intérêt est la Réalité virtuelle. Il existe une page Wikipedia française et un équivalent anglais. Je pourrai faire un simple lien vers l’une de ces deux URL ou, un peu mieux, mettre l’une de ces URL comme Document avec un petit peu d’informations supplémentaires. Sauf qu’il y a encore mieux: DBpedia permet pour chaque page de Wikipedia version anglaise de récupérer un RDF décrivant cette ressource.

L’URL Wikipedia de la réalité virtuelle en anglais est : http://en.wikipedia.org/wiki/Virtual_reality

Du coup, il existe une page DBpedia : http://dbpedia.org/page/Virtual_reality

Et pour récupérer le RDF/xml l’url est : http://dbpedia.org/data/Virtual_reality.rdf

Ce qui donne dans mon RDF :

<foaf:interest rdf:resource=”http://dbpedia.org/data/Virtual_reality.rdf”/>

Si vous allez regarder le contenu de ce RDF, vous verrez qu’il y a des infos super pratique comme l’utilisation de owl:sameAs qui permet de dire que cette ressource est la même que d’autres ressources, et puis surtout l’utilisation de foaf:page et foaf:depiction. Donc DBpedia réutilise des vocabulaires existant comme le vocabulaire FOAF.

Déclarez vos connaissances

Ensuite, viennent les “connaissances”, ces personnes que je connais. FOAF ne permet que de déclarer des connaissances grâce à la propriété knows.

Je vais déclarer que je connais Vincent Rok le photographe et Julien Cotret mon collègue de bureau.

<foaf:knows>

<foaf:Person rdf:about=”http://www.vincentrok.com/”>

<foaf:nick>Vincent Rok</foaf:nick>

<foaf:homepage rdf:resource=”http://www.vincentrok.com/”/>

<foaf:gender>male</foaf:gender>

<foaf:currentProject rdf:resource=”http://www.imagilab.fr”/>

</foaf:Person>

</foaf:knows>

<foaf:knows>

<foaf:Person rdf:about=”http://www.natoine.fr/#Julien_Cotret”>

<foaf:name xml:lang=”fr”>Julien Cotret</foaf:name>

<foaf:familyName>Cotret</foaf:familyName>

<foaf:firstName>Julien</foaf:firstName>

<foaf:title>phD Student</foaf:title>

<foaf:gender>male</foaf:gender>

<foaf:currentProject rdf:resource=”http://intermed.csregistry.org/tiki-index.php”/>

</foaf:Person>

</foaf:knows>

Mais je ne connais pas Julien de la même façon que je connais Vincent. Et Foaf ne me permet pas d’en dire plus sur ces relations. Cependant, il est possible d’étendre FOAF (comme tout autre vocabulaire) et de définir des relations plus spécifiques.

Enrichissement d’un vocabulaire

Par exemple nous allons définir une relation de collégue de travail.

Cette tâche demande que l’on crée un rdf de description du vocabulaire enrichi puis qu’on ajoute un alias à ce vocabulaire.

Appelons notre nouveau vocabulaire totoFoaf.

<rdf:RDF

xmlns:rdf=”http://www.w3.org/1999/02/22-rdf-syntax-ns#”

xmlns:rdfs=”http://www.w3.org/2000/01/rdf-schema#”

xmlns:foaf=”http://xmlns.com/foaf/0.1/”

xmlns:dc=”http://purl.org/dc/elements/1.1/”

xml:base=”http://www.natoine.fr/totoFoaf.rdf”>

<rdf:Description rdf:about=””>

<dc:author rdf:resource=””/>

<dc:title>Sample Relationships Schema</dc:title>

<dc:description>Schema for Defining Relationships in FOAF</dc:description>

</rdf:Description>

<!–property–>

<rdf:Description rdf:about=”http://www.natoine.fr/totoFoaf.rdf/Colleague”>

<rdf:type rdf:resource=”http://www.w3.org/1999/02/22-rdf-syntax-ns#Property”/>

<rdfs:subPropertyOf rdf:resource=”http://xmlns.com/foaf/0.1/knows”/>

<rdfs:label>Colleague</rdfs:label>

</rdf:Description>

</rdf:RDF>

Du coup en modifiant mon rdf on peut dire que Julien Cotret est un collégue de travail.

<totoFoaf:colleague>

<foaf:Person rdf:about=”http://www.natoine.fr/#Julien_Cotret”>

<foaf:name xml:lang=”fr”>Julien Cotret</foaf:name>

<foaf:familyName>Cotret</foaf:familyName>

<foaf:firstName>Julien</foaf:firstName>

<foaf:title>phD Student</foaf:title>

<foaf:gender>male</foaf:gender>

<foaf:currentProject rdf:resource=”http://intermed.csregistry.org/tiki-index.php”/>

</foaf:Person>

</totoFoaf:colleague>

Mes comptes sur le web

Il reste un dernier point. L’une des problèmatiques du web actuel avec la prolifération des applications de social networking est l’identité fragmentée des utilisateurs. Etant utilisateur de Facebook, de twitter, d’un blog, de plusieurs forums, je me retrouve avec autant de comptes utilisateurs différent que d’applications web que j’utilise. Du coup, j’ai envie de dire que tout ces comptes me sont associés. Il est possible de le faire grâce à la propriété foaf:account.

Par exemple je déclare mon compte twitter :

<foaf:account>

<foaf:OnlineAccount>

<foaf:accountServiceHomepage rdf:resource=”http://www.twitter.com”/>

<foaf:accountName>natoine</foaf:accountName>

</foaf:OnlineAccount>

</foaf:account>

Pour conclure ce turoriel, vous trouverez mon FOAF complet en ligne. Vous pouvez l’explorer avec FOAF explorer qui permet d’explorer de proches en proches le réseau. Et essentiel pour tester votre RDF/XML, il existe un validateur w3C.

Collectivités 2.0

Après avoir parlé d’Entreprise 2.0 , venons-en à ce qui m’intéresse vraiment dans le cadre de ma thèse : la Démocratie 2.0.

Enfin presque, on va d’abord parler ici de Collectivité 2.0.

Commençons par définir ce qu’est la Collectivité 2.0 :

Que trouve-t-on sur google ?

On trouve le site de la société Client au coeur qui dit :

Une « collectivité 2.0 » utilise les nouvelles technologies Internet pour permettre une participation plus forte des citoyens à la vie locale. Ces technologies numériques facilitent la construction sociale du territoire : elles privilégient la collaboration et l’auto-organisation.

Personnellement je pense que c’est une erreur que de commencer par parler de citoyens et de territoire sans avoir au préalable dit ce qu’était une collectivité. De façon encore plus naïve, on aurait pu dire en s’inspirant de la définition de l’Entreprise 2.0 :

La Collectivité 2.0 est l’utilisation émergente de plateformes d’applications sociales au sein de collectivité, ou entre des collectivités et leurs interlocuteurs.

Donc il faut commencer par bien définir ce que l’on entend par Collectivité.

L’article 72 de la constitution française :

Les collectivités territoriales de la République sont les communes, les départements, les régions, les collectivités à statut particulier et les collectivités d’outre-mer régies par l’article 74. Toute autre collectivité territoriale est créée par la loi, le cas échéant en lieu et place d’une ou de plusieurs collectivités mentionnées au présent alinéa.

Les collectivités territoriales ont vocation à prendre les décisions pour l’ensemble des compétences qui peuvent le mieux être mises en œuvre à leur échelon.

Dans les conditions prévues par la loi, ces collectivités s’administrent librement par des conseils élus et disposent d’un pouvoir réglementaire pour l’exercice de leurs compétences. […]

On parle donc de collectivités territoriales. Donc Client au coeur a raison de parler de territoire dans sa définition. Il est même dit “construction sociale du territoire”. Si l’on parle de Collectivité 2.0, c’est bien que l’on se demande ce que les technologies du web2.0 vont pouvoir améliorer dans le travail des collectivités territoriales, donc que l’on prend en compte l’aspect social.

Le travail d’une collectivité territoriale c’est quoi?

Il me semble que le travail d’une collectivité territoriale est d’améliorer les conditions de vie des citoyens d’un territoire (je suis sûrement naïf). Cela passe donc par l’aménagement du territoire, par une mise en place de services aux citoyens. Il y a des enjeux économiques, une dimension sociale, une dimension spatiale. Sur Wikipedia, on trouve à aménagement du territoire tout un ensemble de secteurs d’intervention :

  • le développement économique
  • les politiques sociales spatialisées
  • les politiques du logement
  • le développement des infrastructures
  • la disponibilité des ressources en eau et leur gestion intégrée afin d’assurer leur durabilité
  • la préservation et la mise en valeur de l’environnement comme on la conçoit par exemple dans la gestion intégrée des zones côtières

Dans le même article, on trouve aussi que l’objectif des collectivités territoriales est le suivant :

l’accompagnement du développement économique (donc oui je suis naïf), et la réduction des inégalités spatiales en termes économiques ou sociaux.

Au final, faut-il vraiment voir l’institution “collectivité territoriale” comme au service du citoyen? Une collectivité territoriale est toujours dirigée par un ou plusieues élu(s). Il ne faut donc pas perdre de vue que les actions de la collectivité sont toujours liées aux décisions politiques de ses élus.

Quels sont les moyens d’action des collectivités territoriales? Il n’y a pas de pouvoir législatif. Par contre elles ont un pouvoir règlementaire au niveau de l’urbanisme (elles construisent et subventionnent en fixant des règles). Elles font, construisent, mettent en place des services en utilisant les moyens financiers que leurs procurent la fiscalité locale et les dotations financières de l’Etat. Elles disposent de pouvoirs de police en matière de gestion d’espaces publics, de droit social , et de réglementation sur l’urbanisme (gestion de l’espace, environnement, ou de prestations privée ou publiques à certains publics tels les transports, les tarifs de maisons de retraite ou autres services publics).

Dans l’ensemble de ces actes, la communication avec le public est forte, allant dans certains cas de la simple information à de la concertation-participation voire des démarches de sensibilisation et jusqu’à de la formation ou de l’éducation.

Ce qu’il faut retenir donc c’est que l’institution collectivité territoriale (une mairie, un conseil général ou régional,…) est d’un côté à l’écoute des citoyens et de l’autre fortement guidée par la politique d’un ou plusieurs élu(s). Donc son véritable rôle est de faire le lien entre les citoyens et la politique pratiquée. Il y a donc un travail de concertation et aussi un travail de communication et d’information (de sensibilisation). Il faut savoir ce qu’attendent les citoyens et leur communiquer ce que fait la politique et en quoi cela les concerne. Les sensibiliser, c’est aussi leur demander d’adhérer à une action collective qui va ne porter ses fruits que par l’addition des bons comportements individuels (exemple du tri collectif des déchets).

Dans Collectivité 2.0 comme dans Entreprise 2.0, il y a cette idée d’émergence de pratiques web. Donc les outils Collectivité 2.0 ne doivent pas être imposés par l’institution mais bien proposés et adoptés par les utilisateurs. Un blog ou un wiki citoyen sont “Collectivité 2.0″. Ce côté émergent est très gênant pour l’institution. Elle n’a pas le contrôle de ce qui est dit. Contrôle au sens de l’image qui est véhiculée mais aussi l’accès au contenu, à l’information. N’importe qui peut monter son blog parlant de la vie dans sa région. Et n’importe qui peut se faire le porteur d’une demande que la collectivité risque de ne pas pouvoir satisfaire et risque même de ne pas avoir décelée.

Mais heureusement pour l’institution, il lui reste des moyens d’agir. Pour commencer, une institution territoriale se doit d’avoir un portail web. Un site qui lui serve de vitrine, qui lui permette de communiquer (au sens présenter de l’information). Là ou interviennent les technologies web2.0, c’est que ce portail web ne doit pas être uniquement une vitrine. Il faut que l’institution soit à l’initiative de l’expression d’une demande ou qu’elle soit avertie de cette demande dés le début de la réflexion. Et c’est là le plus gros enjeu de son site web.

Dans l’Entreprise 2.0, les objectifs sont l’amélioration de la communication à l’intérieur de l’entreprise et l’amélioration de la veille et la capitalisation des connaissances.

Dans la Collectivité 2.0, les objectifs sont l’amélioration de la communication à l’intérieur de la collectivité (donc entre les citoyens, l’institution et les élus) et l’identification des acteurs.

L’institution ne peut pas être maîtresse de tous les outils de la Collectivité 2.0. Mais elle reste maîtresse de son propre site, son portail. A elle de faire en sorte que celui-ci soit au centre de la Collectivité 2.0. Je pense qu’il n’y a rien de pire qu’un site institutionnel qui n’a aucun recueil d’avis et qui se retrouve dépassé par le blog d’un tiers. Dans ce cas, l’institution n’entendra sûrement jamais ces avis, et donc les élus non plus…

Quels sont les apports attendus des outils web2.0?

On part donc du principe que le site au coeur de la Collectivité 2.0 est celui d’une institution représentant une collectivité territoriale. Au coeur ne signifie pas que ce site doit être le plus visible nécessairement. Au coeur signifie que ce site permettra de relayer toute l’activité de la Collectivité 2.0, aggréger cette activité et lui donner une visibilité. Pour moi, cela veut dire que ce site doit répondre au paradigme SLATES de Andrew McAfee. Bien que je présente SLATES dans l’article Entreprise2.0, je reviens sur celui-ci afin de l’expliciter dans le contexte des collectivités.

SLATES pour le site institutionnel d’une collectivité:

  • Search : l’utilisateur doit pouvoir trouver toute l’information qu’il cherche. Que cette information soit générée par l’institution ou qu’elle provienne d’un autre acteur sur un autre site.
  • Links : l’utilisateur doit pouvoir lier les informations. En particulier si les informations ne proviennent pas du site institutionnel, il doit pouvoir signaler et référencer cette information dans le site institutionnel.
  • Authoring : l’utilisateur doit pouvoir émettre son avis, faire partager son expérience au sein du site institutionnel même s’il peut le faire par ailleurs. Ceci est de prime importance dans le travail d’identification des acteurs.
  • Tags : l’utilisateur doit pouvoir participer au travail de catégorisation des informations. Les tags permettent cette catégorisation et permettent de garder une trace du passage de l’utilisateur.
  • Extensions : le site institutionnel doit pouvoir recommander des lectures à ses visiteurs, des lectures provenant du site institutionnel ou non.
  • Signals : le site doit permettre à chacun de suivre l’évolution de l’activité de la collectivité 2.0 (modifications du site institutionnel, modifications d’autres sites de la collectivité2.0, visibilité du planning événementiel,…).

Quelles sont les solutions?

Toute la difficulté est de concilier les besoins, les solutions, la simplicité d’usage et les problèmes de confidentialité.

Le premier besoin est celui de la communication. De base, il faut que les supports de communication soient bien conçus. Donc il faut travailler avec des experts et des professionnels de la communication pour bien présenter son discours. Mais surtout, d’un point de vue web2.0, il faut être capable de mesurer l’impact de cette communication (afin le cas échéant de modifier la stratégie de communication). Pour mesurer l’impact il faut se doter d’indicateurs (selon l’impact d’ailleurs). Ces indicateurs peuvent aller des simples données de fréquentation (visite de la page, nombre de téléchargement,…) à des données plus qualitatives comme la possibilité de laisser un avis. N’oublions pas qu’un service sur le web peut être vu comme étant donnant-donnant. L’utilisateur profite d’un service mais peut laisser des données pour améliorer ce service. Il est toujours possible de demander à ce que l’utilisateur remplisse une page de profil ou un formulaire d’enquête de satisfaction afin d’avoir le droit d’accéder à une certaine information. C’est là qu’il faut penser simplicité d’usage. Plus l’utilisateur devra déclarer d’informations plus il sera rebuté par l’utilisation du service. C’est aussi ici que se posent les questions de confidentialité. Il faut bien que ces informations soient utilisées à des fins légitimes et non conservées dans un objectif de fichage.

Ces idées de profil et d’enquêtes de satisfaction servent aussi un autre besoin, celui d’identifier les acteurs. La problématique de l’Entreprise 2.0 de capitalisation de connaissances est moins importante dans la Collectivité 2.0. Dans la collectivité 2.0, il faut surtout se doter des bons interlocuteurs, savoir qui possède quelles compétences, qui partage quel centre d’intérêt, et s’il existe une structure de groupe (collectif, association, …). Ce problème d’identification des acteurs s’apparente à un sous problème de celui de la veille d’information. Les pratiques actuelles reposent principalement sur une analyse et un recoupement de l’information. Ce qui revient à fouiller le web bien souvent en saisissant les bons mots clefs dans google et en suivant les liens. Les blogs, les portails et les wikis de particuliers et d’associations sont un véritable pain béni pour les veilleurs. Il en va donc de même pour l’institution d’une collectivité. Il faut sans cesse chercher les nouveaux sites traitant du territoire et les référencer dans le portail institutionnel. Il faut se syndiquer dés que possible à ces sites (s’abonner aux flux RSS proposés, à des newsletters,…). Il faut exploiter ces flux de syndication à hauteur du portail (inclure le flux dans l’interface du portail par exemple). Il faut aussi penser à inscrire l’institution comme utilisateur de ces sites. La pratique de veille inverse existe aussi, plutôt que de chercher l’information, pourquoi ne pas la demander aux utilisateurs. Il faut donc proposer des services qui encouragent l’utilisateur à donner des informations permettant de mieux cerner qui il est. Un site institutionnel pourrait très bien proposer lui même un wiki, une solution de blogs hébergés, un forum,… Il reste une règle fondamentale, l’utilisateur est toujours méfiant quand on lui demande des informations personnelles. Et cette méfiance est sûrement justifiée. La bonne pratique à mes yeux est de ne jamais demander d’informations inutiles ou superflues, de ne demander des informations que pour améliorer les services rendus et de toujours expliciter comment sont exploitées ces informations.

Les sites identifiés par l’institution comme étant générateurs de contenus et donc moyen de récupérer des informations sont aussi des vecteurs de communication. Une fois que l’on a bien identifié les utilisateurs d’un blog ou d’un forum, on peut alors utiliser ce blog ou ce forum pour signaler la création d’une nouvelle information. L’idée est celle de la diffusion de l’information par le réseau. Pensez à cette initiative de IKEA sur facebook. Les outils de réseaux sociaux sont un excellent moyen de diffuser de l’information, encore faut-il bien penser le support. Le lien aux autres sites ou plateformes est dans les deux sens. Le site institutionnel doit rapatrier l’activité du réseau mais doit aussi diffuser sur le réseau (créer un twitter, un post sur facebook,…).

Un autre besoin identifié est celui de la gestion d’événementiels. Il ne faut pas penser communication, visibilité, réseau sur internet déconnecté de la “vie réelle”. La communication de l’institution passe par internet mais passe toujours par l’organisation d’événements réels. Les nouveaux outils de réseaux comme peuplade ou la ruche ont tout à fait compris ce point. Ces applications sont aussi des solutions de gestion d’événements. Cet aspect événementiel est même central dans l’outil. Les discussions dans l’outil permettent de préparer ces événements, elles sont poursuivies lors de l’événement, la discussion au cours de l’événement peut-être synthétisée dans l’outil une fois l’événement clôt. Il y a un aspect organisationnel mais aussi une consultation sur le fond. Qu’attendent les citoyens de l’événement? La consultation grâce à internet offre de grandes perspectives à qui saura traiter l’information produite correctement.

Et on touche là aux limites actuelles de la Collectivité 2.0.

Les deux points sur lesquels la Collectivité 2.0 n’est pas encore une solution sont celui de la consultation et du lien entre les citoyens et les élus. Pour l’instant on manque de pratique et de traitement. Il y a fort à espérer que les technologies du web sémantique pourront apporter au niveau du traitement de l’information provenant de processus de consultation sur internet. Ce qu’il manque avant tout c’est une véritable expérience de la consultation en ligne. Pas juste une analyse de débats sur des forums. Non, une vraie expérimentation dans laquelle des élus et des citoyens acceptent de jouer le jeu d’une consultation par internet. Donc des débats s’incluant dans des processus réels. Des élus qui investissent du temps pour la participation en ligne. Une institution et des élus qui jouent le jeu de la transparence. Il faut un processus ou les décisions prises sont justifiées par le contexte de la consultation. Donc dans le site, la possibilité de dire : l’institution met en oeuvre telle décision prise par tels élus suite aux arguments évoqués par les utilisateurs de tel débat en ligne.

Entreprise 2.0

Je vais tenter dans cet article de faire un point sur ce qu’est l’Entreprise 2.0.

Je m’appuie essentiellement sur le blog de Andrew Mc Afee vu que c’est lui qui a défini le terme en premier.

Une première définition est proposée dans l’article Entreprise 2.0 vs SOA :

L’entreprise 2.0 est l’utilisation d’applications sociales dans les compagnies.

Cette utilisation doit être :

  • optionnelle
  • indépendante de tout workflow préalable (on peut utiliser l’outil sans démarche préalable)
  • indifférente du statut dans l’entreprise
  • adaptée à une multitude de types de données

Dans ce premier article, Andrew McAfee insiste sur le fait que l’Entreprise 2.0 n’est pas une technologie en soi ni dépendant d’une technologie particulière. C’est une pratique qui émerge dans l’Entreprise.

D’ailleurs dans sa deuxième définition d’Entreprise 2.0, Entreprise 2;0 version 2.0, il met beaucoup plus en avant cette émergence:

L’Entreprise 2.0 est l’utilisation émergente de plateformes d’applications sociales au sein des compagnies, ou entre des compagnies et leurs partenaires ou clients.

Andrew McAfee revient encuite sur les termes de sa définition:

Les application sociales permettent aux utilisateurs de se lier, de collaborer via des communications médiées par ordinateur et de former des communautés en ligne.

Des plateformes sont des environnements digitaux dans lesquels contributions et interactions sont globalement visibles et persistentes dans le temps.

L’émergence signifie que les applications sont non contraignantes et qu’elles contiennent des mécanismes qui laissent visibles avec le temps les patterns et les structures inhérents aux interactions entre les utilisateurs.

L’aspect non contraignant est aussi précisé. Cela signifie que l’utilisation des applications doit être conforme à celle présentée dans la première définition (optionelle, indépendant de workflow,…).

Andrew McAfee cite ensuite un ensemble d’outils qui sont compatibles avec cette vision Entreprise 2.0 :

  • les wikis internes
  • les blogs internes
  • les forums internes
  • applications de mises en relation en fonction du marché (concurents, partenaires, clients,…)
  • le tagging partagé dans l’entreprise
  • les blogs d’employés

Par contre, il faut bien avoir en tête que l’on reste dans un contexte de capitalisation de connaissances, ou de veille dans l’Entreprise. Il n’est pas ou peu question de communication externe. L’Entreprise 2.0 n’est pas une solution de communication “vitrine”. C’est une solution de communication interne. Il ne s’agit pas de partager la connaissance de la société avec l’extérieur (en tout cas pas toute la connaissance). C’est pourquoi Wikipedia n’est pas un outil d’Entreprise2.0.

La plupart de ce que l’on appelle l’intranet n’est pas non plus de l’Entreprise2.0 car sa pratique n’est pas émergente.Il y a cette idée d’utiliser les outils que les employés ont décidé de s’approprier et non d’imposer des outils comme c’est le cas avec la plupart des solutions groupware.

Les mails et l’instant messagerie ne sont pas Entreprise2.0 car la discussion n’est ni visible par tous ni persistente.

Dans la thèse d’Alexandre Passant, on retrouve une traduction de la vision de Andrew McAfee :

vision où les outils de plus en plus courants du Web 2.0 (blogs, wikis, services de partage de contenus, pratiques de tagging …) font leur apparition dans les systèmes d’information organisationnels.”

Alexandre Passant fait référence à l’acronyme SLATES proposé par Andrew McAfee dans l’article Enterprise 2.0 : The dawn of emergent collaboration. Alexandre Passant propose de s’appuyer sur la technologie du web sémantique pour étendre cet acronyme en ce qu’il appelle SemSLATES.

Mais revenons pour l’instant sur SLATES. SLATES est utilisé par Andrew McAfee pour présenter les 6 composantes incontournables des technologies de l’Entreprise 2.0:

  • Search. Les utilisateurs doivent avoir une solution leur permettant de trouver ce qu’il cherchent.
  • Links. Les utilisateurs doivent pouvoir créer des liens entre les ressources de façon à faire ressortir ce qui est pertinent à la façon de google.
  • Authoring. Les utilisateurs veulent être auteurs (pas au sens de Shakespeare). Ils veulent faire partager leurs expériences, centres d’intérêts,…
  • Tags. La pratique du Tagging est devenue très utile pour caractériser le thème d’une ressource et pour catégoriser les ressources. De plus, les tags permettent de garder  une trace de l’activité, du passage d’un utilisateur.
  • Extensions. Les extensions sont des formes d’assistances et de recommandations par le système. L’exemple courant est celui d’Amazon qui recommande des achats en fonction des achats précédents, des achats des autres et de votre visite du site.
  • Signals. Les signaux sont tout ce qui permet de rester au courant des modifications des ressources. Par exemple, RSS est une solution pour rester au courant des derniers ajouts dans un site type blog, wiki, forum…

Le paradigme SemSLATES propose la mise en place d’une architecture de médiation sociale et sémantique. Le travail d’Alexandre Passant repose essentiellement sur les technologies du web sémantique. Il a utilisé et proposé plusieurs ontologies web afin de représenter les connaissances et l’activité de production de ces connaissances par un réseau d’individus dans un contexte d’utilisation d’outils de type blogs et wikis et la pratique du tagging. Graĉe à cette approche sémantique, il a pu faire des propositions concrètes (des applications) permettant d’améliorer la recherche (Search), l’asssistance/recommandation (Extensions) et les signaux (Signals). Il a surtout pu mettre en place une architecture de médiation permettant de créer un véritable ensemble cohérent d’outils.

Le premier problème qu’a tenté de résoudre Alexandre Passant est celui de l’hétérogénéité des formats. Il existe plusieurs solutions logicielles pour mettre en place une solution Entreprise2.0. Cependant, ces solutions ne sont pas interopérables. Ce qui conduit à une fragmentation de l’information alors que à priori, l’objectif de l’Entreprise 2.0 est au contraire la capitalisation de l’information.

Le deuxième problème est lié à la nature plein-texte de l’information dans les outils (wikis, forums, blogs,…). Cette nature plein-texte fait que le sens (sémantique) de l’information contenue dans un billet de blog ou une page wiki est très difficile à extraire. Concrétement, ce problème réduit l’efficacité des recherches qui se limitent souvent à vérifier la présence ou non d’un terme dans le texte.

Le troisième problème soulevé est celui du tagging. L’avantage est que la catégorisation est faite par les utilisateurs mais le tagging pose des problèmes :

  • l’ambiguïté des termes. Dans une folksonomie, un tag n’est pas défini. Il n’a aucun sens qui lui est associé (si je vous dis “Pilote”, je parle du journal, du pilote de voiture ou du poisson?).
  • le problème d’hétérogénéité. A l’inverse du problème de l’ambiguïté. Il existe parfois plusieurs tags pour désigner un même objet.
  • absence d’organisation. Il n’y a aucune relation entre les tags dans une folksonomie. Du coup, on ne peut pas dire : tout ce qui parle d’énergies renouvelables parle aussi d’énergie.

Le travail de Alexandre Passant permet notamment de lister les limites de l’approche SLATES :

  • Search. Pas de prise en compte de l’ambiguïté, de l’hétérogénéité, de la nature plein-texte et de l’information fragmentée.
  • Links. Les seuls liens possibles entre ressources sont des liens hypertextes sans sémantique.
  • Authoring. Les utilisateurs produisent des documents mais pas des concepts (toujours l’absence de sémantique).
  • Tags. Ambiguïté, hétérogénéité, pas d’organisation.
  • Extensions. Repose uniquement sur des méthodes statistiques ou de co-occurence.
  • Signals. Problème d’abondance de l’information. Pas de filtres sémantiques par exemple.

En résumé, on peut dire que Alexandre Passant montre que l’Entreprise 2.0 n’est pas encore au point pour le traitement de l’information. On peut faire de la veille efficace au sens rappatrier et stocker de l’information. Mais il n’y a pas grand chose pour proposer une meilleure lecture de cette information. Quelque chose qui permettrait aux utilisateurs de vraiment partager la connaissance. Il n’y a pas de représentation de cette connaissance.

Par contre, les applications web 2.0 apportent des formes nouvelles et efficaces de communication. C’est le sujet du billet de Yves Caseau sur la communication en entreprise. Dans son billet, Yves Caseau identifie 8 formes de communication “nouvelles”. Le billet de Yves Caseau fait état d’un travail de définition non fini encore. C’est pourquoi je vous invite à lire ce billet plutôt que de le résumer ici.Ce que l’on peut dire pour synthètiser, c’est qu’il existe un véritable progrés en terme de communication dans l’entreprise grâce à l’Entreprise2.0. D’ailleurs plus largement, grâce au web 2.0, communiquer n’a jamais été aussi simple comme il est dit dans ces quelques articles de Philippe Testard-Vaillant regroupés dans un numéro du journal du CNRS. Cependant, sur le web en général comme dans le contexte de l’entreprise, il reste des progrès à faire en ce qui concerne le traitement, l’analyse de l’information.