OWNI http://owni.fr News, Augmented Tue, 17 Sep 2013 12:04:49 +0000 http://wordpress.org/?v=2.9.2 fr hourly 1 Penser le futur du web http://owni.fr/2011/10/25/futur-web-moteur-recherche-donnees-reseau/ http://owni.fr/2011/10/25/futur-web-moteur-recherche-donnees-reseau/#comments Tue, 25 Oct 2011 16:41:02 +0000 Olivier Ertzscheid http://owni.fr/?p=84609

Qu’y aura-t-il demain sous nos moteurs ? Moteurs de recherche et réseaux sociaux occupent une place chaque jour plus prépondérante dans nos accès à l’information et à la connaissance. Ils suscitent également de vives interrogations, notamment dans leur capacité à rendre indexables des informations relevant indistinctement des sphères publiques, privées et intimes des contenus disponibles en ligne.

Enfin, inaugurés par le “like” de Facebook, les systèmes de recommandation se multiplient, venant concurrencer ou remplacer l’établissement de liens hypertextes et suscitant de nouveaux usages, de nouvelles métriques. Par ailleurs, la famille documentaire s’est agrandie : les encyclopédies sont devenus collaboratives, d’immenses silos documentaires sont apparus (YouTube, Flickr, etc.), les profils humains sont devenus des objets de “collection”.

Ce qui a réellement changé : capter l’attention

Question d’économies. Dans le contexte d’une abondance de contenus informationnels, prévaut une économie de l’attention hypothéquée par la capacité à mettre en place une économie de la confiance (Trust economy) avec la foule comme support (crowdsourcing), la modélisation de la confiance comme vecteur, et de nouvelles ingénieries relationnelles comme technologie.

La force des métadonnées. Pour les moteurs mais aussi pour les réseaux sociaux, toutes les données sont ou peuvent devenir des métadonnées, qui dessinent des comportements (pas uniquement documentaires) en même temps qu’elles permettent de caractériser la motivation de ces mêmes comportements. Chaque clic, chaque requête, chaque comportement connecté fait fonction de métadonnée dans une sorte de panoptique global.

Le web invisible ne l’est plus vraiment. Le défi technologique, après avoir été celui de la masse des documents indexés, devient celui de la restitution en temps quasi-réel du rythme de publication propre au web (“world live web”). Pour accomplir ce miracle, il faut aux outils de captation de notre attention que sont les moteurs et les réseaux sociaux, une architecture qui entretiennent à dessein la confusion entre les sphères de publication publiques, intimes et privées.

Rendre compte de la dissémination et du mouvement

La naissance de l’industrie de la recommandation et des moteurs prescripteurs. La recommandation existe de toute éternité numérique, mais elle est désormais entrée dans son ère industrielle. Moteurs et réseaux sociaux fonctionnent comme autant de prescripteurs, soit en valorisant la capacité de prescription affinitaire des “proches”, des “amis” ou des “collaborateurs” de l’internaute (boutons “like” et “+1″), soit en mettant en avant les comportements les plus récurrents de l’ensemble de leurs utilisateurs.

De nouvelles indexations. Après l’indexation des mots-clés, des liens hypertextes, des images, de la vidéo, des profils, il faut maintenant apprendre à indexer, à mettre en mémoire, la manière dont circule l’information, être capable de rendre compte de cette dynamique virale, capable de prendre en compte la dissémination, l’écho, l’effet de buzz que produisent les innombrables “boutons poussoir” présents sur chaque contenu informationnel pour lui assurer une dissémination optimale.

Navigation virale ou promenade carcérale ? L’approche fermée, propriétaire, compartimentée, concurrentielle, épuisable de l’économie du lien hypertexte que proposent les systèmes de recommandation, ne peut mener qu’à des systèmes de nature concentrationnaire. Des écosystèmes de l’enfermement consenti, en parfaite contradiction avec la vision fondatrice de Vannevar Bush selon laquelle la parcours, le chemin (“trail”) importe au moins autant que le lien. Les ingénieries relationnelles des systèmes de recommandation – de celui d’Amazon au Like de Facebook – ressemblent davantage à une promenade carcérale qu’à une navigation affranchie parce qu’elles amplifient jusqu’à la démesure la mise en avant de certains contenus au détriment de la mise au jour d’une forme de diversité.

Brassage des données dans un “jardin fermé”

Un nouveau brassage. La recherche universelle, désignant la capacité pour l’utilisateur de chercher simultanément dans les différents index (et les différentes bases de données) proposés par les moteurs de recherche, ouvre un immense champ de possibles pour la mise en œuvre d’algorithmes capables de prendre en charge les paramètres excessivement complexes de la personnalisation, de la gestion des historiques de recherche, de l’aspect relationnel ou affinitaire qui relie un nombre de plus en plus grand d’items, ou encore du brassage de ces gigantesques silos de donnés. Un brassage totalement inédit à cette échelle.

Le mirage des nuages. De rachats successifs en monopoles établis, l’extrême mouvement de concentration qui touche la médiasphère internautique fait débat. D’un immense écosystème ouvert, le web mute aujourd’hui en une succession de ce que Tim Berners Lee nomme des “walled gardens”, des “jardins fermés”, reposant sur des données propriétaires et aliénant leurs usagers en leur interdisant toute forme de partage vers l’extérieur. L’enjeu n’est alors plus simplement celui de l’ouverture des données, mais celui de la mise en place d’un méta-contrôle, un contrôle accru par la migration de l’essentiel de nos données sur les serveurs des sociétés hôtes, grâce à la banalisation du cloud computing : l’essentiel du matériau documentaire qui définit notre rapport à l’information et à la connaissance étant en passe de se retrouver entre les mains de quelques sociétés marchandes

Et tout ça pour quoi ? Il s’agit de porter à visibilité égale des contenus jusqu’ici sous-utilisés ou sous-exploités, pour augmenter leur potentiel marchand en dopant de la sorte le rendement des liens publicitaires afférents. Un objectif qui ne peut être atteint sans la participation massive des internautes.

La marchandisation de toute unité documentaire recensée

Le web personnel. La pertinence et la hiérarchisation d’un ensemble de contenus hétérogènes n’a de sens qu’au regard des intérêts exprimés par chacun dans le cadre de ses recherches précédentes. La condition sine qua non de la réussite d’une telle opération est le passage au premier plan de la gestion de l’historique des recherches individuelles.

Algorithmie ambiante. A la manière de l’informatique “ambiante” qui a vocation à se diluer dans l’environnement au travers d’interfaces prenant la forme d’objets quotidiens, se dessinent les contours d’une algorithmie également ambiante, c’est à dire mettant sous la coupe de la puissance calculatoire des moteurs, la moindre de nos interactions en ligne.

Marchands de documents. Derrière cette algorithmie ambiante on trouve la volonté déterminée d’optimiser encore davantage la marchandisation de toute unité documentaire recensée, quelle que soit sa sphère d’appartenance d’origine (publique, prive, intime), sa nature médiatique propre (image, son, vidéo, page web, chapitre de livre, etc…), sa granularité (un extrait de livre, un billet de blog, un extrait de vidéo …) et son taux de partage sur le réseau (usage personnel uniquement, usage partagé entre « proches », usage partagé avec l’ensemble des autres utilisateurs du service).

Une base de données des intentions

La recherche prédictive. Les grands acteurs du web disposent aujourd’hui d’une gigantesque “base de donnée des intentions” (concept forgé par John Battelle), construite à l’aide de nos comportements d’achats, de l’historique de nos requêtes, de nos déplacements (géolocalisation), de nos statuts (ce que nous faisons, nos centres d’intérêt), de nos “amis” (qui nous fréquentons). Une base de donnée des intentions qui va augmenter la “prédictibilité” des recherches. Et donc augmenter également leur valeur transactionnelle, leur valeur marchande.

Recherche de proximité et moteurs de voisinage. A l’aide de moteurs comme Intelius.com ou Everyblock.com, il est possible de tout savoir de son voisin numérique, depuis son numéro de sécurité sociale jusqu’à la composition ethnique du quartier dans lequel il vit, en passant par le montant du bien immobilier qu’il possède ou l’historique de ses mariages et de ses divorces. Toutes ces informations sont – aux États-Unis en tout cas – disponibles gratuitement et légalement. Ne reste plus qu’à les agréger et à faire payer l’accès à ces recoupements numériques d’un nouveau genre. Surveillance et sous-veillance s’affirment comme les fondamentaux de cette nouvelle tendance du “neighboring search.

Pourquoi chercher encore ? Le nouvel horizon de la recherche d’information pose trois questions très étroitement liées. Demain. Chercherons-nous pour retrouver ce que nous ou nos “amis” connaissent déjà, permettant ainsi aux acteurs du secteur de vendre encore plus de “temps de cerveau disponible” ? Chercherons-nous simplement pour acheter, pour consommer et pour affiner le modèle de la base de donnée des intentions ? Ou pourrons-nous encore chercher pour dmoteuécouvrir ce que nous ne savons pas (au risque de l’erreur, de l’inutile, du futile) ?

Les risques d’une macro-documentation du monde

Le web était un village global. Son seul cadastre était celui des liens hypertexte. Aujourd’hui, les systèmes de recommandation risquent de transformer le village global en quelques immeubles aux incessantes querelles de voisinage.

Un web hypermnésique et des moteurs omniscients. Aujourd’hui le processus d’externalisation de nos mémoires documentaires entamé dans les années 1980 avec l’explosion des mémoires optiques de stockage est totalement servicialisé et industrialisé. L’étape suivante pourrait ressembler à l’hypermnésie. Celle dont souffre Funès dans la nouvelle de Borges. Mais cette hypermnésie est aujourd’hui calculatoire, algorithmique, ambiante. Elle est massivement distribuée, ce qui lui confère cette impression de dilution, de non-dangerosité. Mais quelques acteurs disposent des moyens de l’activer et de tout rassembler. Pour l’instant ce n’est que pour nous vendre de la publicité, du temps de cerveau disponible. Mais que deviendrait cette arme hypermnésique entre les mains d’états ? Nous avons tendance à oublier l’importance de se souvenir puisqu’il est devenu possible de tout se remémorer.

Des enjeux de politique … documentaire. La deuxième question c’est celle de l’écosystème informationnel que nous souhaitons pour demain. Ne rien dire aujourd’hui, c’est consentir. Il est aujourd’hui absolument nécessaire d’ouvrir un débat autour de l’écosystème non plus simplement documentaire mais politique que les moteurs représentent, il est vital de s’interroger sur la manière dont cet écosystème documentaire conditionne notre biotope politique et social … Or toutes ces questions sont par essence documentaires, ce sont les questions que posent une macro-documentation du monde. Voilà pourquoi le rôle des professionnels de l’information est et sera absolument déterminant.


Billet initialement publié sur affordance.info, sous le titre “Qu’y aura-t-il demain sous nos moteurs ?”. Article de commande pour la revue Documentaliste, sciences de l’information, publié ici dans sa version longue. Article également déposé sur ArchiveSic.

Ertzscheid Olivier, “Méthodes, techniques et outils. Qu’y aura-t-il demain sous nos moteurs ?” in Documentaliste, sciences de l’information. Vol. 48, n°3, Octobre 2011, pp. 10-11. En ligne

Olivier Ertzscheid est également auteur d’un récent ouvrage sur l’identité numérique et l’e-reputation

Illustrations CC FlickR eirikref (cc-by), hawksanddoves.

]]>
http://owni.fr/2011/10/25/futur-web-moteur-recherche-donnees-reseau/feed/ 15
[POUR PREPARER #MNW3] : Interview de Denis Gaucher http://owni.fr/2011/06/21/pour-preparer-mnw3-interview-de-denis-gaucher/ http://owni.fr/2011/06/21/pour-preparer-mnw3-interview-de-denis-gaucher/#comments Tue, 21 Jun 2011 12:05:47 +0000 Owni Music http://owni.fr/?p=71133 En amont de la troisième édition de Music Net.Works, qui aura lieu le 22 juin à La Cantine sur le thème “Les Métadonnées : vers un web intelligent ?“, nous avons souhaité amorcer le débat en allant à la rencontre d’acteurs évoluant en son coeur.

Le premier d’entre eux est Denis Gaucher, directeur du pôle publicité de Kantar Média. Il évoque avec nous la base de données BIPP, son utilité, les utilisations qui peuvent en être faites ainsi que les perspectives pour le développement de cette base de données.

1ère partie :

- Qu’est-ce que la base BIPP ?
- Depuis quand existe-t-elle ?
- Un exemple concret de son utilisation ?

Cliquer ici pour voir la vidéo.

2ème partie :

- La base est-elle accessible en ligne, et à qui?
- À qui appartient cette base, qui donne l’accès à d’autres pour utiliser ses informations?
- Avez-vous imaginé la possibilité de donner accès aux informations de votre BDD avec une API à des développeurs, bien sur contre échanges ?
- Quelle est la prochaine étape pour la base BIPP ?
- Dans quelle mesure pouvez-vous devenir la clé de voute d’un écosystème de données autour de la musique, est-ce possible de le faire?

Cliquer ici pour voir la vidéo.

3ème partie :

- Quelles ont été les grandes étapes de l’initiative BIPP ?
-Avec cette complexité, comment appréhende-t-on le développement de cette base à l’international, ou simplement son accès à l’international ?

Cliquer ici pour voir la vidéo.

4ème partie :

- DDex et BIPP ça marche comment ?
- Êtes-vous partie prenante dans la construction de ce format d’échange ?

Cliquer ici pour voir la vidéo.

Interview réalisée par Hugo amsellem et Magalie Clapier

Article initialement publié sur Music.Net Works

Music.Net Works sur : twitter; facebook

Crédits photos CC (BY – SA) flickr certains droits réservés : bionicteaching

]]>
http://owni.fr/2011/06/21/pour-preparer-mnw3-interview-de-denis-gaucher/feed/ 2
Music Net.Works #3 – “Les Métadonnées : vers un web intelligent ?” http://owni.fr/2011/06/10/music-net-works-3-les-metadonnees-vers-un-web-intelligent/ http://owni.fr/2011/06/10/music-net-works-3-les-metadonnees-vers-un-web-intelligent/#comments Fri, 10 Jun 2011 20:03:16 +0000 Owni Music http://owni.fr/?p=32195

OWNImusic.com, Silicon Sentier et Le Bureau Export de la musique française présentent

Music Net.Works, le premier rendez-vous parisien des acteurs de la musique, du web et des nouvelles technologies mixant débats, workshops, networking et rencontres artistiques.

Après les premières éditions en février et avril dernier, qui avaient réuni un public nombreux dans une Cantine pleine à craquer, Music Net.Works revient le mercredi 22 juin 2011 à 19h avec une nouvelle session :

« Les métadonnées : vers un web intelligent ? »

INSCRIPTION

Aujourd’hui le sujet est au cœur de la réflexion et des enjeux pour l’industrie musicale et pour les acteurs du web. Les métadonnées, ces données qui permettent de renseigner les fichiers musicaux, sont directement liées au reversement des droits et à la promotion de la musique en ligne. A ce jour, plusieurs questions restent posées, qu’elles soient d’ordre culturel, technologique ou concurrentiel : comment peut-on tracer l’utilisation des titres ? comment l’information doit-elle être sécurisée ? quelle est l’utilité des normes internationales ? l’information se construit-elle à partir des contenus ou à partir des utilisateurs ? comment peut-elle être exploitée (au) mieux ?…

Music Net.Works se propose d’aborder ces questions sous l’angle professionnel, avec des acteurs de l’industrie musicale, de la technologie et du web.

Cette session de MusicNetWorks est une manifestation partenaire de Futur En Seine (cf. Programme OFF de FENS)

Pour cette troisième édition, Music Net.Works innove sur le format.

Programme

Rapide panorama de la situation des bases de données actuelles, puis exposition des 4 ateliers qui seront ensuite modérés par des professionnels, afin d’émettre une(des?) proposition(s) pour une prochaine étape:

La technologie peut-elle permettre voire élargir l’identification de contenus ?

Alexandre Archambault, Responsable des affaires réglementaires chez Iliad/Free

-

Quel est l’impact des données contenus et des données utilisateurs sur le marketing ?

Yves Riesel, Fondateur et directeur de Abeille Musique et de Qobuz

-

Quel sont les chantiers en cours au niveau international et les enjeux ?

Jean-François Bert, Président de Transparency

-

Comment l’innovation technologique peut élargir l’exploitation des bases de données ?

Frédéric Rousseau, Responsable de la valorisation scientifique et industrielle à l’IRCAM

-

La rencontre sera animée par Hugo Amsellem (www.industriemusicale.com)

On se retrouve à l’issu des ateliers pour un rendu ensemble, avant de poursuivre la discussion après la désormais attendue livraison des pizzas…

Le public est invité à poser ses questions au panel en amont du débat via Twitter (avec le hashtag #MNW3) ou Facebook. La rencontre sera par ailleurs retransmise en direct sur le site de Music Net.Works.

Pour mieux comprendre la situation en amont, la session démarre dès maintenant: vous trouverez sur www.musicnetworks.org des liens vers de l’information et des analyses déjà disponibles sur le sujet : MidemNet Academy, World Copyright Forums, ou encore l’efficace émission LaMusiqueDemain.

Et d’ici le 22 juin, de nouveaux contenus…

La Cantine (voir plan)

151 rue Montmartre, Passage des Panoramas – 12 Galerie Montmartre, 75002 Paris
Métro : Grands Boulevards (L. 8 & 9)
Crée par : OWNImusic.com, Silicon Sentier et Le Bureau Export de la musique française
Partenaires : AF83Média, Cap Digital, Futur en Seine

www.musicnetworks.org / www.facebook.com/musicnetworks / www.twitter.com/MusicNet_Works / #MNW3

]]>
http://owni.fr/2011/06/10/music-net-works-3-les-metadonnees-vers-un-web-intelligent/feed/ 1
Photographie et presse: entre illustration et confusion http://owni.fr/2011/02/15/photographie-et-presse-entre-illustration-et-confusion/ http://owni.fr/2011/02/15/photographie-et-presse-entre-illustration-et-confusion/#comments Tue, 15 Feb 2011 09:00:57 +0000 Patrick Peccatte http://owni.fr/?p=46094 Les agences de presse diffusent leurs photos sous forme numérique. Et depuis maintenant une vingtaine d’années, chaque fichier image fourni aux clients contient la description textuelle de la photo .

Cette technique est supportée par tous les systèmes éditoriaux en usage dans les médias (print ou web) qui reçoivent des photos d’agence. Par ailleurs, au cas où le média ne serait pas équipé d’un tel système, il existe de nombreux outils peu onéreux ou même gratuits qui permettent d’exploiter très facilement ces légendes encapsulées dans les images. L’avantage de ce procédé est évident. Le lien entre une image et sa description est toujours disponible et permet au rédacteur de rechercher et d’utiliser aisément et sans erreur les photos d’agence.

Opacité des images

Certains éléments du descriptif inclus dans une photo peuvent être utilisés par le rédacteur et repris dans un article. C’est ainsi que l’on peut parfois lire dans la légende d’une photo publiée quelques précisions concernant la date et le lieu de prise de vue de celle-ci. Ces informations sont souvent importantes quand la photo est antérieure aux événements décrits dans l’article. Dans ce cas en effet le rédacteur signale par ce moyen simple que l’image n’est pas en rapport direct et immédiat avec le contenu de l’article, que la photo ne relève pas véritablement du soi-disant mode documentaire. Elle fonctionne d’emblée sous un régime illustratif que le lecteur doit lui-même interpréter à l’aide des informations rapportées dans la légende.

Le fonctionnement illustratif des photos publiées dans les médias d’actualité a souvent été abordé sur Culture Visuelle et il dépasse évidemment cette mention de la date et du lieu de prise de vue des clichés proposés. Ce billet cependant s’attachera uniquement à ces caractérisations évidentes dont l’oubli, en ce qui concerne les sites d’actualité, est une source de confusion regrettable et parfaitement injustifiable.

Dans le cas des journaux et magazines classiques, imprimés, la reprise de certaines informations spécifiques à une photo comme la date et le lieu de prise de vue est entièrement contrôlée par le rédacteur. Sauf incohérence manifeste, il est très difficile sans ces indications de détecter une photo publiée qui ne soit pas en relation directe et immédiate avec le sujet de l’article qu’elle illustre, comme par exemple une photo d’une ancienne manifestation prise quelques jours avant un papier décrivant une manifestation actuelle. Sur le Web par contre, pour autant que les métadonnées descriptives de la photo n’aient pas été effacées, c’est facilement décelable : comme beaucoup de ses confrères, le site lejdd.fr rend compte des manifestations à Alger dans un article intitulé Des violences en Algérie, signé B.B (avec Reuters). L’article est illustré d’une photo de l’agence Maxppp avec la légende Une manifestation a dégénéré à Alger.

Article du JDD.FR daté du 22 janvier 2011

Or, cette photo date en fait du 7 janvier 2011 comme on peut s’en rendre compte en affichant les informations contenues dans le fichier image. Par ailleurs, elle figure sur le book du photographe Billal Bensalem, postée le 8 janvier.

Informations contenues dans l'image affichées à l'aide de l'outil Jeffrey's Exif Viewer

Mais le Web permet également d’effectuer des recherches de photos similaires publiées un peu partout dans le monde. Comme les agences, fort heureusement pour elles, vendent leur production à de multiples clients, il est facile en quelques clics soigneusement ajustés de retrouver les différentes utilisations d’une photo. Étudiée par Olivier Beuvelet dans un récent billet, une photo prise lors d’une manifestation à Alger a ainsi été publiée le 22 janvier dernier par plusieurs sites (cliquer ici), toujours en relation avec les événements du jour. Tous les sites en question ont manifestement repris et adapté une dépêche et une photo associée fournies par l’AFP, mais tous n’ont pas eu l’honnêteté de mentionner que la photo date du 7 janvier, laissant le lecteur croire qu’il s’agit d’une image prise le jour même. De même, la candidature d’Erik Israelewicz à la direction du Monde (cliquer là) mobilise un nombre très restreint de photos dont certaines remontent à 2005 ou 2008 (sans que cela soit toujours mentionné) tandis que d’autres sont présentées à l’envers.

Embarquer les métadonnées

La présence de métadonnées dans certaines photos et la possibilité de chercher et comparer d’autres instances publiées ouvrent donc pour le lecteur attentif de nouvelles perspectives. Il est bien plus facile qu’auparavant de tenter de comprendre les choix d’images, de déconstruire leur éditorialisation, souvent volontairement masqués par les rédacteurs. Désormais, beaucoup de choix iconographiques discutables et d’approximations éditoriales peuvent se repérer.

On pourra soutenir que ces imprécisions sont de peu d’importance; c’est l’article dans son ensemble qui compte, pas les images. Mais cela signifie alors que l’image est d’emblée conçue par le rédacteur comme une illustration accessoire, réduite à sa fonction décorative. Selon cette conception qui non seulement subordonne l’image au texte mais lui dénie de fait toute valeur informative, la photo n’est jamais traitée avec le même sérieux, la même rigueur dont le rédacteur est supposé faire preuve dans son article. Que dirait-on en effet d’un journaliste qui décrirait ainsi une manifestation récente: « cela s’est passé ce matin, ou peut-être il y a quelques jours, c’est à vous de le découvrir, etc. ».

On pourra rétorquer aussi que la suppression des métadonnées d’une photo d’agence fait partie des prérogatives éditoriales du média, au même titre que le recadrage de l’image, la correction chromatique ou même la retouche. Les métadonnées des images relèveraient de la « cuisine interne » à une rédaction et ne concerneraient pas le lecteur. Au passage, on remarquera que si l’on retient cet argument (ce que je ne fais pas), il n’est guère possible par contre d’interdire à un lecteur de comparer en quelques minutes les différentes utilisations d’une même image, ce qui est évidemment impossible avec les publications imprimées.

Je défends un point de vue exactement opposé. Les métadonnées embarquées sont indispensables tout le long de la chaîne éditoriale et n’ajoutent que très peu de poids aux images publiées sur Internet . Le Web permet de conserver ces métadonnées jusqu’à la publication, ce qui n’était pas possible avec le print. Elles apportent alors des précisions utiles au lecteur exigeant. Il existe dores et déjà des outils qui permettent d’afficher ces informations d’un simple clic. Les métadonnées produites par les agences de presse devraient être systématiquement conservées dans les photos publiées. Un site qui prétend traiter sérieusement l’actualité en effaçant systématiquement ces informations est encore englué dans une conception top-down désormais dépassée du paysage médiatique. Il prétend surplomber son lectorat, savoir ce qui est bon pour lui et ce qui ne l’est pas. En bref, il n’a pas confiance en ses lecteurs.

-
Deux billets publiés initialement sur le blog Déjà Vu/Culture Visuelle : Les photos d’agences de presse sur les sites d’actualité, entre illustration et confusion, et, Pour le jdd.fr, les manifestations se suivent et se ressemblent
-
Crédits photo : captures d’écran du jdd.fr ; Library of Congress [Domaine Public]

]]>
http://owni.fr/2011/02/15/photographie-et-presse-entre-illustration-et-confusion/feed/ 5
[itw] Bastien Guerry: Faire des institutions des acteurs de la culture libre http://owni.fr/2011/01/14/itw-bastien-guerry-faire-des-institutions-des-acteurs-de-la-culture-libre/ http://owni.fr/2011/01/14/itw-bastien-guerry-faire-des-institutions-des-acteurs-de-la-culture-libre/#comments Fri, 14 Jan 2011 18:37:03 +0000 Ophelia Noor http://owni.fr/?p=42338 L’association Wikimédia France, chapitre français de la Wikimedia Foundation, mène tranquillement son bout de chemin depuis 2004, mettant en place des actions de diffusion de la culture libre. Bastien Guerry, chargé de mission depuis février 2010, revient avec nous sur trois projets majeurs portés par l’association : un projet photographique en collaboration avec le Museum de Toulouse, la diffusion du fonds Eugène Trutat avec les Archives de Toulouse sur Wikimedia Commons et enfin, le dépôt de livres sous licence libre sur Wikisource avec la Bibliothèque nationale de France et Gallica.

Un travail au long cours avec les institutions, les administrations et la communauté des contributeurs autour de la question de la diffusion des savoirs, des licences libres et du droit d’auteur.

Comment est né le projet avec museum Toulouse ?

Archaeodotonsaurus, passionné d’anthropologie et de photographie, utilisateur de Wikipédia, avait en tête un projet ambitieux de partage de photos scientifiques de qualité à partir des collection d’objets préhistoriques du museum de Toulouse. En avril 2009, il rencontre sur les pages de discussion de Wikipedia la présidente de l’association Wikimedia France, Adrienne Alix. Le projet prend forme et ils se rencontrent très rapidement en juin 2009. Je suis embauché en février 2010 et le projet s’accélère avec la mise en place d’un suivi au quotidien et le soutien de la mairie, dont le museum dépend.

Tout notre travail était d’assurer une coordination efficace entre la volonté de la mairie, la disponibilité du museum et celle des volontaires qui pouvaient contribuer à prendre des photos pour ce projet

Bifaces de la vallée des rois, Thèbes, Egypte

Quel a été le rôle de Wikimédia France dans ce projet et qui étaient les autres acteurs ?

L’association Wikimedia France a proposé de mettre à disposition des volontaires pour prendre des photos des objets des collections préhistoriques, et le museum nous a ouvert l’accès à ses collections pour les prises de vue. D’un côté le museum débloquait du temps et de la bonne volonté et du côté de Wikimédia France, nous nous sommes chargés du transport des volontaires pour lequel nous avions un budget. En revanche, nous n’avions pas de budget pour le matériel photo, les volontaires étant déjà photographes. Le défi principal, voulu par le porteur du projet Archaeodontosaurus, était d’obtenir des photos de qualité scientifique en très haute définition.

L’originalité de la démarche tient au fait que ces photos n’existaient pas. Dans la plupart des partenariats avec Wikimédia, les musées possèdent déjà des banques d’images en ligne  qu’ils cherchent à valoriser sur d’autres sites à forte audience comme Wikipedia et Wikimedia Commons. Dans le cas du projet toulousain, les photos sont donc inédites.

Vous soulignez l’importance des soutiens de la mairie de Toulouse dans ce projet, quelles ont été les différentes étapes ?

Le 2 octobre 2010 une convention cadre a été signée entre Wikimédia France (WMFR) et la mairie de Toulouse pour trois ans. Le projet avec le museum est un avenant de cette convention. La mairie s’engage à encourager ce genre d’actions auprès de ses services culturels et Wikimédia France à les aider à mettre ce contenu en ligne. Le projet qui a lancé tous les autres est celui du museum de Toulouse et dans la foulée nous avons demarré un projet plus classique avec les archives de la ville sur le fonds Eugene Trutat, un photographe toulousain.

Portrait d'Eugène Trutat

Ce projet correspond à un objectif global de partage du savoir entre les wiki et les musées…

D’abord WMFR n’édite pas les projets directement sur Wikipedia mais nous mettons à disposition de la communauté des contenus libres que les contributeurs peuvent intégrer comme ils veulent. Dans le cadre des contenus, ceux qui nous intéressent particulièrement sont les contenus des musées, des archives et des bibliothèques (GLAM) (Galleries, Librairies, Archives and Museum).
Le premier partenariat culturel
de l’association Wikimédia France était celui de la Bibliothèque nationale de France au début de l’année 2010. La BNF a rendu disponible en libre accès 1400 livres présents sur Gallica pour le projet Wikisource.

Cette nouvelle démarche de la part des institutions implique de se poser la question du droit d’auteur et des licences libres. Comment êtes-vous intervenu dans ce processus ?

Nous faisons un travail de pédagogie pour expliquer ce que sont les licences libres dès que nous avons un lien avec des institutions qui souvent connaissent un peu les licences, mais demandent des précisions sur ce à quoi cela les engage.

Par exemple, avec les Archives de Toulouse pour le fonds Eugene Trutat, il y avait une crainte au sujet de la clause de réutilisation commerciale, ce que permet la licence cc-by-sa. Les fonds d’images de Wikimedia Commons sont justement diffusés sous cette même licence cc By-Sa – ou sont dans le domaine public – ce qui était le cas des photos d’Eugène Trutat, mort en 1910.

Leur question était de savoir comment empêcher les réutilisations néfastes. Pour lever cette crainte, notamment en ce qui concerne des réutilisations imprimées, nous avons trouvé un compromis en diminuant la qualité de l’image mise en ligne (72 dpi).

Mais c’est un faux problème, car même si on publie une image sous licence cc-by-sa, il est possible à tout moment d’estimer qu’une réutilisation est contraire au droit moral et empêcher sa réutilisation. Un exemple est donné dans une présentation du projet Phoebus par le museum de Toulouse, où ils montrent la photo d’un crâne mis en ligne sur Wikimedia Commons qui avait été utilisée par un journaliste pour illustrer une histoire de meurtre. La réutilisation est permise par la licence et, même s’ils citent la source, l’auteur peut faire jouer son droit moral et faire valoir que cette utilisation porte atteinte a l’intégrité de l’oeuvre.

Babouin cynocéphale

Quelle leçons tirez vous de ces partenariats entre associations, institutions, administrations et volontaires ?

La première leçon démontre qu’il est utile d’avoir une structure pérenne, ici l’association Wikimédia France, avec un permanent qui assure un suivi du projet, notamment sur le plan administratif.
La deuxième chose c’est d’avoir une cheville ouvrière, non pas politique, mais plutôt au niveau des contributions et des compétences apportées, à savoir celui qui a lancé ce projet, dans le cas des photos préhistorique, Didier Descouens (ndlr : Archaeodontosaurus). Il s’y connait en photographie, insiste sur le fait de mettre en avant la qualité plutôt que la quantité et aussi sur les métadonnées, auxquelles nous sommes aussi très attentifs sur les projets Wikipedia et Wikimedia Commons, de même que les musées.

Enfin c’est aussi la rencontre entre plusieurs compétences qui s’ignoraient jusque là et qui sont communes : des passionnés de photographie de l’association rencontrent des photographes passionnés du museum. Ce projet fait avancer l’association en apportant des contenus au projet et fait connaître les activités du museum et des archives, ce qui peut donner envie à d’autres institutions de faire de même.

Sur l’intervention du politique dans ce type de projets, aurait-il pu se faire sans la mairie de Toulouse ?

Dans les grandes villes comme Toulouse, l’idée est de travailler de manière concertée avec les institutions. En même temps les ordres venant d’en haut ne doivent pas être trop coercitifs car les directeurs d’institutions n’aiment pas ça. Nous avons fait attention à ce que les institutions s’approprient le projet et donnent la cadence en terme de communication et de mise en ligne. La mairie devait être là pour encourager et s’assurer que ce soit matériellement faisable.

Maintenant, imaginons que les archives diffusent leurs photos sous licence libre sur leur site et en informent Wikimedia Commons, nous pourrions alors reprendre directement les contenus. C’est un peu le paradoxe de ces projets là. Dans l’absolu la machine des accords et des conventions serait inutile si tout le monde connaissait les licences et si tout le monde les utilisait. Dans la réalité c’est un travail de pédagogie et de mise en confiance réciproque.

Signer une convention c’est dire qu’il y a des gens stables du côté de l’association et montrer qu’on peut assurer un suivi et un conseil. Après, dans notre convention cadre avec la mairie de Toulouse, nous nous sommes engagés à donner des statistiques régulières sur l’avancement du projet.

Toulouse, rue d'Astorg. Fonds Eugène Trutat (source : Wikimédia)

Quels sont les objectifs et projets à long terme pour Wikimedia France ?

Nous souhaitons faire d’autres partenariats de ce type à tous les niveaux de collectivités que ce soit des musées, des universités ou des archives.

L’autre objectif pour nous est de s’assurer que ces partenariats correspondent à un désir de la communauté des projets. Le défi est d’amener des projets qui ne soient pas une surcharge de travail pour les wikipédiens, et que ces projets impliquent la communauté le plus tôt possible et fassent un bon accueil au contenu qu’on apporte.

Par exemple, on ne peut pas apporter d’un seul coup 100 000 images d’un musée. Dans le cas du Museum de Toulouse, les photographes se sont coordonnés à trois ou quatre et mettent eux mêmes les photos en ligne sur Wikimedia Commons où tout le monde est invité à vérifier, rajouter des catégories ou des métadonnées.

Pour le projet Eugène Trutat, la gestion du fonds de 20 000 photos est répartie entre les archives, la bibliothèque et le museum. C’est dans ce genre de cas qu’il est intéressant de discuter avec la mairie qui peut apporter une aide de coordination. Ici, c’est essentiellement le travail d’une personne qui, grâce à un programme, met en ligne les photos par lots. Nous avons décidé d’une date à laquelle on peut commencer à mettre en ligne les photos mais nous n’avons pas posé de date butoir. D’ou l’intérêt d’être en phase avec la communauté des contributeurs et de s’assurer qu’il y a assez de gens pour mettre les photos en ligne.

Sur la collecte de fonds de la Wikimedia Foundation d’un montant de 16 millions de dollars, une partie de la somme est-elle affectée à Wikimédia France ?

Le mouvement Wikimedia en général est composé de la Wikimedia Foundation (WMF) et de chapitres locaux. La levée de fonds principale est celle de la WMF qui a récolté 13 millions de dollars, la seconde est celle des chapitres pour un montant 6 millions de dollars dont 50% ont été reversés à la WMF. Par exemple, les bannières sur la partie francophone de l’encyclopédie dirigaient vers le site de l’association Wikimédia France (WMFR) pour effectuer le don.

Au niveau de l’organisation de la levée de fonds au sein des 27 chapitres nationaux, nous avions un groupe de chapitres solides en terme de structures qui ont signé un accord avec la fondation WMF stipulant qu’ils reverseront 50 % des dons titre de l’hébergement du serveur. L’autre groupe concernait des chapitres qui n’étaient pas en mesure de signer de tels accords. Par exemple le chapitre indonésien ne pouvait pas garantir le transfert de 50 % des fonds, donc un wikipedien indonésien qui voulait faire un don à partir de la page wikipedia indonésienne était redirigé vers la page américaine.

Du côté de Wikimedia France, au 31 décembre 2010, nous étions à 435.000 € via 11 000 dons. Sur toute l’année 2010, 475 000 € ont été collectés via l’interface de paiement en ligne en 12 000 opérations.

Retrouvez nos articles autour des 10 ans de Wikipédia:

Wikipédia a 10 ans, par Jean-Noël Laffargue

Notre infographie: la Galaxie Wikimédia (par Loguy) [PDF]

– — –

Crédits :
Les photographies des collections préhistoriques du museum de Toulouse publiées sur Wikimedia Commons sous licence
Creative Commons
Attribution-Share Alike 3.0 Unported
CC FlickR bastique

Collier en bronze de Penne dans le Tarn ;Bifaces de la vallée de rois en Egypte ; Babouin cynocéphale

>Les photographies du fonds Eugène Trutat publiées sur Wikimedia Commons sont dans le domaine public
Portrait d’Eugène Trutat ; Rue d’Astorg, Toulouse.

Cet article Owni est exceptionnellement sous licence CC by-sa

]]>
http://owni.fr/2011/01/14/itw-bastien-guerry-faire-des-institutions-des-acteurs-de-la-culture-libre/feed/ 5
Quelle filière industrielle pour la numérisation du patrimoine ? http://owni.fr/2010/07/01/quelle-filiere-industrielle-pour-la-numerisation-du-patrimoine/ http://owni.fr/2010/07/01/quelle-filiere-industrielle-pour-la-numerisation-du-patrimoine/#comments Thu, 01 Jul 2010 16:11:27 +0000 Christian Fauré http://owni.fr/?p=20934

Le contexte de la consultation sur le Grand Emprunt

La cacophonie et la mécompéhension autour du Grand Emprunt, et plus précisément sur le volet numérisation, font qu’on est actuellement dans une situation de crise, au sens propre du terme : quelque chose va se décider.

Au départ, c’étaient 150 millions qui devaient être alloués aux institutions pour qu’elles puissent poursuivre et accélérer les projets de numérisation ; au final ce ne sont plus que des montants de prêts (donc remboursables avec intérêts) pour favoriser la mise en place d’une filière industrielle du numérique, basée sur des partenariats publics/privés.

On sait que l’actualité de la crise économique de ces derniers mois a certainement beaucoup favorisé la formulation très libérale de la consultation publique (le développement du « machin numérique ») lancée par le secrétariat de la Prospective et du Développement de l’économie numérique. De plus, dans le cadre d’une période d’austérité et de restrictions budgétaires importantes dans les dépenses de l’État, le Grand Emprunt devient un dossier beaucoup particulièrement épineux pour le gouvernement : difficile de dire « on fait les valises et on rentre » après avoir fait de la relance par l’innovation un axe important de la stratégie française.

Deux tentations s’opposent donc entre celle du ministère de la Culture et celle du ministère des Finances : le premier veut continuer à croire à la nécessité d’une politique culturelle tandis que le second tente de radicaliser les choix qui devront être faits sur la base exclusive du principe de rentabilité. Il n’y a donc plus de consensus au sein même du gouvernement sur l’avenir du Grand Emprunt, et les différentes institutions qui doivent participer à la solution (BnF, bibliothèques municipales, INA, IRCAM, Cinémathèque, Cité des Sciences, archives, musées, etc.) ne comprennent plus la règle du jeu, qui semble par ailleurs changer chaque jour en ce moment.

La vision qui est présentée ici est une tentative de réponse à la consultation publique sur le volet numérique. Elle a l’ambition de sortir par le haut des apories dans lesquelles la question de la numérisation du patrimoine dans le cadre du grand emprunt se retrouve aujourd’hui.

La publicité est-elle la solution ?

L’activité industrielle autour de la numérisation de contenus culturels et patrimoniaux est l’activité de numérisation qui est aujourd’hui la moins rentable si on la compare aux archives, cadastres et autres documents administratifs (littérature grise). D’autre part, on sait que Google a beaucoup investi sur cette activité avec sa plate-forme Google Books dont on commence à peine à entrevoir l’ampleur. Quel industriel voudrait, dans ces conditions, prendre le risque d’investir sur un secteur d’activité à faible potentiel rémunérateur tout en ayant la machine de guerre de Google en embuscade ? Soyons clairs : personne. Il faut donc poser le problème différemment.

Commençons pour cela par évacuer toutes les fausses bonnes idées que l’on peut entendre sur le modèle d’affaire qui pourrait rendre cette filière numérique rentable. Pour cela il faut d’abord savoir que la numérisation d’un ouvrage n’est, en moyenne,  rentabilisée qu’au bout de vingt ans, uniquement en ce basant sur le service de reproduction que propose la BnF. C’est une moyenne car, bien évidemment, certains ouvrages ne font l’objet d’aucune demande de reproduction. Quand se pose la question de savoir comment ce seuil peut être abaissé ne serait-ce que sur dix années, la réponse que j’entends systématiquement est : la publicité.

La publicité est généralement le joker que l’on avance quand on est à court d’idées. Et c’est assurément le modèle d’affaire le plus simple à proposer : il me manque 100 millions ? Qu’à cela ne tienne, la pub fera le reste. Comment et sur quelles bases ? La réponse est généralement plus évasive. Faut-il monter un mécanisme et une régie publicitaire en propre ? Faut-il s’appuyer sur les solutions clés en mains proposées par Google ? Cette dernière réponse serait pour le moins ironique puisque Google aurait une part importante du bénéfice publicitaire sans avoir investi dans la numérisation. Faire sans Google, c’est à l’inverse prendre le risque de se retrouver dans le collimateur d’un industriel du web qui s’y connaît et qui a les moyens de ses ambitions.

On préférera donc essayer de composer avec Google plutôt que de le concurrencer sur son propre terrain en faisant « Cocorico ! ». Les arguments basés sur la valorisation via un modèle d’affaire fondé sur la publicité ne tiennent pas la route, encore moins quand l’on sait que la valeur publicitaire sur le web, comme l’avait écrit Tim O’Reilly dès 2007, tend à se diluer très fortement. C’est la raison pour laquelle Google doit indexer toujours plus de contenus, nativement numériques ou à numériser,  pour amortir la baisse tendancielle de la valeur unitaire et nominale de la publicité.

Que vaut le numérique ?

Retour à la case départ : comment valoriser la numérisation du patrimoine ? Songeons-y un instant, si l’on se donne tant de mal pour imaginer un modèle d’affaire viable pour une filière industrielle de numérisation, c’est peut-être parce que le numérique, de manière tendancielle, ne vaut rien. Le numérique a un coût, surtout lorsqu’on doit numériser, mais, une fois l’investissement réalisé, financièrement et en tant que tel, il ne vaut plus rien. Soyons plus précis : un fichier numérique ne vaut rien. Et c’est bien la raison pour laquelle le monde de l’édition freine des quatre fers lorsqu’il s’agit de faire circuler un fichier numérique existant (même pour en donner une copie pour archive à une institution, la plupart refusent). Un fichier numérique en circulation, c’est de la nitroglycérine pour celui qui en attend une source de revenu.

Acceptons donc cette thèse, qui est aussi une hypothèse de travail, que le fichier numérique ne vaut rien. Et vérifions cette proposition :

  • pour les institutions, c’est généralement le service de reproduction qui est la principale source de revenu, c’est-à-dire le retour à l’impression papier.
  • pour les plates-formes de diffusion de contenus numériques, on sait bien que ce n’est pas le fichier numérique que l’on paye mais un écosystème technologique (format de fichiers propriétaires, logiciels verrouillés, périphériques spécifiques, fonctionnalités d’achat rapide brevetées, etc.)
  • pour d’autres initiatives plus confidentielles mais notables (par exemple PublieNet), c’est la qualité d’une présence sur le web et la sensibilité de la communauté des lecteurs/clients qui fait la différence : entre l’éditeur numérique et les lecteurs/acheteurs, il y a un crédit et une confiance.

La valeur d’un fichier numérique a donc besoin d’un service autre que la simple diffusion pour pouvoir avoir une valeur financière.

Le service de reproduction doit devenir le premier industriel d’impression à la demande

Loin d’enterrer les poussiéreux services de reproduction, il faut les muscler. Ces services, qui aujourd’hui nous semblent d’un autre âge, doivent se doter d’un service d’impression à la demande digne des autres acteurs leaders sur ce créneau. L’économie d’échelle qu’ils peuvent avoir, qui plus est sur la base d’oeuvres particulièrement attrayantes ne peut qu’être profitable. Cette re-fondation peut ramener dix ans, au lieu des vingt actuels, le délai d’amortissement d’une numérisation.

La chose n’est pas gagnée d’avance pour autant : il faut une plate-forme web en self-service qui demande du travail, il faudra être très rapide et avoir une logistique aussi affûtée que celle d’Amazon, a minima sur le territoire français. L’objectif est clairement de livrer au domicile d’un client l’impression d’un ouvrage relié de qualité en moins de 48 heures, et à peine plus s’il y a une demande d’impression personnalisée.

Sur cette voie, il va y avoir des frictions avec les plate-formes de distribution des éditeurs de la chaîne du livre. Mais pas dans l’immédiat puisque les modèles sont actuellement différents (pas d’impression à la demande, pas de self-service et pas de livraison au particulier), mais si la plate-forme d’impression à la demande est un succès, elle pourra proposer ses services différenciants aux éditeurs (traditionnels, mais aussi numériques) : par exemple proposer des « templates » de formats variés et personnalisables. N’oublions pas que près des trois quarts du coût d’un livre représentent les coûts d’impression, de distribution, de diffusion et de points de vente.

Le cas Gallica

Comment doit s'articuler le lien entre la BnF et Gallica ?

La filière de numérisation peut donc trouver un premier modèle économique dans l’impression. Pour où l’on voit que la valorisation de la numérisation se fait d’abord sur… l’impression. Mais se pose toujours la question de la diffusion sous format numérique et en ligne. Premier constat : c’est la vocation de Gallica. On comprendra dès lors que la filière numérique qui est appelée de ses vœux par le gouvernement aura du mal à accepter de faire le travail de numérisation pour que le fruit de son investissement se retrouve diffusé en ligne gratuitement sur Gallica.

Gallica devra être repensée, et pour commencer il faut que la bibliothèque numérique quitte le giron exclusif de la BnF. Cela veut dire que Gallica aura le statut d’un établissement public-privé dans lequel l’ensemble de plate-forme technologique sera possédée et gérée par le consortium privé investissant dans la filière numérique.

Statutairement, la BnF doit garder le contrôle et la maîtrise de la politique culturelle que porte Gallica. Mais cette maîtrise ne sera plus exclusive, elle devra être partagée car si cette bibliothèque en ligne se nourrit des ouvrages numérisés, et il faudra bien un modus vivendi et des droits de quotas pour chacun : la BnF peut vouloir numériser en premier des ouvrages qui ne sont pas jugés commercialement opportun pour le partenaire privé. Un système de quotas, qui devra évoluer dans le temps, doit être mise en place. Par exemple, sur les cinq premières années, sur dix ouvrages numérisés, le partenaire privé pourra en choisir cinq, tout comme la BnF. Par la suite, les résultats de la filière numérique serviront de référent pour faire évoluer les quotas : si la filière est sur le chemin de la rentabilité le ratio peut s’infléchir en faveur de la BnF, ou l’inverse si la rentabilité tarde à se faire jour. L’essentiel est de ne pas figer la formule et d’y introduire une variable dépendant de la rentabilité, sans quoi tout l’édifice s’effondre.

Cette réorganisation du statut juridique de Gallica devra nécessairement initier une refonte de la politique de gestion des droits des oeuvres qui n’est pas opérationnelle en l’état actuel (une licence sur mesure que ne peuvent pas exploiter les robots, et que d’ailleurs personne ne comprend vraiment).

Bien évidemment, d’un point de vue technologique, la plate-forme de service d’impression évoquée précédemment sera nativement intégrée à Gallica, on peut même forcer le trait en disant que Gallica ne sera qu’un module de la plate-forme d’impression.

Les métadonnées : clés de voûte de la nouvelle filière industrielle

Aussi étonnant que cela puisse paraître, dans cette consultation publique sur « le développement de l’économie numérique », il n’y est jamais question de métadonnées. Le mot n’y apparaît même pas une seule fois le long des trente-neuf pages du document. C’est proprement sidérant. Et ça l’est d’autant plus que la politique industrielle qui va être mise en place devra placer la question des métadonnées au cœur de tout le dispositif industriel.

Si l’impression à la demande était le volet diffusion papier et Gallica le volet diffusion numérique, ces deux activités passent à une niveau supérieur grâce à la politique sur les métadonnées. La richesse numérique de notre patrimoine est directement proportionnelle aux métadonnées qui le décrivent. Le trésor des institutions patrimoniales réside aussi et surtout dans leurs catalogues et leurs thesauri : tout comme on ne peut gérer un patrimoine physique sans métadonnées la question devient encore plus urgente quand l’oeuvre est numérisée : une politique numérique sans politique des métadonnées n’est qu’une chimère, un délire, une schwarmerei comme disait Kant.

Plutôt que de me répéter, je vous renvoie ici à ma note sur Les enjeux d’une bibliothèque sur le web où il était question des orages sémantiques mais aussi d’étendre la pratique de gestion d’un catalogue d’oeuvres à une pratique de gestion d’un catalogue des discussions et des polémiques relatives à ces oeuvres. Ainsi, fort de ce nouveau positionnement, et sur la base de sa nouvelle plate-forme technologique, la nouvelle filière industrielle du numérique pourra proposer des outils avancés à l’Éducation nationale pour doter l’enseignement d’un outil d’annotation et de contribution qui dépasse la vision simpliste et fade des « like », et donne enfin le pouvoir aux enseignants d’enseigner.

Chaque plate-forme de diffusion des oeuvres numériques rencontre très vite sa limite dans les faiblesses de sa politique des métadonnées. Le cas d’iTunes est représentatif : c’est une panique monstre pour faire des découvertes dans le catalogue, c’est pourtant paradoxal quand on sait que, même sur iTunes, les métadonnées (titre, auteur, artistes, jaquette, etc.) sont la vraie valeur des fichiers numériques (Cf. Quand les métadonnées ont plus de valeur que les données).

Pour les oeuvres qui sont du ressort de la BnF, le travail de bascule de l’ensemble des catalogues au format du web sémantique avec leur diffusion sur le web a déjà été initié : cette démarche est la clé de voûte, à la fois technologique et économique, de tout le système. Pour les oeuvres audios et vidéos (des oeuvres de flux), les outils d’annotation contributives (avec des métadonnées BottomUp et TopDown) doivent être développés en complément des catalogues descriptifs existants.

Le catalogage des orages sémantique permet également d’obtenir tout un appareil critique issu des informations collectées via le dispositif des orages sémantiques Si celui-ci est géré par la BnF, on peut réussir à mener une politique industrielle des technologies numérique dont le coeur du dispositif s’appuie, et trouve son crédit, dans la politique culturelle. Une logique économique exclusivement consumériste n’est pas une fatalité, loin s’en faut, car ce qui est brièvement décrit ici est un chemin vers une économie de la contribution financièrement rentable.

*

On peut donc sortir de l’alternance destructrice entre :

  • d’un côté une logique libérable de la privatisation adossée à une vision exclusive sur les retours sur investissement à court terme, grâce au dieu de la publicité ;
  • de l’autre une politique culturelle maintenue sous perfusion publique, mais à perte (la logique de la réserve d’indiens).

Que le Grand Emprunt accouche de quelque chose ou non, nous n’échapperons pas à cette lancinante question : quelle politique industrielle pour les technologies de l’esprit ? La seule réponse crédible passe par le positionnement de la politique culturelle au cœur de l’outil industriel, pas à côté. « Trade follows film » disait le sénateur américain McBride en 1912 : on va peut-être arriver à le comprendre cent ans plus tard en France, notamment pour donner au commerce et à l’économie un autre visage que le consumérisme américain.

Enfin, par pitié, arrêtons de parler systématiquement de e-tourisme dès qu’il est question des territoires. Les territoires sont autre chose que des destinations touristiques, et les régions n’hivernent pas toute l’année pour se réveiller quand les Parisiens et les étrangers prennent leur vacances. Ces modèles d’affaire sur le e-tourisme sont dangereux et méprisants.

Billet initialement publié sur le blog de Christian Fauré

Images CC Flickr Troy Holden et ►bEbO

]]>
http://owni.fr/2010/07/01/quelle-filiere-industrielle-pour-la-numerisation-du-patrimoine/feed/ 5
Inauguration de la transcription automatique des programmes TV/video http://owni.fr/2010/03/01/inauguration-de-la-transcription-automatique-des-programmes-tvvideo/ http://owni.fr/2010/03/01/inauguration-de-la-transcription-automatique-des-programmes-tvvideo/#comments Mon, 01 Mar 2010 16:04:02 +0000 Michel Lévy Provencal http://owni.fr/?p=9248 Mikiane fait partie des membres fondateurs de la soucoupe. Responsable des nouveaux médias à France 24, il présente dans ce billet un projet chapeauté au sein du Lab de France 24. Analyse et explications par un insider, c’est le moins que l’on puisse dire /-)

Titre original :

Demo: inauguration de la transcription automatique des programmes TV/video live

J’ai déja eu l’occasion de parler de ce projet mené au sein du Lab de FRANCE 24 depuis plus de 6 mois. Vous retrouverez les différentes étapes de la conception et réalisation de cette expérimentation dans les billets suivants:

Aujourd’hui, cette expérimentation vit une nouvelle étape grâce à un partenariat avec Yacast Media, Exalead et Vecsys: le lecteur vidéo haut débit de FRANCE 24 permet à présent de transcrire automatiquement sous forme de texte les 24 dernières heures d’antenne.

Depuis décembre dernier, FRANCE 24 propose sur son site Internet une nouvelle expérience de télévision interactive : le lecteur HD. Ce lecteur haut débit offre aux internautes la possibilité de « contrôler le direct », car il peut balayer les 24 dernières heures de programmes en quelques secondes, en déplaçant le curseur sous l’image sur un simple navigateur web.

Cliquer ici pour voir la vidéo.

Fort de cette innovation, le LAB de FRANCE 24 fait aujourd’hui évoluer cette application en y ajoutant une nouvelle fonctionnalité permettant de faire figurer automatiquement sur ce même lecteur chaque mot prononcé à l’antenne, depuis les commentaires des présentateurs, les récits de reportages jusqu’aux interviews de tous les invités.

Cette première technologique est basée sur une analyse sémantique automatique des scripts extraits de chaque vidéo. Elle permet de générer en 24 heures, sans intervention humaine, une variété de mots-clés, de lieux, de noms de personnalités ou d’organisations citées sur FRANCE 24 et donc, d’en optimiser le référencement.

L’algorithme de transcription permet dans la majorité des cas de générer un texte fidèle au discours prononcé à l’antenne. Cette capacité que nous avons désormais à retranscrire le flux en léger différé (quelques minutes), ouvre des possibilités considérables. Certes les textes obtenus contiennent parfois des erreurs, mais demain, l’ensemble des contenus pourraient être découpés automatiquement, enrichis en métadonnées, sous-titrés, et éventuellement traduits automatiquement. A court terme, cette technologie peut grandement améliorer le référencement de nos contenus. Elle offre un meilleur confort de lecture quand l’audio pose des difficultés et en particulier pour les malentendants. Enfin, elle peut être une aide potentielle dans le cadre de l’apprentissage des langues.

>> Un aperçu du prototype incluant cette toute nouvelle fonctionnalité est accessible sur le LAB de FRANCE 24

» Article initialement publié sur Mikiane.com

]]>
http://owni.fr/2010/03/01/inauguration-de-la-transcription-automatique-des-programmes-tvvideo/feed/ 8