Lextenso éditions–Reconnaissance de liens dans les documents–Cahierdes charges

Objectif
Nous cherchons à augmenter, dans nos documents présents en ligne, le nombre de liens cliquables et opérationnels vers des cibles externes (autres documents de notre fonds, décisions de justice, textes de lois, etc.).
Contexte
Nos différentes chaînes de production nous fournissent des documents HMTL ou XML répondant à différents schémas ou DTD et exprimés dans différents codage de caractères.
Ces documents sont parfois regroupés au sein d’archives ZIP.
Ils contiennent des portions de texte à identifier en tant que cibles potentielles de liens.
Périmètre global
Nous souhaitons disposer d’un outil (web accessible via intranet ou internet ou encore application standalone installée sur une machine dans nos locaux) qui prenne un ou des fichiers dans un point d’entrée (dossier par exemple) et le(s) restitue une fois traité(s) en un point de sortie.
L’application devra être capable de prendre en charge aussi bien des fichiers XML ou HTML que des archives ZIP les contenant.
Cette application devra automatiquement prendre en compte et s’adapter au codage de caractères de chaque fichier qui lui sera soumis de manière à :
• effectuer les recherches de manière pertinente en regard du codage des données ;
• ne pas altérer les documents traités en regard du codage des données.
Les codages aujourd’hui potentiellement présents dans nos données sont : UTF-8 et ANSI Latin 1.
L’application effectuera une reconnaissance automatique des liens potentiellement présents dans le texte des paragraphes des documents qui lui seront fournis. Lorsqu’un lien sera effectivement reconnu, la référence sera convertie en un lien HTML correspondant à la cible identifiée.
Nous fournirons, pour chaque DTD ou schéma, la liste des éléments à prendre en considération en tant que paragraphes.
Nous fournirons également, et maintiendrons à jour, une liste des recherches à effectuer sous forme d’un fichier CSV. Ce fichier appelé « liste des recherches » spécifiera également, pour chaque expression à rechercher, la manière de construire le lien HTML à produire en cas de succès de la recherche. Cette liste pourra être mise à jour aisément par nos soins et le système en prendra la nouvelle version en compte immédiatement.Lextenso éditions – Reconnaissance de liens dans les documents – Cahier des charges
Mode de fonctionnement
Dans certains cas, toutes les informations nécessaires à la pose du lien sont explicitement contenues dans le texte sur lequel on fait la recherche.
Dans d’autres cas, l’identification de la cible du lien est implicite. On est alors seulement en mesure de reconnaitre dans le texte un ensemble d’informations qui permettent ensuite d’aller chercher l’identification de la cible dans un référentiel. On extrait donc ensuite de ce référentiel les informations d’identification de la cible nécessaires à la pose du lien.
Par exemple, on peut avoir, d’une part, dans le texte,
• cas 1 : « Bull. Joly Sociétés, 2014, n°. 456h2 »,
• cas 2 : « Bull. Joly Sociétés, 1998, p. 234 ».

Règles à respecter
1. Chaque paragraphe du texte du document à traiter constitue une zone sur laquelle la reconnaissance doit être effectuée.
2. Sur chaque zone, la reconnaissance s’effectue dans l’ordre donné par la liste des recherches.
3. La intranet ou internet sur une zone s’effectue de manière globale, c’est-à-dire que toutes les occurrences de texte qui correspondent doivent être traitées (et pas seulement la première). Csm_lns_rcn_raw_CDC.docx
4. La recherche doit faire abstraction de la présence de balises dans la zone au sein de laquelle elle s’effectue.
5. La recherche doit considérer tout espace (y compris, espace insécable, espace fine ou tabulation) comme un espace.
6. La recherche doit considérer tout espace (au sens évoqué au 5) multiple comme un seul espace.
7. Si l’expression recherchée est trouvée dans une zone, le texte correspondant est remplacé par un lien HTML dont le contenu est le texte en question dans le document d’origine.
8. La manière de construire le lien HTML à créer est donnée par la liste des recherches et le référentiel.
9. En cas d’échec de la reconnaissance sur une zone (paragraphe du texte du document à traiter), la zone ne doit pas être altérée (c’est-à-dire qu’elle est restituée dans son état
d’origine).
10. Le codage du fichier en entrée doit être respecté et restitué dans le fichier en sortie. Et le codage doit être cohérent entre toutes les portions du fichier de sortie (y compris dans les parties amendées par le processus de reconnaissance de liens).
11. Les caractères alphanumériques (par exemple classe \w) doivent inclure les caractères accentués, etc.
Glossaire
Reconnaissance de lien – recherche d’une expression permettant d’identifier la cible d’un lien, puis instrumentation de la portion de document correspondante sous la forme d’un lien HTML.
Liste des recherches – fichier CSV décrivant, pour chaque expression à rechercher, les informations nécessaires à la construction du lien HTML à produire en cas de succès de la
recherche.
Référentiel – fichier CSV décrivant, pour chaque document cible susceptible d’être reconnu de manière implicite, les informations nécessaires à la l’identification de cette cible.

Contact : Sylvain Boyer Informatique éditoriale 70 rue du gouverneur général Félix Éboué 92131 Issy-les-Moulineaux cedex Tél. standard : 01 40 93 40 00 Tél. direct : 01 40 93 40 09 Defrénois . Gazette du Palais . Gualino éditeur . JOLY éditions . L.G.D.J. . Montchrestien . Petites Affiches