Transformation d’annotations en parties du discours et lemmes vers le format Universal Dependencies : étude de cas pour l’alsacien et l’occitan - Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur Accéder directement au contenu
Communication Dans Un Congrès Année : 2019

Converting POS-tag and Lemma Annotations into the Universal Dependencies Format : A Case Study on Alsatian and Occitan

Transformation d’annotations en parties du discours et lemmes vers le format Universal Dependencies : étude de cas pour l’alsacien et l’occitan

Résumé

This article presents a retrospective report on the transformation of annotated corpora for Alsatian and Occitan into the CONLL-U format defined in the Universal Dependencies project. In particular, it emphasizes various issues to be taken into account, concerning the tokenization and the definitionof the categories.
Cet article présente un retour d’expérience sur la transformation de corpus annotés pour l’alsacien et l’occitan vers le format CONLL-U défini dans le projet Universal Dependencies. Il met en particulier l’accent sur divers points de vigilance à prendre en compte, concernant la tokénisation et la définition des catégories pour l’annotation.
Fichier principal
Vignette du fichier
UD_TALN19.pdf (245.97 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

hal-02123743 , version 1 (25-11-2019)

Identifiants

  • HAL Id : hal-02123743 , version 1

Citer

Aleksandra Miletic, Delphine Bernhard, Myriam Bras, Anne-Laure Ligozat, Marianne Vergez-Couret. Transformation d’annotations en parties du discours et lemmes vers le format Universal Dependencies : étude de cas pour l’alsacien et l’occitan. 26e conférence sur le Traitement Automatique des Langues Naturelles (TALN-2019) et 21e édition la conférence jeunes chercheur·euse·s RECITAL, Jul 2019, Toulouse, France. pp.427-435. ⟨hal-02123743⟩
211 Consultations
166 Téléchargements

Partager

Gmail Facebook X LinkedIn More