Formations
Introduction à la TEI
URFIST de Rennes, 27-28 septembre 2021
Pendant cette formation de 12h à la Text Encoding Initiative, les participants ont eu une introduction à la XML, puis à la TEI, suivi de divers exercices d'encodage, afin de les accomoder à la technique (encodage des métadonnées, du corps de texte, de la structure, des entitées nommées, etc.). Enfin, la dernière partie de la formation a eu pour but de présenter quelques applications qui pouvaient être faite de la TEI, avec notamment la XSLT et TEI Publisher.
Programe du cours : https://sygefor.reseau-urfist.fr/#/training/8931/
Dépôt du cours : https://github.com/FloChiff/Introduction_TEI
Introduction à la TEI
URFIST de Rennes, 24-25 novembre 2022
Pendant cette formation de 12h à la Text Encoding Initiative, les participants ont eu une introduction à la XML et à la TEI, suivi de divers exercices d'encodage, afin de les accomoder à la technique (encodage des métadonnées, du corps de texte, de la structure, des entitées nommées, etc.). Enfin, la dernière partie de la formation a eu pour but de présenter quelques applications qui pouvaient être faite de la TEI, comme la fouille de texte avec XPath et XQuery, la transformation avec la XSLT et la publication avec TEI Publisher.
Programme du cours : https://sygefor.reseau-urfist.fr/#/training/9717/11500
Dépôt du cours : https://github.com/FloChiff/Introduction_TEI_2022
Créer une édition scientifique numérique
Atelier ObTIC, Salle 70 (BNF), 14h-17h
- Atelier 1 - "Reconnaissance automatique du texte" - 17/01/25
Ce premier atelier est dédié à la reconnaissance automatique de texte, discipline en constante évolution qui permet aujourd’hui, à l’aide de modèles entraînés, d’acquérir efficacement et rapidement une version lisible par machine d’un corpus de textes. Après une présentation de la discipline, l’atelier fera mettre en pratique ce qui a été mentionné, en appliquant des modèles de segmentation et de transcription, sur les corpus Gallica que l'on travaillera, afin d’obtenir une version exploitable ensuite. - Atelier 2 - "Encodage et annotation du texte" - 14/03/25
Ce second atelier est dédié à l’encodage de texte en XML-TEI, le standard utilisé de nos jours pour encoder des textes littéraires. Après une introduction au langage de balisage XML et aux composants du standard TEI, les participants procéderont aux travaux pratiques, avec l’encodage des métadonnées, du corps du texte, ainsi que de diverses annotations (sémantique, critiques, etc.) pertinentes pour le corpus travaillé. - Atelier 3 - "Affichage web du texte" - 16/05/25
Ce troisième et dernier atelier de la série est dédié à l’affichage web de son corpus encodé, c’est-à-dire pouvoir observer concrètement les enrichissements variés qui ont été apportés à son corpus via l’encodage. Après une brève introduction de l’intérêt et des méthodes d’une telle étape, l’atelier aura pour but de présenter et de travailler sur plusieurs outils permettant l’affichage web.
Dépôt du cours : https://github.com/FloChiff/AtelierObTIC-creer-une-edition-scientifique-numerique
ATRIUM ATR Summer School
Bureau de coordination DARIAH, Berlin, Allemagne, 1-5 septembre 2025
L'école d'été ATRIUM offrira une approche approfondie de la reconnaissance automatique de texte, axée sur des applications pratiques dans des scénarios de recherche concrets. Les participants découvriront les dernières avancées en matière d'OCR et de HTR, en se concentrant sur des outils open source tels qu'eScriptorium et des flux de travail facilitant la numérisation et l'analyse de textes historiques et modernes. Pendant une semaine, l'équipe de formateurs alternera apports méthodologiques et supervision de sessions pratiques afin d'améliorer les pipelines de reconnaissance automatique de texte. Les apports porteront non seulement sur la manipulation du prétraitement, de la segmentation, de l'analyse de la mise en page et du post-traitement, mais aussi sur la gestion des données, permettant aux participants d'atteindre des objectifs concrets en termes de gestion, de traitement et de réutilisation de leurs données pendant la durée de l'école d'été et au-delà.
Site du cours: https://atrium-research.eu/events/atrium-atr-summer-school/
Dépôt du cours : https://zenodo.org/records/17159181
TEI Summer School
University of Oslo Library, Oslo, Norvège, 22-26 septembre 2025
Cet atelier propose une introduction générale et des exercices pratiques pour la création d'éditions numériques scientifiques à l'aide du langage XML (eXtensible Markup Language), un standard de la communauté.
Nous commencerons par une introduction aux éditions numériques scientifiques, en nous concentrant sur le XML et le modèle de données pour les ressources textuelles fourni par la norme TEI P5 (Text Encoding Initiative) et les standards communautaires, tels qu'EpiDoc pour les sources textuelles de l'Antiquité classique, entre autres.
Nous montrerons comment les éditions créées avec MS Word ou d'autres logiciels de traitement de texte peuvent être automatiquement transformées en fichiers XML TEI P5 valides et enrichies.
Nous présenterons ensuite les outils de visualisation et de publication pour les éditions numériques scientifiques, ainsi que la conversion des fichiers XML en formats de publication plus accessibles au lecteur, tels que HTML ou PDF.
Nous aborderons la manière dont chaque élément d'une édition scientifique, des fichiers texte bruts aux scénarios de transformation, peut être préservé et archivé sur des plateformes institutionnelles comme Dataverse.no.
Un temps conséquent sera consacré à la pratique et à des exercices concrets pour travailler avec vos propres documents.
Site du cours: Lien
TD Techniques numériques pour l'édition
Sorbonne Université, Lundi 17h-19h
Enseignement d'outils numériques pour l'édition : Word, InDesign, Photoshop, Acrobat Pro, etc.
Mettre en place une édition numérique
Atelier ObTIC, Maison de la Recherche Serpente, 14h-17h
- Atelier "Reconnaissance automatique du texte" - 31/10/25
Ce premier atelier est dédié à la reconnaissance automatique de texte, discipline en constante évolution qui permet aujourd’hui, à l’aide de modèles entraînés, d’acquérir efficacement et rapidement une version lisible par machine d’un corpus de textes. Après une présentation de la discipline, l’atelier fera mettre en pratique ce qui a été mentionné, en appliquant des modèles de segmentation et de transcription, sur les corpus que l'on travaillera, afin d’obtenir une version exploitable ensuite. - Atelier "Encodage et annotation du texte" - 05/12/25
Ce second atelier est dédié à l’encodage de texte en XML-TEI, le standard utilisé de nos jours pour encoder des textes littéraires. Après une introduction au langage de balisage XML et aux composants du standard TEI, les participants procéderont aux travaux pratiques, avec l’encodage des métadonnées, du corps du texte, ainsi que de diverses annotations (sémantique, critiques, etc.) pertinentes pour le corpus travaillé.
Dépôt du cours : https://github.com/FloChiff/AtelierObTIC-edition-numerique