DE L'ECRIT AU NUMERIQUE
HABERT
Internet donne accès à un gisement considérable de
connaissances sous forme électronique. Ce gisement
est cependant rarement utilisable directement : il
faut
nettoyer les données textuelles disponibles et les
ramener aux standards des documents électroniques
(SGML, HMTL, etc.). Cet ouvrage présente les
critères à prendre pour constituer un corpus
électronique représentatif. Il montre également
comment le normaliser et comment l'exploiter. Mis au
point et testé dans le cadre d'une formation
professionnelle, cet ouvrage forme aux outils
standard
qui permettent de filtrer les données (grep),
d'opérer
des transformations simples (sed), de travailler sur
des tableaux (awk), de segmenter (lex) et de
structurer les textes (yace) ou d'appliquer des
traitements arbitrairement complexes (perf). Un
CD-Rom d'accompagnement permet de se familiariser
avec ces notions en travaillant sur un corpus
d'entraînement à l'aide des outils présentés. Ces
manipulations et de nombreux exercices corrigés,
conduisent à une maîtrise effective de ces
techniques.
Cette formation pratique est complétée par la
présentation des concepts (langages réguliers,
automates...) et des standards (SGML, HTML,
ISO-Latin) dont la connaissance est indipensable
dans le domaine en pleine expansion des corpus
électroniques.
Table des matières
Vers des textes utilisables. Constituer un corpus.
Normaliser. Combiner les
traitements. Outils de base : grep et sed. Outils
d'extension : awk et perl. Segmenter.
Structurer
Table des matières
Vers des textes utilisables. Constituer un corpus.
Normaliser. Combiner les
traitements. Outils de base : grep et sed. Outils
d'extension : awk et perl. Segmenter.
Structurer
masson - page 1
masson - page 2
masson - page 3
masson - page 4
masson - page 5
masson - page 6
Librairie spécialisée en ouvrages scientifiques et techniques
|