Article pour des traducteurs: La Memoire de Traduction : Un Outil de Traduction Assistée Par Ordinateur

Advertisements

La Memoire de Traduction : Un Outil de Traduction Assistée Par Ordinateur

Become a member of TranslationDirectory.com at just $12 per month (paid per year)

Introduction

Depuis le développement de la traduction comme une " quasi-science " autour des années '50, juste dans la période suivant la Seconde Guerre Mondiale, la question majeure pour un traducteur a toujours été celle de traduire le plus grand nombre de mots possibles dans un laps de temps le plus court qui soit.

La traduction automatisée fut l'un des grands espoirs qui fit naître l'informatique : en 1956 les spécialistes se promettaient de rendre les ordinateurs intelligents " en moins d'une génération ". Mais, jusqu'à présent, les tentatives de réalisation pratiques se sont soldées par des échecs. En effet, malgré les progrès importants réalisés ces dernières années, en matière de techniques informatiques, linguistiques, la traduction automatique reste encore une utopie. Aujourd'hui, des systèmes de traduction automatique peuvent être utilisés de façon productive dans des domaines restreints et très spécialisés comme par exemple pour des textes techniques, où la terminologie spécifique joue un rôle essentiel. Ainsi que le souligne Henri Béjoint, du Centre de Recherche sur la Terminologie et la Traduction (CRTT) de l'Université Lumière de Lyon (France), c'est par exemple le cas d'un programme canadien assurant la traduction anglais - français des bulletins météorologiques - Taum-météo [1] , en l'occurrence -.

Il s'agit d'un progrès très insuffisant pour les besoins actuels. Mais il y a aussi des avantages à signaler qui sont de type économique (sensible augmentation de productivité par rapport au processus traditionnel, c'est-à-dire, temps et coûts inférieurs) et de type qualitatif (précision et cohérence du vocabulaire technique, justesse générale du texte traduit).

La traduction automatique (TA) n'est pas le seul type de traduction informatisée, il existe aussi des instruments informatiques de support au processus traditionnel de traduction, des techniques pour la création et la gestion de dictionnaires spécifiques au contexte d'utilisation, ainsi que des solutions précises pour la traduction assistée (traduction automatique + révision manuelle guidée), particulièrement valable dans le cas de volumes importants de traductions. Ce genre de solutions est envisageable, par exemple, pour la traduction de correspondance commerciale ou de textes techniques (manuels, documentation variée).

Dans le domaine des outils, les efforts consacrés à la traductique se sont soldés par le développement de banques de données textuelles et terminologiques, d'analyseurs lexicaux et syntaxiques, de correcteurs orthographiques et d'outils de construction d'hypertextes et de navigation, qui se révèlent des auxiliaires précieux pour le traducteur humain.

La toute dernière nouveauté dans la création de systèmes informatiques interactifs prend forme dans le projet JANUS qui est le résultat de nombreuses recherches et études de la part d'experts de Carnegie Mellon University [2] (Pittsburg, MA) et de Universität Karlsruhe.

Il s'agit d'un système de traduction du langage parlé qui fonctionne un peu comme un interprète humain. Cependant, il s'applique à un nombre de domaines limité comme, par exemple, l'emploi du temps, les réservations hôtelières ou encore les programmes de voyage. Le projet JANUS se propose d'abattre les barrières linguistiques pour rendre plus aisée la communication entre les êtres humains. Contrairement à un interprète réel, JANUS est en mesure d'accéder à des bases de données pour fournir des renseignements supplémentaires comme, par exemple, les horaires des trains ou les plans des villes dont se servent les utilisateurs. Tous les systèmes sont créés pour fonctionner sans un clavier traditionnel. Lorsque la quantité de données du langage parlé inséré est insuffisante, d'autres modalités comme l'écriture à la main et la reconnaissance des gestes peuvent être utilisées.

Pour produire la traduction d'une conversation, le système doit faire face à un langage fragmentaire, plein d'erreurs et d'hésitations et souvent accompagné par des bruits de fond.

Idéalement, un logiciel de traduction assistée par ordinateur (TAO) permet de traduire des documents d'une langue, dite langue source, vers une autre langue, dite langue cible. Par exemple, la traduction d'un document en anglais (langue source) vers un document en français (langue cible). La première question que l'on est en droit de se poser est la suivante : qu'en est-il de la qualité de la traduction produite par un logiciel de TAO ? La réponse n'est pas simple. Plusieurs facteurs influencent la qualité de la traduction : le logiciel utilisé, la qualité des dictionnaires et le temps.

Une des façons d'optimiser la traduction est d'utiliser des glossaires (ou dictionnaires à sujet spécifiques), c'est-à-dire, des dictionnaires qui ne couvrent qu'un sujet particulier.

Evidemment plus le texte à traduire comporte de termes techniques, plus il faudra passer du temps à nourrir les dictionnaires. Par contre, plus on nourrit les dictionnaires, plus la qualité de la traduction augmente. En d'autres termes, il faut, d'une part investir du temps dans la création de dictionnaires et, d'autre part, du temps dans la formation.

Les applications possibles pour la TAO sont innombrables. En voici quelques-unes :

La traduction de manuels techniques
La traduction de rapports, d'états financiers ou de tout autre document relatif au fonctionnement d'une entreprise etc…

Parmi les entreprises qui ont adopté la TAO, on note un gain appréciable de productivité. Les traducteurs se réfèrent souvent à d'anciennes traductions dans le but d'accomplir des recherches terminologiques. Grâce à la TAO, ce processus est en voie de disparition. En effet, lorsqu'un terme est ajouté au dictionnaire, il n'est plus nécessaire de faire appel aux traductions antérieures, économisant ainsi un temps de recherche considérable. Ceci permet également d'uniformiser la terminologie d'une entreprise. A partir du moment où les dictionnaires commencent à avoir une base de connaissance appréciable, l'économie de temps pour traduire un document varie de 20 à 25 %, soit environ une journée par semaine !

Bref, voici certaines choses importantes à retenir en matière de TAO :

1. la TAO n'est pas de la TA ! En effet, un programme de TA utilise un dictionnaire extensif et un algorithme pour décrire la structure de la langue source et de la langue cible. Il peut ensuite analyser le texte source et créer automatiquement un texte équivalent dans la langue cible avec un certain degré de précision. En revanche, un programme de TAO est un programme qui se réfère à des traductions déjà faites et offre des propositions au traducteur. L'intention n'est pas celle de remplacer le traducteur mais celle de l'aider. La base de données des traductions précédentes est souvent dénommée " mémoire " et les programmes qui utilisent cette technique sont aussi appelés des programmes de mémoire de traduction. En outre, la TA crée des traductions automatiques et exige une base de données terminologiques avancée qui inclue tous les éléments grammaticaux d'une langue car son but est celui de produire des phrases dans la langue cible qui soient correctes au niveau grammatical. La technologie à ce point est certes d'un niveau avancé, cependant il reste le problème des segments de texte dans la langue source et dans la langue cible qui ne seront pas enregistrés dans une base de données pour une utilisation future. En effet, si un texte, comme par exemple un manuel d'utilisation doit être traduit, le système de TA doit toujours recommencer de zéro alors qu'un système de MT étant employé comme un outil d'aide à la traduction, enregistre un texte traduit par un traducteur humain dans une base de données pour une éventuelle utilisation dans le futur.

2. Un logiciel est un outil de travail, il ne s'agit pas d'un traducteur universel tiré tout droit du film The Matrix ! Il ne faut donc pas s'attendre à ce qu'un logiciel de TAO fasse des traductions parfaites sans efforts ;

3. A moins de traduire d'un document dans le but d'obtenir l'idée générale d'un texte, l'utilisation d'un logiciel de TAO nécessite de la part de son utilisateur qu'il ait une certaine maîtrise des deux langues impliquées ;

4. De tels programmes ne remplacent pas le traducteur mais proposent une version exacte quand le texte correspond à un texte déjà traduit (dans le même document ou lors de précédentes traductions) et représentent, par conséquent, un gain effectif dans la gestion de la documentation multilingue de grande envergure, qui font l'objet de mises à jour périodiques.

Pour conclure le présent travail se propose en premier lieu de définir une mémoire de traduction, d'en expliquer le fonctionnement, les avantages, les inconvénients, les écueils rencontrés dans la pratique et à éviter ainsi que, en deuxième lieu, la préparation des textes, avec l'utilité du scanner lorsque les documents ne se présentent pas sur format électronique et l'alignement des textes.

Pour nos essais pratiques, nous avons travaillé avec la mémoire de traduction de Trados, Translator's Workbench, et avec le système d'alignement de Trados, WinAlign.

2. La mémoire de traduction

2.1 Définition

La mémoire de traduction (MT) est définie par EAGLES (Expert Advisory Group on Language Engineering Standards) comme " a multilingual text archive containing (segmented, aligned, parsed and classified) multilingual texts, allowing storage and retrieval of aligned multilingual text segments against various search conditions ". En d'autres termes, la MT (dénommée aussi en anglais sentence memory) consiste en une base de données qui enregistre des paires de segments de texte en langue source et en langue cible réutilisables pour des textes présents ou futures.

2.2 Les produits sur le marché

Il existe différents types de produits sur le marché qui possèdent une MT, mais les suivants sont considérés les plus standards parce que leur fonction primaire est celle de créer des MT :

¨ Déjà Vu de Atril Sofware

¨ Joust (TSS) de Alpnet International

¨ Eurolang Optimiser de LANT Technology

¨ Translation Manager (TM/2) from IBM

¨ TRANSIT de STAR AG

¨ Translator's Workbench de Trados Corporation

Leurs différences principales se trouvent dans les points suivants :

nombre de langues reconnues par l'outil (surtout en ce qui concerne les langues asiatiques, l'arabe et l'hébreu)

la performance de la fonction " fuzzy " qui identifie des similarités approximatives de traduction

les formats de fichiers qui peuvent être importés par l'outil

certains logiciels offrent la possibilité d'importer des documents sous plusieurs formats (RTF, ANSI, Word pour Windows, WordPerfect etc.)

2.3 Différences entre une MT et d'autres outils de TAO

Un traducteur a à sa disposition plusieurs outils de TAO, comme par exemple des dictionnaires bilingues et multilingues, des correcteurs d'orthographe et de grammaire, ainsi que des logiciels de terminologie. La MT toutefois se place à un niveau plus avancé étant donné qu'elle utilise ces autres outils de TAO pour trouver la concordance du document source original enregistré dans sa base de données avec le document mis à jour ou révisé grâce à deux processus que l'on appelle exact matching et fuzzy matching.

2.4 Le fonctionnement d'une MT

Une MT travaille avec des segments considérés par le programme les plus petites unités traduisibles. Normalement, dans une MT, l'unité de base d'un texte est la phrase, bien que son utilisateur ait la possibilité de la définir. Il peut s'agir d'un fragment de phrase voir d'un paragraphe. Ainsi, n'a le traducteur pas à retraduire un travail qu'il a déjà achevé.

Par conséquent, pour faire fonctionner correctement une MT, cette dernière doit pouvoir reconnaître ce qui constitue une phrase, en particulier les éléments qui en indiquent la fin et ceux qui, au contraire, ne l'indiquent pas. En fait, un point est considéré comme la fin d'une phrase; cela dit, selon les différentes langues, quand il se trouve, dans des abréviations comme " Mr. ", " Dr. ", " vs. ", " M. ", " Sr. ", etc. le point n'identifie plus la fin d'une phrase.

La MT exploite une technologie de pointe pour que la recherche analogique dans sa base de données offre un accès instantané aux segments de texte déjà traduits. Mais une MT a aussi d'autres fonctions : elle peut gérer des informations supplémentaires, telles que le client destinataire du projet de traduction ou le domaine concernant les unités de traduction créées. Ces informations peuvent par la suite être exploitées pour distinguer différents sous-ensembles parmi les données stockées dans la MT.

La MT fonctionne selon deux processus :

Exact matching

Fuzzy matching

Par exact matching on entend le processus selon lequel la MT trouve des paires de segments de texte dans un texte source révisé qui correspond parfaitement au texte source original. Dans ce cas, tout texte dans le document qui ne correspond pas exactement à l'original ne sera traduit.

Le fuzzy matching, en revanche, est le processus grâce auquel la MT trouve des paires de segments de texte dans un texte source révisé qui a des segments de texte similaires fruit d'une traduction précédente enregistrée et basée sur le texte source original. Avec le fuzzy matching, des segments très similaires à l'original seront repérés et la traduction originale de ceux-ci sera proposée.

Cette fonction est très intéressante et est utilisable à différents niveaux de sensibilité. Elle permet en effet au traducteur de faire correspondre des segments de texte source qui diffèrent légèrement ou des segments qui varient énormément mais qui gardent toutefois des similarités.

Outre que pour faire correspondre des segments de texte source, la fonction de fuzzy matching, peut aussi être utilisée pour trouver une terminologie dans la base de données terminologique qui est très similaire à la terminologie utilisée pour une traduction. Par exemple, si le terme " chanter " se trouve dans la base de données terminologique, la traduction de " chanter " sera proposée à chaque fois que les termes " chanté " ou " chanson " apparaît dans le texte original.

Après avoir utilisé les deux fonctions exact matching et fuzzy matching, le traducteur modifiera les restants segments qui reflètent les changements entre les textes originaux et révisés sans forcément devoir retraduire tout le document.

2.5 Les différentes utilisations d'une MT

Une MT peut être utilisée de différentes manières :

Avoir un traducteur ou un système de TA qui traduit le texte original et utiliser la MT pour enregistrer les paires de segments en langue source/cible. Dans ce cas, le traducteur peut se servir des textes enregistrés pour une mise à jour du texte ou pour une version révisée de celui-ci ;

Utiliser un système de MT ou un système de TA pour traduire l'original. Le nouveau système de MT pourrait être utilisé par le traducteur pour traduire la révision ou la mise à jour en alignant les textes produits par le système de TA ou autres et en les enregistrant dans la base de données de la MT pour un travail présent ou futur. Le traducteur ne devrait, dans ce cas, que traduire les segments du nouveau texte en se servant de la MT, comme nous venons de l'expliquer.

2.6 La création d'une MT

La MT s'enrichit à mesure que le traducteur avance dans son travail, mais elle ne se crée pas toute seule et la première étape est justement celle de sa création à partir de traductions préexistantes. Ensuite pour faire fonctionner une MT, il faut exporter les textes alignés auparavant et ensuite les importer avec dans celle-ci.

Pour nos essais pratiques, nous avons créé deux mémoires de traduction : une français - espagnol et l'autre anglais - espagnol avec Translator's Workbench de Trados.

2.7 La gestion d'une MT

Les cas de figure qui se présentent sont plusieurs :

Il y a une nouvelle phrase à traduire, l'utilisateur la traduit à partir de zéro et elle est stockée dans la MT avec sa traduction ;

Le système trouve une proposition de traduction parfaite qui ne nécessite d'aucune modification (voir fig. n. 1 et 2) ;

L'équivalence est parfaite pour la nouvelle phrase mais l'utilisateur apporte quand même des modifications ;

Le système trouve une ou plusieurs analogies dans la MT que l'utilisateur modifie.

Trados Translator's Workbench fonctionne plus par analogie que par équivalence parfaite : il trouve dans la mémoire de traduction une ou plusieurs phrases similaires à la phrase source. La similarité entre la phrase source et la phrase de la MT est exprimée en pourcentage comme vous pouvez le constater dans la fig. n. 3 :

Le pourcentage d'analogie est le numéro qui apparaît entre le segment source et le segment cible.

Comme on l'a dit ci-dessus, plus on travaille avec une mémoire de traduction, plus sa taille augmente. Il se peut que lors d'une traduction on fasse des erreurs dont on ne se rend compte qu'une fois la traduction enregistrée dans la mémoire de traduction. Ainsi, se révèle-t-il nécessaire de modifier directement le contenu de la mémoire de traduction, sans avoir à exporter ou à importer des données. Pour ce faire, est utilisée la fonction Maintenance. Dans notre expérimentation, nous avons fait appel à cette fonction non pas pour modifier la MT mais pour souligner que certaines phrases étaient bien dans la MT même si le Workbench ne les proposait pas (voir exemple en anglais : fig. n. 4 le mot " agenda " n'est pas reconnu par le Translator's Workbench et fig. n. 5 la fonction Maintenance nous permet de voir que le mot est bien dans la mémoire de traduction que nous avons créée ; voir exemple en français: fig. n. 6 la phrase " Souhaits de bienvenue du Président " n'est pas reconnue ; fig. n. 7 prouve que la phrase est bien dans la mémoire de traduction).

Il arrive aussi, comme nous l'avons expérimenté pendant nos essais, que le Translator's Workbench propose une bonne traduction pour une phrase qui commence avec A) ou B) ou encore C) mais il propose une lettre initiale différente parce que dans la mémoire de traduction la phrase traduite commence par une autre lettre (voir fig. n. 8 et 9). La même chose peut être constatée lorsqu'une phrase commence par une lettre et dans la mémoire de traduction elle est identique mais elle commence par un tiret. Dans ce cas, le système propose la phrase avec le tiret initial car c'est ainsi qu'il l'a enregistrée dans la mémoire de traduction (voir fig. n. 10 et 11).

Suite à nos expérimentations avec Trados Translator's Workbench, nous avons relevé certains points dans le fonctionnement du système, notamment :

nous avons fait un essai pour voir si le fait d'avoir un point après un mot à traduire (ou de ne pas l'avoir) et de l'avoir ou ne pas l'avoir dans la MT ne constituerait un problème lorsque l'on demande au système de donner une proposition de traduction. Par exemple, comme vous pouvez le constater dans la fig. n. 12, les mots " athlètes " et " finances " sont suivis d'un point alors que le mot " culturelle " non. Lorsqu'on regarde les propositions de Trados pour la langue espagnole, nous constatons que la traduction est correcte mais il y a bien une chose qui change, à savoir le pourcentage d'analogie car dans la mémoire de traduction " atletas " et " finanzas " apparaissent sans point tandis que l'analogie " culturelle " / " cultura " est parfaite.

Un deuxième essai que nous avons fait a concerné les dates et les heures afin de voir si le système les changeait automatiquement et qui plus est de quelle façon. Translator's Workbench est prédisposé à adapter automatiquement le format d'éléments variables comme les dates et les heures entre autres, dénommés transposables. Le système propose le choix entre dates courtes et dates longues qui sont transposables mais nous n'avons pas eu besoin de donner des paramètres dans l'onglet appelé Localisation des remplacements car nous avons laissé les paramètres par défaut. La même chose vaut pour le Style d'heure. Si une phrase contenant les mêmes mots mais une date ou une indication d'heure différente apparaît, Translator's Workbench sait produire une analogie à 100 % et transposer la nouvelle date ou heure dans le format correct de la langue cible (voir fig. n. 13 et 14).

2.8 Translator's Workbench et Word : deux exemples d'un travail d'équipe

Word est indispensable à fin de pouvoir bien utiliser les prestations du Translators Workbench. Il faut, en effet, toujours garder la fenêtre du Translators Workbench et celle de Word ouvertes pour pouvoir travailler avec les deux en même temps.

Dans la fenêtre de Word il y a le texte source que l'on veut traduire et dans celle du Translators Workbench il y a la MT créée auparavant où on cherche les phrases ou les segments que lon veut traduire pour voir s'ils sont présents quelque part dans la mémoire. Il y a donc une interaction entre les deux fenêtres qui est impérative pour la correcte utilisation de la MT. Sil ny a pas dinteraction, louverture dune fenêtre ou de lautre séparément, ne permettra pas au traducteur dutiliser les outils correctement et il se trouvera dans limpossibilité de traduire le texte voulu.

2.9 Les avantages et les inconvénients d'une MT

Le premier grand avantage de l'emploi d'une MT pour une traduction est que la MT garde un glossaire de termes et de phrases simples pour une utilisation future, ce qui fait épargner au traducteur énormément de temps pour la traduction, la mise à jour ou la révision d'un nouveau texte. Quant à la révision d'un texte préalablement traduit, il s'agit d'une pratique très fréquente de nos jours. Si le traducteur devait utiliser le processus traditionnel de traduction, cela lui prendrait des mois avant qu'un très long document soit révisé. Cependant, si le traducteur utilisait une MT il pourrait voir ce qui a changé dans le document et produire une version révisée de la traduction dans une période de temps plus courte qu'elle ne le serait en utilisant le processus traditionnel de traduction.

L'autre grand avantage de travailler avec une MT est celui de pouvoir recycler un travail fait dans le passé. Parfois, un traducteur réalise qu'il est en train de traduire un texte très similaire à un autre déjà traduit dans le passé. En effet, des mots, des phrases, etc. peuvent être exactement identiques à ceux d'un document déjà traduit. Dans ce cas, si le traducteur a une copie sous format électronique des textes source et cible de la traduction précédente, alors il pourra aisément accéder aux fichiers et utiliser la fonction fuzzy matching pour le nouveau texte source à partir de vieux textes source et cible.

Comme nous venons de le dire, la MT est très indiquée quand les textes peuvent être réutilisés et quand on travaille avec certains types de textes. Si, par contre, un traducteur traduit seulement des documents littéraires comme des romans, dont le taux de répétitivité dans le texte est très bas, ou encore traduit une gamme de textes que très probablement il n'aura plus à traduire dans le futur, alors la MT n'est pas un bon choix à faire.

Parmi les inconvénients celui du temps nécessaire pour produire initialement une traduction de qualité tout en utilisant une MT nous paraît essentiel. En effet, le temps requis peut être le même voir plus long qu'en utilisant le processus conventionnel de traduction. En outre, entrer une nouvelle traduction dans une MT peut aussi prendre plus long temps que d'utiliser le processus habituel de traduction. Si en plus on veut créer une base de données terminologique additionnelle, ceci demandera plus de temps.

Compte tenu de ces observations, il reste qu'une fois que la traduction originale a été enregistrée, les révisions ou la mise à jour du même texte prendront beaucoup moins de temps pour la traduction si l'on utilise la MT.

En matière de MT, d'autres inconvénients sont à souligner :

¨ Toute modification d'une traduction ne peut pas être facilement intégrée dans une MT si elle est réalisée en dehors de la base de données de la MT. Si le traducteur crée une traduction brouillonne dans une MT et après exporte le document dans un format différent, toutes les corrections effectuées au document exporté ne seront pas retenues par la MT. Ce problème peut être résolu en apportant toutes les corrections au document à l'intérieur du système de MT ou en alignant le texte corrigé avec le texte source ;

¨ Apprendre à utiliser un programme de MT peut prendre beaucoup de temps que le traducteur n'a pas forcément. Il se peut qu'il n'ait pas non plus le temps de lire le manuel d'utilisation du programme de MT.

2.10 La sauvegarde des traductions effectuées avec une MT

Pour qu'une mémoire de traduction soit efficace, il ne faut pas oublier que tous les travaux doivent être effectués dans la MT et sauvegardés dans le format de la MT. Tout travail réalisé en dehors de la MT ne sera pas enregistré dans la base de données de la mémoire et donc ne constituera pas une traduction qui pourrait être manipulée dans le futur, à moins que l'on utilise un outil d'alignement.

Lorsquon travaille avec Trados et ses produits limportance du disque dur est à souligner. Il est nécessaire de faire la différence entre la disquette et le disque dur. La première peut être utilisée pour y garder des copies du travail que lon est en train d'effectuer, de celui que lon a déjà fait et des textes que lon utilise pour faire lalignement et ensuite pour créer une MT.

Etant donné que l'on travaille énormément avec Word, il peut être aussi très utile de stocker les textes à traduire dans des disquettes, qui sont normalement utilisées comme back up pour éviter de perdre tout le travail déjà fait au cas où il y aurait un problème avec les fichiers du disque dur. Nous avons remarqué que, quand on utilise Trados, il est impératif de stocker tous les fichiers dans le disque dur et quil faut toujours travailler depuis ce dernier car si on essaye de le faire depuis la disquette, on devra toujours faire face à de nombreux problèmes, comme par exemple le fait que la plus part du temps lorsqu'on veut effectuer un alignement ou lorsqu'on veut utiliser une MT, les fichiers dont on a besoin pour travailler ne sont pas retrouvés.

3. Les textes susceptibles d'être utilisés dans une MT

La majorité des textes à traduire rentrent dans les catégories suivantes :

-    Correspondance
-    Journalisme/communication
Ñ Documents commerciaux
-    Marketing
-    Publicité
-    Administration
Ñ Documents légaux
Ñ Documents scientifiques
Ñ Documents techniques
-    Littérature
-    Culture

Les documents qui sont généralement susceptibles d'être traduits avec une MT sont indiqués avec le symbole " Ñ ". Quelques exemples de types de textes qui rentrent dans ces catégories incluent :

- Contrats (documents légaux)

- Manuels d'utilisation (documents techniques)

- Rapports annuels (documents commerciaux)

La caractéristique principale d'un texte susceptible d'être traduit avec une MT est qu'il sera réutilisé d'une façon ou d'une autre. Un autre facteur important est celui de la répétitivité. Plus le contenu d'un texte est répétitif, plus la MT se révèle utile. Quand on parle de répétitivité on inclue des mots, des phrases ou même des paragraphes entiers. Par conséquent, la réutilisation d'un texte et la répétitivité de celui-ci peuvent être deux facteurs déterminants pour choisir de travailler avec une MT.

4. La préparation des textes pour créer une MT

Evidemment, la MT n'est pas fort utile si le traducteur reçoit la traduction sur format papier étant donné que la MT ne travaille qu'avec des fichiers, ce qui implique pour le traducteur la numérisation des textes. Toutefois, la société moderne devient de plus en plus une société " électronique ". Un jour ou l'autre, presque tout le monde pourra traduire et travailler seulement avec des documents électroniques, ce que justifierait encore plus l'utilisation d'une MT.

Cependant, nous avons voulu expérimenter le cas d'un traducteur qui ne reçoit pas le document à traduire sur format électronique mais sur format papier.

Dans cette partie du présent travail, nous allons vous présenter les démarches que nous avons suivies.

4.1 Le choix des textes

La première étape de notre étude a consisté à trouver des textes en anglais, français et espagnol et nous avons choisi les procès-verbaux de la 86^ème et 87^ème sessions du C.I.O. (Comité International Olympique).

Nous attirons votre attention sur le fait que les documents susmentionnés n'existent que sur format papier, ce qui revient à dire que nous avons donc été obligées de les passer au scanner pour les avoir sur format électronique.

4.2 La numérisation des textes choisis

Une fois reçus les documents dans les trois langues nous avons scanné les textes de la 86^ème session du C.I.O avec ScanJet HP 4C.

Avant de commencer cette opération, nous pensions que ce serait une entreprise facile et rapide. Immédiatement après avoir passé la première page au scanner, nous nous sommes aperçues que le scanner produisait de nombreuses fautes de reconnaissance de mots dans le texte que nous allons détailler dans la prochaine section.

4.3 Les erreurs fréquentes de ScanJet HP 4C

ScanJet HP 4C est un outil qui présente plusieurs points faibles. Tout d'abord l'imprécision avec laquelle il scanne les pages. En effet, l'utilisateur investi énormément de temps à corriger les fautes d'orthographe dues à une fausse identification des mots. En d'autres termes, le scanner en question interprète souvent mal les lettres, les accents, les points ou même les petites taches qui peuvent être dans le document original.

Un problème commun aux trois documents est la mise en page car le scanner se borne à " photographier " les pages sans par exemple centrer les numéros comme dans le texte de départ. Le scanner positionne le contenuentièrement à gauche et ne sépare pas le sous-titre " ordre du jour " ni le syntagme " liste des annexes ", c'est-à-dire il considère qu'il s'agit d'un seul mot parce que dans le document source " ordre du jour " et " liste des annexes " sont écrits en majuscule et les lettres sont séparées entre elles par des espaces donc le scanner ne fait pas la différence dans ce cas entre un espace ou deux.

Le mot " pages " qui normalement apparaît à droite dans le texte initial, se trouvant à gauche après numérisation, doit être remis à droite.

De plus, comme vous pouvez le constater dans les documents présentés en annexe la plupart du temps dans l'index et dans la liste des annexes là où il y a des points de suspension, le scanner ne relève absolument rien et il met les numéros de page juste à côté des mots, donc il est nécessaire par la suite de les déplacer à droite.

Selon ce que nous avons pu relever dans chaque texte dans les trois langues en commençant par le français nous allons énumérer des exemples d'erreurs fréquents:

Page 2 de l'index : " S) Association Olympique Internationale " le scanner a vu " Internatiaole ".
Page 3 de l'index : " b) C.I.O. ", le scanner n'a pas saisi qu'il s'agissait d'un point et non de points de suspension. Parfois il confond les points entre les majuscules avec des virgules (voir page 1 du document).
Page 1 du document : " . Un hommage spécial ". Une tache se trouvait en face du " u " de l'article " un " dans le document initial et le scanner a pensé qu'il s'agissait d'un tiret. Le cas des taches revient plusieurs fois et systématiquement dans les trois langues.
Page 1 : " donner une coupe portant le nom ". Le scanner a considéré que le "a" de " portant " était un " e ". Il s'agit d'une faute qui revient souvent dans tout le document dans des situations similaires exactement comme " en tant que " où le " a " de tant est compris comme un " e " (voir page 2). On remarque aussi que le mot "recommandations" est transformé en " recommendations " et que le mot "chaque" devient systématiquement " cheque " (voir page 5).
Page 1 : les points après le numéro dans les titres sont considérés comme des virgules. Par exemple : 3 . Page 2 : (ibid.) " 5. " et " 6. ". Ce type d'erreur aussi revient souvent dans le texte.
Page 2 : il confond souvent la lettre " i " du mot " trois " et à la place il écrit " trots ". A la page 5 on retrouve le même problème avec le verbe " voir " à la troisième personne singulière où le "i " est pris par un " l ", c'est-à-dire " volt ".
Page 2 : parfois le scanner s'égare avec les accents et il les enregistre comme graves alors qu'ils sont aigus et vice-versa. Exemple: " à l'issue du ". L'accent grave est transformé en aigu, (" á ").
Page 2 : il arrive qu'il ne reconnaisse pas les paragraphes ou les retours à la ligne et c'est à l'utilisateur de séparer les mots. Exemple: " les noms suivants ont été reçus pour la vice-présidence : MM. Kumar et Roosevelt. Les candidats pour la commission exécutive ". Le retour à la ligne de la phrase " Les candidats " n'a pas été effectué.
Très souvent, le point final avant un retour à la ligne n'est pas signalé. Exemple : page 4, " la question du tir. ".
Page 2-3 : le verbe être à la troisième personne du pluriel, " sont "est confondue presque toujours avec le mot " vent " et dans le mot "candidats" où le " s " final est pris par un " e ". Exemples : " Les candidats sont " ; " les statuts" (voir page 25). Les deux exemples apparaissent tout le temps au long du document.
Souvent les " l " ou le " I "sont mal compris. Ils sont pris soit par un "1" soit par un point d'exclamation soit enfin par un " [". Exemples : page 4, " le programme culturel ". Le dernier " l " est transformé en un " ! " ; " informe l'assistance ". Le " l " est transformé en un " [". Page 12, " Du 1^er au 7 juillet ". Le " 1 " est transformé en un " l ".
Page 4 : parfois les " r " sont pris pour des " n " et vice-versa. Exemples: " la question du tir." " les académies nationales olympiques " (voir page 12). Cet exemple revient au moins 5 fois dans la même page 12 cet exemple revient au moins cinq fois.
Page 5 : le " c " de l'adverbe " donc " est pris par un " e ". Exemple : " il voit donc l'avenir ". De la même nature et à la même page, le " i " de " mois " est pris par un " d ". Exemple: " pendant le mois dernier."
Page 12 : le " t " est confondu avec un " l " comme dans le cas de " afin de tirer les conclusions ".
Page 12 : le scanner a cru voir un " t " à la place d'une apostrophe " les résultats de l'étude ".

Nous avons jusque-là mentionné les exemples les plus récurrents qui se présentent dans le texte en langue française. Nous allons maintenant relever les fautes dans le document en langue anglaise en attirant votre attention sur le fait que le texte en anglais est celui qui comporte le moins de fautes. Il s'agit plutôt d'une mauvaise interprétation de la ponctuation : point virgule (voir pages 5, 14 et, à la page 27, trois fois le même exemple), virgule, points après les numéros (voir pages 8 et 10), les apostrophes qui se trouvent dans un nom propre (voir page 15).

Quant au document en langue espagnole, les fautes d'orthographe sont très nombreuses, les problèmes majeurs concernent avec les accents sur les voyelles " i " (voir page 3 " artístico ", page 5 " política " et page 6 "tendría", " olímpico ", " policía ", "países", etc), " o " (voir page 5 " sólo ", " televisión ", " manifestación " et page 12 "situación", etc), " u " (voir page 5 " ningún " et page 7 " fútbol ", etc) et avec les "ñ" (voir page 2 " señores ", " año ", "mañana", page 3 " sueño " et page 5 " señaló ", etc.). Pour citer des exemples vraiment récurrents veuillez faire référence à tout passé simple de tous les verbes (ex : page 1 " comenzó ", " dió ", " pidió ", " entregó " ; page 2 " anunció ", " explicó ", "informó", " advirtió ", " presentó ", etc) où manque systématiquement l'accent sur la dernière voyelle de la dernière syllabe. La même situation se reproduit avec l'imparfait des verbes espagnols dont la terminaison de la troisième personne singulier exige un accent sur le " i . Ex : page 1 " constituía " ; page 2 " existían ", " obtenía ", etc En outre, les mots monosyllabiques ou bi syllabiques comme " más ", " así ", " día ", "allí", " ningún ", etc ne sont jamais reproduits avec l'accent. Ce dernier, d'ailleurs, pose au scanner de sérieux problèmes de reconnaissance. En règle générale, nous pouvons affirmer que les accents ainsi que le " a ", qui est systématiquement transformé en " e " (ex : page 1 " para ", "asistencia", page 4 " lugar ", " zona ", " alternativa ", " testosterona ", "copias", page 5 "a", " positivas ", " días ", " cultura ", " carta ", " disputas ", page 8 "presentar", " podrán ", "lectura ", page 9 " hasta ", page 10 " revisar ", "póliza", page 11 " perspectivas ", "causas", " varias ", page 13 " duda ", "usar", " reservas ", " críticas " et page 39 " enviar ") constituent véritablement, pour le scanner, les points les plus faibles dans les documents en langue espagnole.

4.4 ScanJet HP 4C et sa fonctionnalité : remarques personnelles

Au terme de cette analyse, nous pourrions tirer des conclusions assez pessimistes et décevantes sur ce modèle de scanner, ScanJet HP 4C, et sur sa véritable utilité pour un traducteur. En premier lieu, nous relevons une énorme perte de temps qu'un traducteur ou n'importe quel utilisateur désire éviter à tout prix en utilisant cet outil. Voici donc le premier grand défaut d'un instrument dont la fonction serait justement celle de faire gagner du temps à son utilisateur. Il est bien évident que, si après avoir scanné un document, il faut encore faire la mise en page, corriger un nombre infini et répétitif de fautes d'orthographe, il paraît moins intéressant, voir aucunement intéressant d'utiliser un tel outil.

Notre jugement, peut-être un peu extrême en matière de fautes fréquentes commises par le scanner, se base sur l'expérience faite avec ce modèle de scanner pour deux langues latines comme le français et l'espagnol. En revanche, l'utilisation de ce modèle de scanner semble nettement plus intéressante pour des documents écrits en langue anglaise. En effet, l'économie de temps réalisée est remarquable. Il est vrai que certaines erreurs de ponctuation restent dans les documents en anglais, mais il faut admettre que le nombre de fautes est restreint donc le temps gagné par tout utilisateur est extraordinaire. Cependant, la répétitivité des fautes constitue un élément exploitable pour l'amélioration de l'outil en question. En effet, si les spécialistes s'orientent dans cette direction, ils pourront aisément trouver une solution qui fonctionne pour toute erreur, étant donné que souvent elles sont de la même nature.

Toutefois, l'utilité d'un instrument ne peut s'évaluer qu'en fonction des attentes, satisfaites ou non, des utilisateurs ciblés. Autrement dit, aucun outil ne satisfera tout le monde : aucun n'a cette prétention. C'est pour cela que nous estimons que pour un traducteur qui travaille exclusivement avec des documents en langue anglaise ScanJet HP 4C est fort utile. La langue joue donc un rôle considérable pour le fonctionnement de cet outil. Notre hypothèse, mais il s'agit bien de la notre, est la suivante : depuis le développement en quelques années des outils de traduction et d'aide à la traduction, le langage le plus utilisé a toujours été l'anglais, ce qui pourrait nous faire imaginer que c'est pour cette raison qu'elle a eu les meilleurs résultats dans l'expérience que nous avons effectuée.

Cela dit, le scanner ScanJet HP 4C possède une fonction pour le choix de la langue. Il est possible donc, selon la langue du texte à scanner, de choisir la même langue dans le scanner. Notre expérience directe n'a pas compris cet essai, nous ne pouvons donc que supposer qu'avec cette possibilité le scanner fasse moins d'erreurs de reconnaissance.

4.5 ScanJet ADF Hewlett Packard : un pas en avant ?

Le premier critère d'évaluation du point de vue du traducteur de ce modèle de scanner plus avancé doit toujours être le temps et les résultats. Selon notre expérience directe, nous pouvons affirmer que très peu de choses ont changé par rapport au modèle ancien. En effet, les défauts restent encore nombreux, ce qui limite nettement les perspectives d'intérêt pour un traducteur.

Nous passons maintenant à l'analyse des différents types d'erreurs :

Aucune amélioration en ce qui concerne la mise en page n'a été relevée mais au contraire nous avons constaté d'autres défaillances : changement arbitraire de police, de taille et de style.
Chevauchement de phrases lorsque l'interligne est simple.
Le scanner ne semble pas toujours reconnaître les propositions soulignées.

En faisant une comparaison entre les deux modèles de scanner, nous avons constaté une amélioration vers une fidélité majeure de reproduction de toute phrase soulignée dans le texte original avec le scanner le plus moderne, c'est-à-dire, le ScanJet ADF Hewlett Packard.

Quant aux erreurs d'orthographe présentes dans le document en langue espagnole, nous n'avons pas remarqué de progrès au niveau de la reconnaissance des accents. Plus précisément, le " á ", " é ", " í " sortent " a ", " e ", " i ". Exemples: " comité ", "olímpico ", " olímpica ", "príncipe", " médica " (voir page 2), " árabe " ( page 3), "filatélica", "fotografía" (page 4) et " apéndice " (page 8). D'autres exemples récurrents concernent le passé simple de tous les verbes (ex : page 4 " anunció ", "informó", page 8 "señaló", " exhibió ", " preguntó ", " abandonó ", " comentó ", etc) où manque systématiquement l'accent sur la dernière voyelle de la dernière syllabe. La même situation se reproduit avec l'imparfait et le conditionnel de tout verbe (ex : page 4 "había", "ofrecía", " aprovecharía ", " tendrían ", " sería ", page 6 " informaría ", " habrían ", " podía ", page 8 "refería ", " beneficiaría ", " podrían ", etc). La non-reconnaissance de l'accent sur la voyelle " u " est identique à celle des autres voyelles, alors que le " ó " est susceptible d'une double interprétation. Par moments, il transforme automatiquement le " ó " en " 6 ". Voici des exemples : " presentación ", " aprobación ", " sesión ", " reunión ", " comisión ", " expiración ", " cooptación ", " participación ", "organización" (voir page 1).

Les " f " sont reconnus comme des " i " et cela tout le long du texte original. En voici les exemples les plus évidents : page 3 " fuentes ", "financiación", " informe ", "informativos ".

Les " ñ " ne sont jamais reconnus, ils sont pris pour des " n ". Exemples: page 4 "mañana", page 5-6 " señores ", page 6 " señaló ", page 8 "tamaño".

4.6 L'ancienneté des textes choisis : un obstacle ?

Les textes que nous avons choisis pour la numérisation avec ScanJet HP 4C et ScanJet ADF Hewlett Packard nous ont amenées à des conclusions bien pessimistes au sujet de la fonctionnalité de cet instrument pour les traducteurs. Mais, est-ce le problème dû au scanner ou bien au textes choisis qui étaient datés de 16-17 ans, à une époque où les textes se tapaient avec de vieilles machines à écrire et non encore avec ordinateur, des textes qui présentaient des taches et dont certains signes propres à l'alphabet espagnol avaient été ajoutés à la main.

Nous nous sommes posées cette question et nous avons effectué l'expérimentation avec des documents actuels écrits par ordinateur, dont la mise en page était claire. A grande surprise, le scanner se montrait précis dans la numérisation des textes, les fautes à corriger ont diminué de plus de 3/4 à confirmation de notre intuition de départ qui nous a poussées à effectuer cette expérimentation ultérieure.

Notre opération a été réalisée avec ScanJet HP 4C ainsi qu'avec la version postérieure ScanJet ADF Hewlett Packard qui présentait, elle aussi, plus au moins les mêmes erreurs.

4.7 ScanJet HP 4C et ScanJet ADF Hewlett Packard en comparaison avec MultiPASS C30 de Canon

Nous avons effectué notre dernière expérimentation en faisant une comparaison avec un autre outil multifonctions de Canon : MultiPASS C30. Ce dernier est une imprimante, un fax, une photocopieuse ainsi qu'un scanner.

L'unité MultiPASS C30 peut être configurée comme une imprimande prédéfinie en Windows et être utilisée pour imprimer des douments en couleur ou en noir et blanc.

L'unité MultiPASS C30 permet aussi d'nvoyer un document par fax d'une application Windows ou du MultiPASS Desktop Manager.

Le driver de numérisation TWAIN [3] compatible permet d'utiliser le MultiPASS C30 pour scanner des documents, des photographies et d'autres images dans une application Windows ou dans le MultiPASS Desktop Manager comme un normal scanner. En outre, en utilisant la fonction display de MultiPASS, il est possible de tourner, couper, copier et sauvegarder toute ou une partie de l'image scannée sous forme de fichier .TIF, .BMP, .PCX ou . DCX.

A la suite de notre essai nous sommes parvenues à la conclusion que MultiPASS C30 était excellent dans la numérisation de tout texte qui soit, articles de journaux tout comme anciennes lettres écrites à la main ou tapées avec les vieilles machines à écrire, papiers couleur, etc. et ceci, selon notre hypothèse, pour le fait que cet appareil, étant de base une photocopieuse, il " photographie " exactement ce qu'il voit.

La différence fondamentale avec les deux autres scanners que nous avons utilisés est que MultiPASS est TWAIN compatible, comme nous venons de le préciser ci-dessus. En d'autres termes, le processus de numérisation de documents peut être effectué à partir d'une quelconque application Windows qui supporte une interface TWAIN. Toutefois, ce ne sont pas toutes les applications qui permettent d'effectuer la numérisation de plusieurs pages.

En effet, MultiPASS C30 traite les pages à scanner singulièrement et chaque page est sauvée dans un fichier différent.

Après avoir scanné un document avec MultiPASS Desktop manager, il est possible de le visualiser, sauvegarder, renommer, imprimer et envoyer comme fax PC du dossier Documents reçus.

La procédure de numérisation d'un document avec MultiPASS Desktop manager est simple :

¨ Il faut insérer le document dans l'alimentation de l'unité MultiPASS C30 avec la partie écrite vers le bas

¨ Dans le MultiPASS Desktop manager, il faut cliquer sur l'icone Scanner ou du menu Fichiers, choisir Scanner. La fenêtre de dialogue s'ouvre.

¨ Il faut maintenant choisir le type d'image à acquérir par scanner. Les options possibles sont:

Noir et blanc à utiliser pour l'effectuation de scannéritations de documents de textes

Démi-tones automatiques à utiliser pour la numérisation de photographies ou d'autres images où sont importantes le nuances de gris.

Une fois effectuées ces opérations, il faut démarrer la numérisation en cliquant sur le bouton " Numérisation " et l'image apparaît sur l'écran du display de MultiPASS C30.

Nous avons nous-mêmes effectué les démarches ci-dessus et nous avons remarqué que la numérisation de chaque texte proposé était impeccable.

En ce qui concerne les documents texte, par rapport aux scanners ScanJet 4C et ScanJet ADF Hewlett Packard, MultiPASS par exemple :

Saisit lorsqu'il y a des points ou des points de suspension

Ne confond pas les points entre les majuscules avec des virgules

Les taches ne lui posent pas problème dans la reconnaissance des lettres

Les points après les numéros dans les titres ne sont pas considéres comme des virgules

Les " a " restent des " a " et ne sont pas transformés en " e "

Les " i " ne sont pas transformés en " o "

Les accents sont bien perçus et scannés comme il faut, qu'il s'agisse d'accents aigus ou graves

Il reconnaît les paragraphes et les retours à la ligne

Il sépare les mots

Le point final avec un retour à la ligne est toujours signalé

Les " l " sont compris comme des " l " et jamais comme des "I "

Les apostrophes ne sont pas pris pour des " t "

Les " r " ne sont pas pris pour des " n " ou viceversa

Pour les textes en langue espagnole, l'accent sur la dernière voyelle de la dernière syllabe est systématiquement mis au bon endroit

4.8 Le nettoyage, la mise en page, l'alignement et la sauvegarde des textes choisis

Avant de créer nos mémoires de traduction, nous avons dû aligner les textes dont on disposait. Pour ce faire, nous avons utilisé le WinAlign, un programme d'alignement de textes mis au point par Trados. Ce programme permet notamment d'importer dans la MT des projets ou des traductions réalisés auparavant et de disposer aussi d'un matériel de référence directement exploitable pour de nouveaux projets.

L'outil d'alignement est un exemple d'outil de TAO qui est presque indispensable lorsque d'anciennes traductions sont insérées dans une MT. L'utilisation de cet outil avec une MT fait épargner à l'utilisateur du temps pour les projets futurs.

Un système d'alignement fait correspondre des textes source et des textes cible électroniques. En d'autres termes, il examine tous les textes langue source/langue cible pour déterminer quelles paires de phrases semblent être équivalentes. Pour ce faire, il confronte les structures des textes ou phrases et leur formatage. Une fois la structure définie, le logiciel fait correspondre les "segments" entre eux et " aligner " ainsi les textes.

Il en reste pas moins qu'un programme d'alignement est un système automatisé et comme tout programme informatique est dépourvu de pensée rationnelle, il ne fait qu'analyser des données en fonction de paramètres définis au préalable par chaque utilisateur.

Dans notre cas, après avoir scanné les documents du C.I.O. nous avons cru bon d'investir énormément de temps dans la mise en page desdits textes que le scanner avait perdue durant le processus de numérisation. Outre que la correction des erreurs orthographiques dues à la non-reconnaissance par ScanJet HP 4C et par ScanJet ADF Hewlett Packard de certaines lettres, accents, etc., nous avons donc fait la mise en page de tous les documents scannés que nous avons ensuite alignés.

Nous avons pensé que la mise en page serait un point de repère important pour faire l'alignement après. Cependant, notre démarche ne reposait que sur des intuitions qui non seulement non pas été confirmées par l'expérimentation directe avec le système mais en plus se sont révélées fort trompeuses. En effet, WinAlign semble préférer des textes qui sont " nettoyés ", c'est-à-dire sans la mise en page, à des textes dont on a fait la mise en page au préalable. C'est notre première et grande découverte dont il a bien fallu tenir compte mais dont nous nous sommes aperçues qu'après avoir effectué l'alignement du document en anglais - espagnol et de l'autre en français - espagnol, voir donc environ 120 pages demandant un certain nombre d'heures de travail qui se sont révélées totalement inutiles étant donné que la mise en page a, en l'occurrence, constitué un écueil pour le système.

Ensuite, nous avons alignés les différents textes constituant notre dossier. Nous avons choisi un alignement par défaut, c'est-à-dire, nous n'avons pas donné de paramètres au système. Mais plus tard, ayant rencontré plusieurs difficultés, nous avons décidé de faire un alignement paragraphe par paragraphe que nous avons vérifié manuellement. Là sont apparus les premiers problèmes auxquels nous n'avions pas pensé, nous nous sommes vite heurtées à des propositions d'alignement totalement incorrectes. Et ceci parce que nous nous sommes aperçues qu'un alignement paragraphe par paragraphe est plus conseillé pour l'alignement de documents en langues asiatiques. Dans le cas de langues occidentales comme celles que nous avons prises en considération, le français, l'anglais et l'espagnol, le programme résulte plus performant en choisissant un alignement segment par segment, phrase par phrase.

Il est indispensable d'indiquer des paramètres au système, notamment le texte source, le texte cible, et encore d'autres éléments lui permettant d'effectuer l'alignement.

Un problème rencontré dans cette étape de notre travail a été celui de la coupure avec retour à la ligne de toute phrase en espagnol, anglais et français ayant des abréviations comme "Sr., Mr., M.,". Le système perçoit en effet le point de l'abréviation comme la fin d'une phrase et par conséquent il fait un retour à la ligne. Cela nous a obligé à vérifier tout l'alignement et à le modifier tout le long des textes. Il existe quand même la possibilité de faire une liste d'abréviations dans un fichier annexé par la suite pour éviter la coupure systématique. Nous sommes passées donc par là et nous avons vérifié que l'ordinateur ait bien fait l'alignement. Malgré le fichier annexé des abréviations souvent l'ordinateur coupait encore les phrases mais beaucoup moins qu'auparavant.

Normalement, une fois les paramètres définis, le programme met en relation le texte source et le texte cible, donc dans notre cas les documents par paires, anglais - espagnol et français - espagnol du C.I.O. de 1983 que vous trouverez en annexe à la fin de notre mémoire. Le programme propose alors une équivalence pour chaque phrase qui devra toutefois être confirmée, ce qui revient à dire que l'alignement doit être, en tout cas, vérifié si l'on veut que la mémoire de traduction créée ultérieurement puisse fonctionner sur la base de données correctes.

Toujours à propos de l'alignement, nous attirons votre attention sur les expérimentations que nous avons voulu faire pour tester le WinAlign et sur les conclusions auxquelles nous sommes parvenues :

les règles de segmentation : les unités de l'alignement consistent au moins en un segment en langue source et un autre en langue cible. Un segment normalement représente une phrase mais pas toujours. Quand le système fait l'alignement, il détermine la phrase source en utilisation et cherche à trouver une contrepartie dans la langue cible. WinAlign emploie la ponctuation comme point de repère lors de l'identification d'une phrase. En règle générale, un point, un point d'exclamation, un point d'interrogation, deux points, ou " Tab " terminent une phrase quand ils sont suivis d'un espace. Des guillemets ou des parenthèses de fermeture peuvent suivre le signe de ponctuation final et précède l'espace. Un point virgule n'est pas considéré comme la fin d'une phrase et c'est pour cela que nous avons voulu tester le programme et changer les règles de segmentation pour voir de quelle manière WinAlign changerait l'alignement.

Notre expérimentation s'est déroulée en différentes étapes ; nous avons changé les règles de segmentation pour la langue source et cible en ce qui concerne les " End rules " et les " Skip rules " comme suit :

1. tout d'abord, nous avons ajouté dans les " End rules " la virgule pour voir si lors de l'alignement, WinAlign couperait les phrases après une virgule ou si par contre il continuerait à aligner comme avant. En effet, nous avons constaté un changement mais pas constant. WinAlign parfois effectue la coupure (voir fig. n. 15), d'autres fois, il ne le fait pas, comme vous pouvez le voir dans la fig. n. 16 (simple énumération) et dans la fig. n. 17 (phrase dans un paragraphe long, trois exemples identiques dans la même page) ;

2. ensuite, nous avons enlevé le point virgule des " Skip rules " pour l'ajouter dans les " End rules " car nous sommes parties du principe qu'en français un point virgule est une coupure nette. Nous avons remarqué qu'après les points virgule présents dans nos textes, WinAlign ne faisait pas la coupure et les considérait comme étant un seul segment. En effet, comme vous pouvez les voir aux fig. n. 18 et 19, WinAlign ne coupe pas le segment, que le point virgule se trouve à la fin d'une phrase (voir fig. n. 18) ou au milieu d'un paragraphe (fig. n. 19) ;

3. ensuite, nous avons enlevé le point virgule des " Skip rules " sans pour autant l'ajouter ailleurs. Le résultat est exactement identique au cas de figure n. 2 ci-dessus (voir fig. n. 18-19).

Quant à la sauvegarde des fichiers, notre expérience nous a montré quil est impératif de faire très attention avec leur stockage, cest-à-dire, quel chemin on suit, le nom quon leur donne et le format dans lequel ils sont stockés. Quand on utilise WinAlign, il est très important de ne changer jamais les noms des fichiers, leur format ou lendroit où ils sont car il serait impossible pour le système de les trouver par la suite. Si un projet est créé avec un certain nombre de fichiers en langue source et en langue cible et un ou plusieurs des trois aspects signalés ci-dessus sont changés, WinAlign ne pourra pas les trouver et le traducteur ne pourra pas ouvrir son projet dalignement, soit pour le consulter soit pour y apporter des modifications. Il faut donc que le même chemin de stockage que lon a utilisé la première fois, lors de la création du projet, soit toujours préservé et jamais changé si on veut pouvoir utiliser le projet par la suite.

CONCLUSIONS

Dans le monde actuel qui voit un accroissement constant de l'intérêt porté à l'informatique, il nous semble pertinent de souligner que, dans le domaine de la traduction assistée par ordinateur, chaque traducteur devrait prendre conscience de ce fait et apprendre à utiliser d'outils d'aide à la traduction qui, loin d'atteindre la perfection, se montrent tout de même très utiles dès lors que l'on sait comment s'en servir.

Le futur s'annonce bien pour tous les différents types d'outils de TAO. En effet, la traduction va de plus en plus être une traduction automatique. Cela ne veut pas forcément dire que le métier du traducteur disparaîtra, mais tout simplement que les outils à disposition des traducteurs seront plus performants et il pourra s'en servir pour produire des traductions qui s'approchent toujours plus de l'exactitude. Le traducteur, en d'autres termes, ne devra que s'adapter à ces nouvelles technologies à fin de rester compétitif à long terme.

La MT, nous l'avons précisé au cours de notre étude, se révèle utile spécialement dans les domaines techniques où les documents sur format électronique sont constamment mis à jour et revisés. Tout le monde peut en bénéficier qu'il s'agisse de traducteurs individuels, agences de traduction, clients et sociétés qui ont des divisions de traduction. Ce qui importe toutefois est de savoir quand et comment utiliser une MT.

Le présent travail nous a permis entre autres, de familiariser avec le Translator's Workbench et le WinAlign de Trados ainsi que de tester trois scanners et leurs performances.

Nous avions appris à utiliser ces outils d'aide à la traduction durant la troisième année de TAO à l'Ecole de Traduction et d'Interprétation, mais nous n'avions pas considéré le grand écueil de la mémoire!

Le fait de ne pas utiliser ou d'avoir utilisé peu les outils en question nous a fait mettre aux oubliettes tout ce que nous savions ou avions appris, ce qui nous a obligé à relire les manuels, à essayer plusieurs fois les mêmes choses, à faire et refaire les mêmes gestes tant qu'ils ne deviennent pour nous automatiques.

Le but de ce mémoire a été celui de démontrer qu'il n'est pas facile de créer, utiliser et gérer au mieux une mémoire de traduction même si on dispose d'un manuel de consultation expliquant pas après pas les démarches à suivre.

Parfois, ou mieux vaut-il dire souvent, on rencontre des écueils qui créent un blocage pendant des heures entières sans que l'on ne trouve où le problème se situe, ou encore on fait des opérations sans penser qu'elles pourraient être inutiles avec une perte de temps signifiante.

Notre mémoire est axé, comme vous pouvez le constater, sur notre expérience directe qui pourrait être le reflet d'une situation dans laquelle chaque utilisateur peut se trouver. Nous disposions en effet de documents assez vieux provenant du C.I.O., qui avaient des taches inexplicables qui ont crée des problèmes de reconnaissance aux scanners que nous avons utilisés, des signes ajoutés à la main, étant donné que les vieilles machines à taper ne les possédaient même pas, et qui plus est non justifiés etc

En d'autre termes, en synthétisant notre expérience étape par étape et les difficultés rencontrées ainsi que les conclusions auxquelles nous sommes parvenues, nous dirions :

Il est indispensable d'utiliser des textes propres, nouveaux, justifiés et avec une structure claire ; il est effectivement plus facile pour les deux scanners pris en considération (ScanJet HP 4C et ScanJet ADF Hewlett Packard) de scanner les documents quand ils ont ces caractéristiques-là comme nous suggère notre expérimentation en la matière et les fautes de reconnaissance seront moins nombreuses;
La mise en page des textes n'est pas nécessaire lors de l'alignement de ceux-ci, ce qui évite une perte de temps considérable. En effet, durant le processus de numérisation, le scanner perd la mise en page originale du texte et comme nous l'avons bien démontré au cours de notre étude, il est improductif de consacrer d'énormes heures de travail à la refaire, surtout lorsque les textes sont bien longs comme dans notre cas (une quarantaine de pages scannées en trois langues pour les textes de 1983 et 10 pages scannées toujours dans les trois langues choisies pour les textes de 1984, ce qui fait un total de 150 pages environ !) ;
Quant à l'alignement, nous constatons qu'il est encore difficile de le faire par défaut et qu'il faut le réviser manuellement bien que l'on propose de différentes options ou que l'on change les règles de segmentations comme nous l'avons montré suite à notre expérience ;
La création d'une MT est opération plus ou moins aisée mais la gestion de celle-ci demande une certaine pratique et certaines attentions : il est par exemple, nécessaire de la mettre à jour constamment pour l'agrandir et pour qu'elles soit plus complète lors de nouvelles traductions. La MT n'est, en effet, efficace qu'à condition de disposer d'un large corpus d'unités de traduction ;
Du moment que la MT mémorise et enregistre toutes les phrases traduites dès le début, il est sûr que des phrases ou paragraphes similaires seront traduits de la même façon tout le long du projet ;
En combinant Trados Translator's Workbench avec MultiTerm (que nous n'avons pas testé nous-mêmes en l'espèce), le système de gestion terminologique de Trados, les mêmes termes sont gardés et proposés systématiquement (il s'agit de ladite " consistency "). En utilisant les traductions et la terminologie employées dans un projet précédent, on s'assure que le même vocabulaire soit toujours utilisé ;
Nous avons aussi constaté qu'il faut un très grand nombre de textes du même genre et avec un format semblable pour que la MT et le WinAlign soient utiles aux traducteurs.

Le but de l'utilisation d'outils d'aide à la traduction est celui de donner aux traducteurs les moyens d'effectuer des traductions le plus rapidement possible tout en gardant la même qualité. C'est le déjà célèbre " triangle dilemma " de l'argent, du temps et de la qualité. La TA, les mémoires de traduction, les dictionnaires en ligne rentrent dans ce domaine. En outre, plus le traducteur est spécialisé dans un domaine, plus un outil comme Trados Translator's Workbench se révèle performant et précieux.

Hélas, l'achat d'un logiciel comme celui-ci comporte encore une grande dépense, ce qui veut dire que parfois il n'est pas encore rentable pour les traducteurs free-lance.

BIBLIOGRAPHIE

Amold D., Machine Translation : an introductory guide, Manchester, Oxford, Cambridge, NCC Blackwell, 1994 ;

Bouillon Pierrette, Clas André, La traductique : études et recherches de traduction par ordinateur, Montréal, Presses de l'Université de Montréal, AUPELF/UREF, 1993;

Carestia Greefield, Concetta et Serain, Daniel, La traduction assistée par ordinateur : des banques de terminologie aux systèmes interactifs de la traduction, Association française de terminologie, Institut de recherche d'informatique et d'automatique, Le Chesnay, 1977 ;

Fuchs, C., Linguistique et traitement automatiques des langues, Paris, Hachette Supérieur, 1993 ;

Gemar, J.C., Traduire ou l'art d'interpréter, Québec, Presses de l'Université du Québec, 1995 ;

Heyn, M., Present and future needs in the CAT-World, Bruxelles, Trados Benelux S.A., 1992 ;

Hutchins John W., Machine translation and machine-aided translation, Journal of Documentation 34, 1978 ;

Hutchins John W., Somers L. Harold, Un introduction to machine translation, London, San Diego, Academic Press, cop., 1992 ;

Kay, M., Röscheisen M., Text-Translation Alignment, Computational Linguistics 19, 1993 ;

Kugler, M., Ahmad K., Thurmair G., Translator's Workbench : Tools and Terminology for Translation and Text Processing, Berlin, Springer, 1995 ;

Ladmiral Jean-René, Le traducteur et l'ordinateur, Paris, Larousse, 1994 ;

Loffler - Laurian, Anne-Marie, La traduction automatique, Presses Universitaires du Septentrion, Paris, 1996 ;

Manuel de consultation du Desktop Manager de MultiPASS C30 (Canon) ;

Melby, A. K., Should I use machine translation?, Utah, Brigham Young University, 1996 ;

Melby, A.K., Translators and Machines - Can they Cooperate ?, Meta 26, 1981 ;

TA-TAO : recherches de pointe et applications immédiates : troisièmes journées scientifiques du réseau thématique de recherche " Lexicologie, terminologie, traduction ", Montréal, 30 septembre, 1^er et 2 octobre 1993, sous la direction de André Clas, Pierrette Bouillon, Beyrout : FMA, Montréal, AUPELF/UREF, 1994 ;

Webb E. Lynn, Advantages and disadvantages of translation memory : a cost/benefit analysis, BA San Francisco State University, Monterey (CA), 1992.

[1] Acronyme pour traduction automatique de l'Université de Montréal. Il s'agit d'un projet qui a été mis en place par le gouvernement canadien en 1975. Le domaine d'application privilégié est celui de la météorologie, c'est pourquoi on le désigne aujourd'hui par la locution TAUM-METEO. Le système traduit des informations météorologiques de l'anglais vers le français et viceversa pour les services météorologiques du gouvernement canadien. Il dispose d'un vocabulaire restreint d'environ 2.000 mots et locutions. En traduisant heure par heure toutes les prévisions, il traite une moyenne de 30.000 mots par jour.

[2] La Carnegie Mellon University conduit des recherches avancées en matière de technologies de traitement du "langage naturel" avec fort intérêt pour la traduction automatique multilingue de haute qualité.

[3] Il s'agit d'un protocole et d'une interface API (Application Programmer's Interface) qui permet d'insérer directement les données d'images provenant de toute source (par exemple, scanner Desktop et portables, cartes d'acquisitions vidéo, caméoscopes digitaux et d'autres appareils pour la gestion des images) sans nécessairement sortir de l'application. Cela rend les dispositifs d'input des images compatibles avec les applications, tout en connectant le disque dur et le logiciel. Etant donné que MultiPASS C30 supporte l'interface TWAIN, il est possible d'utiliser les fonctions de MultiPASS C30 pour la numérisation de documents avec toute application Windows qui supporte l'interface TWAIN.

Submit your article!