De traducción y otras adicciones: Cómo analizar y traducir archivos PDF

Cuando recibimos un texto en formato PDF, para poderlo traducir y poder contar el número de palabras que contiene tenemos que convertirlo en un formato editable: esto se puede hacer siguiendo estrategias diferentes según su estructura.

Los archivos en formato PDF se cuentan sin dudas entre los enemigos más temidos por los profesionales de la traducción. Para poder analizar y traducir un PDF con un sistema de traducción asistida es necesario convertir el archivo en un formato editable. Esta conversión puede ser más o menos difícil (o incluso imposible) según el tipo de PDF que recibimos. Para poder aplicar el procedimiento de conversión correcto y utilizar las herramientas adecuadas, es necesario saber distinguir de inmediato los diferentes tipos de PDF, reduciendo de esta forma el tiempo que trascurre entre la recepción del archivo y el comienzo de la traducción.

PDF es la sigla de Portable Document Format, un formato de archivo desarrollado por Adobe en 1993 que permite representar los documentos de forma independiente del hardware o del software utilizados para generarlos o visualizarlos; en breve, se puede visualizar y renderizar un PDF de la misma forma en todos los equipos. Esta característica ha convertido a este formato en uno de los métodos más utilizados para compartir documentos. Crear un PDF de un documento ya es para muchos lo mismo que «hacer una fotocopia», lo que tiene la ventaja de ser muy práctico, pero también conlleva unas desventajas a las que tenemos que enfrentarnos al momento de modificar o traducir el PDF.

Cuando recibimos un PDF, antes de todo hay que averiguar la naturaleza de su contenido, en cuanto un archivo de este tipo puede contener elementos diferentes. Algunos de ellos no pertenecen al texto visible: son las llamadas «propiedades», las cuales incluyen el nombre del autor, el título, etc. Los otros elementos constituyen el documento real y generalmente son: el texto, las imágenes bitmap (fotos) y los gráficos vectoriales (líneas y algunos tipos de diagramas). Para nuestros propósitos es importante determinar si el texto del documento aparece como tal, o sea, si puede ser seleccionado. Para averiguarlo es suficiente abrir el documento con Adobe Reader (o con cualquier otro visualizador de PDF) y hacer clic en el icono de selección de texto en la barra de herramientas o, en su lugar, ampliar la imagen de la pantalla. Si el texto aparece desenfocado o con líneas irregulares, eso quiere decir que el documento ha sido escaneado. Sin embargo, si es posible seleccionar el texto o si acercando la imagen no se pierde resolución, eso significa que el PDF ha sido generado por una aplicación. Algunos programas de exploración en combinación con los escáneres pueden producir documentos PDF que guardan el aspecto de la página digitalizada y que reconocen el texto al mismo tiempo. En estos casos, es posible seleccionar el texto aunque la página aparezca como una copia exacta del documento original en papel . De todas formas, se aconseja revisar la ortografía y la exactitud del texto, ya que el OCR tiene cierto margen de error.

Para saber qué aplicación generó el PDF, es suficiente pulsar las teclas CTRL+D (o en su lugar Archivo | Propiedades documento) y leer el contenido de la ficha Descripción. En la sección «Aplicación» tendría que aparecer el nombre del programa utilizado para crear el PDF. Ahora lo ideal sería pedir al cliente que nos envíe el archivo editable, añadiendo que estamos seguros de su existencia, ya que lo hemos leído en las propiedades del mismo documento. Una forma para convencer al cliente puede ser comunicarle que se cobrará un suplemento para cubrir los costes del proceso de conversión. Evidentemente, este tipo de negociación dependerá de la relación establecida con el cliente y del poder de negociación en cada caso concreto. También hay que decir que es posible que la persona que nos ha enviado el PDF no disponga del archivo editable, sobre todo si trabajamos con organizaciones multinacionales: a menudo los servicios de autoedición son realizados en la sede central y las oficinas reciben solo los PDF finales para imprimirlos in situ. La necesidad de una traducción puede haber surgido en un segundo momento y, por lo tanto, identificar la fuente original puede ser bastante engorroso.

En el caso en que, a pesar de nuestros esfuerzos, no dispongamos del archivo original, existen varias opciones para exportar nuestro texto. Cabe aclarar desde ya que nada nos dará como resultado un archivo idéntico al original, sobre todo si este contiene imágenes bitmap y un cierto grado de maquetación, sin mencionar el tipo de carácter utilizado en el texto. La elección del método y el grado de precisión requerido dependerán también de la finalidad de la exportación del texto. En general, nos enfrentamos a dos situaciones:

disponer del texto para llevar a cabo un recuento o un análisis;
crear un archivo editable lo más parecido posible al original.

En el primer caso, ni siquiera necesitamos extraer el texto. Si el texto del PDF ha sido codificado como texto (como hemos visto antes), podremos utilizar una de las siguientes herramientas:

PractiCount and Invoice (http://www.practiline.com/)
Total Assistant (http://www.surefiresoftware.com/totalassistant/features.php)
AnyCount (http://www.translation3000.com/Translators_Software/WordCount_Software.html)
Translator’s Abacus (http://www.globalrendering.com/download.html)
QuickCount (http://www.verbumsoft.com/products.aspx?p=3)
Tiff PDF Counter (http://www.tiffsoftware.com/tiff-PDF-counter.html)

Además, si el archivo no supera 1 MB no necesitamos instalar ningún programa. Existe por lo menos una herramienta gratuita que nos permite contar el número de palabras contenidas en un PDF:

Count on it (http://felix-cat.com/tools/wordcount/)

Si no podemos o no queremos utilizar esta herramienta y tenemos instalado Adobe Acrobat (y no Adobe Reader), podemos extraer el texto de esta manera:

abrir el archivo PDF con Adobe Acrobat
desde el menú Archivo, guardar el documento como RTF o DOC

Según el tipo de documento, puede que se necesitará aplicar una o más macros para ajustar el formato. Por ejemplo esta macro de Word restaura los retornos de carro correctos (el enlace es para la descarga de una copia archivada en www.archive.org, dado que www.terminologymatters.com está actualmente fuera de línea). Otra macro muy eficaz, esta vez para OpenOffice, es MyTXTcleaner.

Si no tenemos Adobe Acrobat:

abrir el archivo PDF con Adobe Reader
seleccionar la herramienta Seleccionar texto
seleccionar todo el texto (CTRL+A)
copiar (CTRL+C)
abrir Word o cualquier editor de textos
pegar el texto (CTRL+V)

Obviamente esta opción puede ser utilizada también cuando el texto que tenemos que analizar o traducir es solo una parte de todo el documento.

Si queremos mantener el formato, tenemos dos opciones: o usar uno de los innumerables programas para convertir los PDF en archivos de Word o utilizar directamente un programa de OCR (como FineReader, OmniPage, ReadIris, etc.). En principio, aconsejamos no utilizar los programas que llevan a cabo una conversión directa sin la intervención del usuario. De hecho, estos programas suelen crear documentos de Word que solo visualmente guardan el aspecto de los PDF originales, sin embargo obtienen ese resultado a través de un formateo muy complicado y con muchísimos marcos de texto, encabezados de sección, columnas, estilos e interlineas. En cuanto se modifique el documento, por ejemplo borrando una frase o abriendo el mismo con un programa de traducción asistida, el formato se descompone y la mayoría de las veces es humanamente imposible seguir trabajando en ello. Por lo tanto, lo que aconsejamos es de efectuar la conversión con un programa de OCR (el con el cual hemos obtenido los mejores resultados ha sido Abbyy FineReader), modificando de forma manual los valores predeterminados e indicando al programa la distribución de los elementos en la página. Para más información sobre cómo optimizar el funcionamiento de FineReader, aconsejamos el siguiente artículo (de momento solo en italiano) «Riconoscimento ottico dei caratteri con Abbyy FineReader».

En el caso en que no solamente se tenga que mantener el formato, sino que el cliente necesite reconstruir por completo el archivo (si el archivo original no existe), hay dos posibilidades:

o se trabaja con un programa para autoedición (QuarkXPress, InDesign, etc.) utilizando el PDF original como maqueta de fondo, o bien
se puede utilizar Infix, un editor de PDF distribuido por Iceni.

Eso porque la versión Professional de Infix (que cuesta alrededor de ciento cincuenta dólares) incluye una función muy útil para exportar el texto de un PDF en formato XML. Este archivo XML puede ser traducido con un programa de traducción asistida como por ejemplo OmegaT, que desde la versión 2.3.0 dispone de un filtro para traducir de forma directa este tipo de archivos (a este propósito, podéis consultar esta guía en la página web de OmegaT). Una vez traducido, el texto tendrá que ser re-importado en el PDF original a través de Infix Professional. En la página web de Infix se puede visionar un vídeo explicativo muy claro que describe todo el procedimiento.

En caso contrario, si trabajamos con un programa de autoedición (Quark, InDesign, etc.) hay que utilizar el PDF original como maqueta de fondo. Recomendamos leer el siguiente artículo para más detalles:http://www.proz.com/translation-articles/articles/560/1/Translation-and-DTP-of-a-PDF-File

Quien no quiere invertir en la compra de un OCR porque haría de ello un uso ocasional, puede utilizar uno de los varios convertidores en línea, como Zamzar (http://www.zamzar.com).

Cabe repetir que todo lo expuesto hasta el momento se aplica solo a PDF generados por aplicaciones. En el caso en que el texto contenido en el PDF esté formado por imágenes (un caso común es un fax recibido y sucesivamente digitalizado con un escáner), la única forma de exportarlo a un formato editable es utilizando un programa de OCR.

Una complicación adicional es representada por los eventuales niveles de seguridad del PDF. De hecho, es posible configurar dos niveles de seguridad a través de una user password («contraseña de usuario») y unaowner password («contraseña de propietario»). La primera impide la apertura del mismo documento y la segunda limita una o más operaciones, como por ejemplo imprimir, copiar o modificar el texto, añadir notas, etc. Por lo tanto, si el propietario del PDF decidió limitar algunas operaciones con una contraseña, no se podrá utilizar ninguno de los métodos descritos hasta ahora. En este caso, será necesario contactar con el cliente y pedir que nos envíe la contraseña. Si eso no fuera posible, hay que saber que existen muchas herramientas para descifrar de forma rápida las «contraseñas de propietario». Es suficiente buscar en Google «PDF crack» (hasta se encuentran herramientas en línea como http://www.ensode.net/pdf-crack.jsf). El tema se pone más difícil con las «contraseñas de usuario», que no permiten abrir el PDF; en este caso, los programas utilizan métodos «basados en la fuerza bruta», que pueden tardar horas o días en descifrar la clave. Cabe señalar que el uso de estas herramientas puede infringir los derechos de propiedad y Qabiria no fomenta su uso bajo ninguna circunstancia.

Fuente: http://qabiria.com

De traducción y otras adicciones

miércoles, 4 de septiembre de 2013

Cómo analizar y traducir archivos PDF

Cuando recibimos un texto en formato PDF, para poderlo traducir y poder contar el número de palabras que contiene tenemos que convertirlo en un formato editable: esto se puede hacer siguiendo estrategias diferentes según su estructura.

No hay comentarios.:

Publicar un comentario