Cuando recibimos un texto en formato PDF, para poderlo traducir y poder contar el número de palabras que contiene tenemos que convertirlo en un formato editable: esto se puede hacer siguiendo estrategias diferentes según su estructura.
PDF es la sigla de Portable Document Format, un formato de archivo desarrollado por Adobe en 1993 que permite representar los documentos de forma independiente del hardware o del software utilizados para generarlos o visualizarlos; en breve, se puede visualizar y renderizar un PDF de la misma forma en todos los equipos. Esta característica ha convertido a este formato en uno de los métodos más utilizados para compartir documentos. Crear un PDF de un documento ya es para muchos lo mismo que «hacer una fotocopia», lo que tiene la ventaja de ser muy práctico, pero también conlleva unas desventajas a las que tenemos que enfrentarnos al momento de modificar o traducir el PDF.
Cuando recibimos un PDF, antes de todo hay que averiguar la naturaleza de su contenido, en cuanto un archivo de este tipo puede contener elementos diferentes. Algunos de ellos no pertenecen al texto visible: son las llamadas «propiedades», las cuales incluyen el nombre del autor, el título, etc. Los otros elementos constituyen el documento real y generalmente son: el texto, las imágenes bitmap (fotos) y los gráficos vectoriales (líneas y algunos tipos de diagramas). Para nuestros propósitos es importante determinar si el texto del documento aparece como tal, o sea, si puede ser seleccionado. Para averiguarlo es suficiente abrir el documento con Adobe Reader (o con cualquier otro visualizador de PDF) y hacer clic en el icono de selección de texto en la barra de herramientas o, en su lugar, ampliar la imagen de la pantalla. Si el texto aparece desenfocado o con líneas irregulares, eso quiere decir que el documento ha sido escaneado. Sin embargo, si es posible seleccionar el texto o si acercando la imagen no se pierde resolución, eso significa que el PDF ha sido generado por una aplicación. Algunos programas de exploración en combinación con los escáneres pueden producir documentos PDF que guardan el aspecto de la página digitalizada y que reconocen el texto al mismo tiempo. En estos casos, es posible seleccionar el texto aunque la página aparezca como una copia exacta del documento original en papel . De todas formas, se aconseja revisar la ortografía y la exactitud del texto, ya que el OCR tiene cierto margen de error.
Para saber qué aplicación generó el PDF, es suficiente pulsar las teclas CTRL+D (o en su lugar Archivo | Propiedades documento) y leer el contenido de la ficha Descripción. En la sección «Aplicación» tendría que aparecer el nombre del programa utilizado para crear el PDF. Ahora lo ideal sería pedir al cliente que nos envíe el archivo editable, añadiendo que estamos seguros de su existencia, ya que lo hemos leído en las propiedades del mismo documento. Una forma para convencer al cliente puede ser comunicarle que se cobrará un suplemento para cubrir los costes del proceso de conversión. Evidentemente, este tipo de negociación dependerá de la relación establecida con el cliente y del poder de negociación en cada caso concreto. También hay que decir que es posible que la persona que nos ha enviado el PDF no disponga del archivo editable, sobre todo si trabajamos con organizaciones multinacionales: a menudo los servicios de autoedición son realizados en la sede central y las oficinas reciben solo los PDF finales para imprimirlos in situ. La necesidad de una traducción puede haber surgido en un segundo momento y, por lo tanto, identificar la fuente original puede ser bastante engorroso.
En el caso en que, a pesar de nuestros esfuerzos, no dispongamos del archivo original, existen varias opciones para exportar nuestro texto. Cabe aclarar desde ya que nada nos dará como resultado un archivo idéntico al original, sobre todo si este contiene imágenes bitmap y un cierto grado de maquetación, sin mencionar el tipo de carácter utilizado en el texto. La elección del método y el grado de precisión requerido dependerán también de la finalidad de la exportación del texto. En general, nos enfrentamos a dos situaciones:
- disponer del texto para llevar a cabo un recuento o un análisis;
- crear un archivo editable lo más parecido posible al original.
- PractiCount and Invoice (http://www.practiline.com/)
- Total Assistant (http://www.surefiresoftware.com/totalassistant/features.php)
- AnyCount (http://www.translation3000.com/Translators_Software/WordCount_Software.html)
- Translator’s Abacus (http://www.globalrendering.com/download.html)
- QuickCount (http://www.verbumsoft.com/products.aspx?p=3)
- Tiff PDF Counter (http://www.tiffsoftware.com/tiff-PDF-counter.html)
- Count on it (http://felix-cat.com/tools/wordcount/)
- abrir el archivo PDF con Adobe Acrobat
- desde el menú Archivo, guardar el documento como RTF o DOC
Si no tenemos Adobe Acrobat:
- abrir el archivo PDF con Adobe Reader
- seleccionar la herramienta Seleccionar texto
- seleccionar todo el texto (CTRL+A)
- copiar (CTRL+C)
- abrir Word o cualquier editor de textos
- pegar el texto (CTRL+V)
Si queremos mantener el formato, tenemos dos opciones: o usar uno de los innumerables programas para convertir los PDF en archivos de Word o utilizar directamente un programa de OCR (como FineReader, OmniPage, ReadIris, etc.). En principio, aconsejamos no utilizar los programas que llevan a cabo una conversión directa sin la intervención del usuario. De hecho, estos programas suelen crear documentos de Word que solo visualmente guardan el aspecto de los PDF originales, sin embargo obtienen ese resultado a través de un formateo muy complicado y con muchísimos marcos de texto, encabezados de sección, columnas, estilos e interlineas. En cuanto se modifique el documento, por ejemplo borrando una frase o abriendo el mismo con un programa de traducción asistida, el formato se descompone y la mayoría de las veces es humanamente imposible seguir trabajando en ello. Por lo tanto, lo que aconsejamos es de efectuar la conversión con un programa de OCR (el con el cual hemos obtenido los mejores resultados ha sido Abbyy FineReader), modificando de forma manual los valores predeterminados e indicando al programa la distribución de los elementos en la página. Para más información sobre cómo optimizar el funcionamiento de FineReader, aconsejamos el siguiente artículo (de momento solo en italiano) «Riconoscimento ottico dei caratteri con Abbyy FineReader».
En el caso en que no solamente se tenga que mantener el formato, sino que el cliente necesite reconstruir por completo el archivo (si el archivo original no existe), hay dos posibilidades:
- o se trabaja con un programa para autoedición (QuarkXPress, InDesign, etc.) utilizando el PDF original como maqueta de fondo, o bien
- se puede utilizar Infix, un editor de PDF distribuido por Iceni.
En caso contrario, si trabajamos con un programa de autoedición (Quark, InDesign, etc.) hay que utilizar el PDF original como maqueta de fondo. Recomendamos leer el siguiente artículo para más detalles:http://www.proz.com/translation-articles/articles/560/1/Translation-and-DTP-of-a-PDF-File
Quien no quiere invertir en la compra de un OCR porque haría de ello un uso ocasional, puede utilizar uno de los varios convertidores en línea, como Zamzar (http://www.zamzar.com).
Cabe repetir que todo lo expuesto hasta el momento se aplica solo a PDF generados por aplicaciones. En el caso en que el texto contenido en el PDF esté formado por imágenes (un caso común es un fax recibido y sucesivamente digitalizado con un escáner), la única forma de exportarlo a un formato editable es utilizando un programa de OCR.
Una complicación adicional es representada por los eventuales niveles de seguridad del PDF. De hecho, es posible configurar dos niveles de seguridad a través de una user password («contraseña de usuario») y unaowner password («contraseña de propietario»). La primera impide la apertura del mismo documento y la segunda limita una o más operaciones, como por ejemplo imprimir, copiar o modificar el texto, añadir notas, etc. Por lo tanto, si el propietario del PDF decidió limitar algunas operaciones con una contraseña, no se podrá utilizar ninguno de los métodos descritos hasta ahora. En este caso, será necesario contactar con el cliente y pedir que nos envíe la contraseña. Si eso no fuera posible, hay que saber que existen muchas herramientas para descifrar de forma rápida las «contraseñas de propietario». Es suficiente buscar en Google «PDF crack» (hasta se encuentran herramientas en línea como http://www.ensode.net/pdf-crack.jsf). El tema se pone más difícil con las «contraseñas de usuario», que no permiten abrir el PDF; en este caso, los programas utilizan métodos «basados en la fuerza bruta», que pueden tardar horas o días en descifrar la clave. Cabe señalar que el uso de estas herramientas puede infringir los derechos de propiedad y Qabiria no fomenta su uso bajo ninguna circunstancia.
Fuente: http://qabiria.com
No hay comentarios.:
Publicar un comentario