Portal del Editor
Conacyt

Los formatos digitales (xml, pdf, html, epub)

Con el paso del tiempo el avance de la tecnología ha sido cada vez más rápido y de mayor impacto en cada uno de los aspectos que conforman a la sociedad. Esto, por supuesto, incluye a los diferentes tipos de publicaciones, los cuales, hasta hace poco, se habían trabajado exclusivamente de forma impresa.

En la actualidad, la permanencia de las publicaciones comienza a depender de su adaptación a los avances tecnológicos, por lo que la implementación de formatos digitales en muchos de sus procesos puede ser una garantía de difusión de contenidos y la conservación de las publicaciones en el ámbito de la información.

El formato del documento digital, como XML, PDF, HTML y EPUB, supone una mejoría en el desarrollo de almacenamiento, localización, y búsqueda de información en la web, así dan respuesta a la necesidad e idea de publicar documentos estructurados para su intercambio y manipulación con un formato estándar abierto.

Formato XML

Es un lenguaje de marcas desarrollado por el World Wide Web Consortium (W3C) utilizado para almacenar datos en forma legible. Deriva del lenguaje SGML y permite definir la gramática de lenguajes específicos para estructurar documentos grandes.

Entre las últimas soluciones propuestas, XML (Extensible Markup Language) se presenta como una propuesta más seria y reconocida para superar algunas deficiencias de otros formatos. Primero, porque XML no sólo es para su aplicación en Internet, sino que se propone como un estándar para el intercambio de información estructurada entre diferentes plataformas: se puede usar en bases de datos, editores de texto, hojas de cálculo, etcétera; permitiendo la compatibilidad entre sistemas para compartir la información de una manera segura, confiable y fácil. El uso de un formato de codificación simple y universal como XML permite estructurar la información y el intercambio de ésta a todos los medios.

Con este tipo de formato, se pueden utilizar técnicas de migración sin dificultad, ya que sólo contienen texto puro. Para asegurar la integridad de los documentos que contienen objetos electrónicos (imágenes, sonidos, modelos, fórmulas, hiperenlaces) se debe emplear la misma filosofía que con la información textual.

Formato PDF

En cuanto a los formatos mixtos, el PDF (Portable Document Format) es un formato de almacenamiento para documentos digitales independiente de plataformas de software o hardware. Facilita un programa gratuito para poder leer este tipo de documentos. Fue inicialmente desarrollado por la empresa Adobe Systems.

Este formato es de tipo compuesto (imagen vectorial, mapa de bits y texto). Los archivos PDF se utilizan para almacenar documentos, interactivos y regulares, así como mapas, gráficos, catálogos, presentaciones y libros electrónicos.

Entre las características del PDF destacan las siguientes:

  • Es multiplataforma, es decir, que puede ser presentado en los principales sistemas operativos (GNU/Linux, iOS X, Unix, Windows), sin que se modifique el aspecto ni la estructura del documento original. Además de que existen muchos programas para visualizarlos (PDF-XChange Viewer, Sumatra PDF, Adobe Reader, Foxit Reader)
  • Puede contener cualquier combinación de texto, elementos multimedia como vídeos o sonido, elementos de hipertexto como vínculos y marcadores, enlaces y miniaturas de páginas.
  • Los PDFs no pierden el formato con el envío a otros usuarios, como sí sucede cuando se envían documentos de texto (desorden de las páginas, desorganización de los párrafos, entre otros)
  • Puede generarse desde cualquier aplicación mediante la instalación de una “impresora virtual” en el sistema operativo, en caso de usar aplicaciones sin esa funcionalidad embebida.
  • Es un formato de preimpresión, es decir, muestra el documento tal cual como se verá impreso, independientemente del equipo o programa con el que se ha elaborado. Además, se tiene la seguridad de que las personas que visualicen el documento, lo harán exactamente igual a como fue redactado, sin cambios de estructura o formato.
  • Los archivos son ligeros ya que al crear un PDF se utilizan algoritmos de compresión que reducen el tamaño del archivo, sobre todo si se utilizan imágenes. Esto lo hace ideal para enviar documentos por correo electrónico o subirlos a una página web.
  • Los documentos no son modificables. Aunque con la ayuda de programas específicos sí sería posible introducir ciertos cambios, en principio, los archivos PDF no se pueden modificar ni editar, lo que los hace recomendables a la hora de compartir y enviar a otras personas documentos. Puede cifrarse para proteger su contenido e incluso firmarlo digitalmente.
  • Permiten la incorporación de elementos no textuales. Es fácil la inserción de otros instrumentos como anotaciones, resaltes del texto, selecciones rectangulares y/o circulares, comentarios, etcétera. Además, podemos añadir formularios para la recogida electrónica de datos e incluir enlaces o vínculos.

En el proceso editorial, el PDF es un formato con una desventaja enorme, debido a que los archivos PDF son creados al convertir documentos electrónicos, utilizando el programa Adobe Acrobat, produciendo esencialmente un documento no editable

Formato HTML

Uno de los formatos más comunes y con mayor accesibilidad es el HTML, HyperText Markup Language. Un lenguaje para la elaboración de páginas desarrollado en 1993, orientado a describir el aspecto visual de un documento y sus enlaces con otros. Es un estándar que sirve de referencia web en sus diferentes versiones, definido por una estructura básica y un código (denominado código HTML) para la determinación de contenido de una página web, como texto, imágenes, videos, entre otros. Su distribución ha sido muy amplia debido a que es muy sencillo consultarlo por medio de internet, además de que permite la inclusión de diversos elementos como audio, video, imágenes, entre otros, que le dan una mayor interactividad al documento.

Otra gran ventaja de este formato es que se puede generar fácilmente por medio de varios programas, tales como los editores de HTML Intype y Dreamweaver o Adobe InDesign. Sin embargo, muchos han considerado al formato HTML muy básico, sin posibilidades de ofrecer multiplicidad de opciones.

Formato EPUB

EPUB o ePub (Electronic Publication) es un formato que al igual que los otros, es de código abierto para leer textos e imágenes. Fue creado por el International Digital Publishing Forum (IDPF), como un formato específico para visualizar libros.

El formato EPUB tiene como principal ventaja la independencia del contenido y la forma, lo que supone que puede ser adaptado a cualquier dispositivo de lectura de forma rápida y automática. Se adapta a los diferentes tamaños de pantalla y fuentes de la mayoría de los lectores de libros electrónicos, redimensionando dinámicamente lo mostrado en una página según sea necesario.

Este tipo de archivos mantiene la calidad que le dan los publicadores originales a las publicaciones electrónicas, ya que se presenta en formato ZIP, lo cual insta a sus usuarios a sentirse como si tuvieran un verdadero libro en sus manos. Los archivos que se incluyen en este ZIP se pueden desglosar en tres:

  • Open Publication Structure (OPS).
  • Open Packaging Format (OPF).
  • OEBPS Container Format (OCF).

Estos tres archivos forman el corazón de un archivo EPUB, el cual congrega en su interior un estilo limpio y ordenado de archivos HTML y CSS, lo que además permite añadirle datos para la identificación de los libros digitales.

Fuentes:

-Conservación digital, Revistas científicas electrónica D. M. Llidó, R. Berlanga, Representación y Organización de Periódicos con el Lenguaje XML, Departamento de Informatica, Universitat Jaume I

http://dialnet.unirioja.es/descarga/articulo/1300455.pdf

http://www.erevistas.csic.es/especial_revistas/revistas3.htm