Cómo extraer texto de un documento PDF

Puede resultar muy frustrante tratar de extraer el texto de un archivo PDF para usarlo en otra aplicación.
Por amanda morin

Extraer el texto usando Acrobat Reader


Paso 1

Abre el archivo en Acrobat Reader. En Windows, selecciona "Archivo -> Exportar documento de texto", nombra el documento y guárdalo.


Paso 2

En una Mac o el sistema operativo Linux , copia el texto accediendo al menú "Ver" y selecciona "Continuo" o "Continuo-Orientación". (La primera opción te proporcionará el texto en una columna, mientras que la segunda el texto con formato como páginas de lado a lado). Ve a "Editar -> Seleccionar todo" y luego "Editar -> Copiar".


Paso 3

Utiliza la herramienta Seleccionar si sólo quieres extraer parte del texto. Haz clic en la herramienta "Seleccionar texto" y luego elige la información que desees. En un documento con formato de múltiples columnas, tendrás que utilizar la primera herramienta "Selección de columna". Ve a "Editar -> Copiar"


Convertir PDF a HTML


Paso 1

Utiliza Gmail como un acceso directo. Adjunta el archivo PDF a un correo electrónico y envíalo a tu cuenta de Gmail. Al abrir el correo electrónico verás una serie de opciones al lado del archivo adjunto. Selecciona la opción "Ver como HTML" y guarda el archivo que se abre en una ventana separada. Aunque no podrás ver los gráficos, el archivo HTML conserva el formato del documento de texto.


Paso 2

Extrae y convierte los archivos en la línea de comandos. Los usuarios de Linux pueden utilizar un comando de conversión básica que cambiará un archivo .pdf a un archivo .txt: "Pdftotext filename.pdf". Asegúrate de cambiar el nombre del archivo con el nombre del archivo PDF.


Paso 3

Descarga un programa de conversión de texto PDF. Hay un número de programas de código abierto y programas gratuito disponibles, tales como PDFBox y Easy PDF to Text Converter. Muchos de estos programas también pueden convertir archivos PDF a HTML.