Cómo extraer texto de un documento PDF

Por amanda morin
Puede resultar muy frustrante tratar de extraer el texto de un archivo PDF para usarlo en otra aplicación.
Goodshoot/Goodshoot/Getty Images

Puede resultar muy frustrante tratar de extraer el texto de un archivo PDF para usarlo en otra aplicación. No es extraño que tengas gráficos allí o que el diseño del documento hagan que sea muy difícil obtener oraciones con sentido. Aunque no es imposible extraer el texto con el método de copiar y pegar, esto puede llevar mucho tiempo y no te permitirá que exportes un documento PDF en un formato diferente. Hay, sin embargo, algunas maneras de extraer el texto desde un archivo PDF.

Extraer el texto usando Acrobat Reader

Paso 1

Abre el archivo en Acrobat Reader. En Windows, selecciona "Archivo -> Exportar documento de texto", nombra el documento y guárdalo.

Paso 2

En una Mac o el sistema operativo Linux , copia el texto accediendo al menú "Ver" y selecciona "Continuo" o "Continuo-Orientación". (La primera opción te proporcionará el texto en una columna, mientras que la segunda el texto con formato como páginas de lado a lado). Ve a "Editar -> Seleccionar todo" y luego "Editar -> Copiar".

Paso 3

Utiliza la herramienta Seleccionar si sólo quieres extraer parte del texto. Haz clic en la herramienta "Seleccionar texto" y luego elige la información que desees. En un documento con formato de múltiples columnas, tendrás que utilizar la primera herramienta "Selección de columna". Ve a "Editar -> Copiar"

Convertir PDF a HTML

Paso 1

Utiliza Gmail como un acceso directo. Adjunta el archivo PDF a un correo electrónico y envíalo a tu cuenta de Gmail. Al abrir el correo electrónico verás una serie de opciones al lado del archivo adjunto. Selecciona la opción "Ver como HTML" y guarda el archivo que se abre en una ventana separada. Aunque no podrás ver los gráficos, el archivo HTML conserva el formato del documento de texto.

Paso 2

Extrae y convierte los archivos en la línea de comandos. Los usuarios de Linux pueden utilizar un comando de conversión básica que cambiará un archivo .pdf a un archivo .txt: "Pdftotext filename.pdf". Asegúrate de cambiar el nombre del archivo con el nombre del archivo PDF.

Paso 3

Descarga un programa de conversión de texto PDF. Hay un número de programas de código abierto y programas gratuito disponibles, tales como PDFBox y Easy PDF to Text Converter. Muchos de estos programas también pueden convertir archivos PDF a HTML.