Extraer Texto de Archivos de Imagen y PDF

0

Tener un documento en PDF que desea extraer todo el texto? ¿Qué acerca de los archivos de imagen de un documento escaneado que desea convertir en texto editable? Estos son algunos de los problemas más comunes que he visto en el lugar de trabajo cuando se trabaja con archivos.

En este artículo, voy a hablar de varias maneras diferentes que usted puede ir sobre tratando de extraer el texto de un PDF o a partir de una imagen. Su extracción de resultados variará dependiendo del tipo y la calidad del texto en el archivo PDF o de imagen. Además, sus resultados pueden variar dependiendo de la herramienta que se utilice, así que lo mejor es probar como muchas de las opciones de abajo como sea posible para obtener los mejores resultados.

Extraer Texto de una Imagen o PDF

La forma más sencilla y rápida para empezar es tratar de una línea de texto de un PDF extractor de servicio. Estos normalmente son gratuitos y se puede dar exactamente lo que están buscando sin tener que instalar nada en su ordenador. Aquí están las dos que he utilizado con muy buenos a excelentes resultados:

ExtractPDF


 blank

ExtractPDFes una herramienta gratuita para agarrar las imágenes, el texto y las fuentes de un archivo PDF. La única limitación es que el tamaño máximo para el archivo PDF es de 10 MB. Eso es un poco pequeña, así que si usted tiene un archivo más grande, pruebe algunos de los otros métodos descritos a continuación. Seleccione el archivo y, a continuación, haga clic en el
Enviar archivobotón. Los resultados suelen ser muy rápido y usted debería ver una vista previa del texto cuando se haga clic en la pestaña de Texto.


 download-text.jpg.optimal

también es un beneficio adicional que se extrae imágenes del archivo PDF también, en caso de que necesite esos! En general, la herramienta en línea de las grandes obras, pero se han topado con un par de PDF docs que me dan divertido de salida. El texto se extrae bien, pero por alguna razón va a tener un salto de línea después de cada palabra! No es un gran problema para un breve archivo PDF, pero sin duda un problema para archivos con gran cantidad de texto. Si eso le sucede a usted, intente con la siguiente herramienta.

Online OCR

Online OCRnormalmente solían trabajar para los documentos que no se convierten correctamente con ExtractPDF, así que es una buena idea para tratar de ambos servicios para ver cual te da mejor resultado. Online OCR también tiene algunas características más agradable que puede resultar útil para cualquier persona con un archivo PDF de gran tamaño que sólo necesita para convertir el texto en un par de páginas, en lugar de todo el documento.

La primera cosa que quiero hacer es seguir adelante y crear una cuenta gratuita. Es un poco molesto, pero si usted no cree la cuenta gratuita, sólo parcialmente convertir su PDF en lugar de todo el documento. También, en lugar de sólo ser capaz de subir a sólo 5 MB documento, puede subir hasta 100 mb por archivo con una cuenta.


 online-ocr.jpg.optimal

en Primer lugar, elija un idioma y, a continuación, elija el tipo de formatos de salida que desee para el archivo convertido. Usted tiene un par de opciones y usted puede elegir más de uno. Bajo
documento de varias páginas, puede seleccionar
números de Páginay, a continuación, elija sólo que las páginas que desea convertir. A continuación, seleccione el archivo y haga clic en
Convertir!


 online-ocr-docs.jpg.optimal

Después de la conversión, usted será llevado a la sección de Documentos (si está conectado), donde se puede ver cómo muchas páginas libres que le quedan y los enlaces para descargar los archivos convertidos. Parece que sólo tiene 25 páginas para un día, así que si usted necesita más que eso, usted tendrá que esperar un poco o comprar más páginas.

en Línea de OCR, hizo un excelente trabajo de conversión de mis PDFs, ya que fue capaz de mantener la configuración real del texto. En mi prueba, me llevó a un documento de Word que utiliza balas de diferentes tamaños de fuente, etc y convertido a PDF. Luego usé Online OCR para convertir a formato Word y se fue de aproximadamente el 95% de la misma como la original. Eso es bastante impresionante para mí.

Además, si usted está buscando para convertir una imagen a texto Online OCR puede hacer tan fácilmente como la extracción de texto de archivos PDF.

Free Online OCR

Ya que estábamos hablando de la imagen de texto OCR, permítanme mencionar otro buen sitio web que funciona realmente bien en las imágenes.
Free Online OCRfue muy buena y muy precisa a la hora de extraer el texto de mis imágenes de prueba. Me tomó un par de fotos de mi iPhone de páginas de libros, folletos, etc y me sorprendió lo bien que fue capaz de convertir el texto.


 free-online-ocr.jpg.optimal

Seleccione el archivo y, a continuación, haga clic en el botón Cargar. En la siguiente pantalla, hay un par de opciones y una vista previa de la imagen. Usted puede recortar si no quieres OCR toda la cosa. Luego, simplemente haga clic en el botón OCR y el convertido de texto que aparecerá debajo de la imagen de vista previa. Asimismo, no tener ningún tipo de limitaciones, que es realmente agradable.

además De los servicios en línea, hay dos freeware PDF convertidores quiero mencionar en el caso de que usted necesita un software que se ejecutan localmente en el equipo para realizar las conversiones. Con los servicios en línea, siempre vas a necesitar una conexión a Internet y que puede no ser posible para todo el mundo. Sin embargo, me di cuenta de que la calidad de las conversiones de los programas freeware fueron significativamente peores que las de los sitios web.

A-PDF Text Extractor

A-PDF Text Extractores un software gratuito que hace un trabajo bastante bueno de extraer texto de archivos PDF. Una vez que usted lo descargue y lo instale, haga clic en el botón Abrir para elegir su archivo PDF. A continuación, haga clic en Extraer el texto para iniciar el proceso.


 apdf-extractor.jpg.optimal

Se te pedirá una ubicación para almacenar el archivo de salida de texto y, a continuación, va a empezar a extraer. También puede hacer clic en el
Opciónbotón, que permite seleccionar sólo ciertas páginas para extraer y el tipo de extracción. La segunda opción es muy interesante, ya que extrae el texto en diferentes diseños y vale la pena tratar todos los tres para ver cuáles le da el mejor resultado.

PDF2Text Piloto

PDF2Text Piloto no aceptar un trabajo de extracción de texto. No tiene ningún tipo de opciones; acaba de agregar archivos o carpetas, convertir y esperar lo mejor. Funcionó bien en algunos documentos Pdf, pero para la mayoría de ellos, hubo numerosos problemas.


 pdf2text.jpg.optimal

Simplemente haga clic en Agregar Archivos y, a continuación, haga clic en
Convertir. Una vez finalizada la conversión, haga clic en Examinar para abrir el archivo. Usted kilometraje puede variar el uso de este programa así que no esperes mucho.

También, vale la pena mencionar que si usted está en un entorno corporativo o puede obtener en sus manos una copia de Adobe Acrobat de trabajo, entonces usted puede realmente obtener resultados mucho mejores. Acrobat obviamente no es gratis, pero tiene opciones para convertir PDF a Word, Excel y formato HTML. También hace el mejor trabajo de mantener la estructura del documento original y de la conversión de texto muy complicado.

Dejar respuesta

Please enter your comment!
Please enter your name here