Cargo actual:Index > Cómo leer PDF File en Java

Cómo leer PDF File en Java

Actualizado:05-26Fuente: consolidación de la red
Advertisement

Cómo leer PDF File en Java

No es difícil de leer archivos PDF en Java que utilizan bibliotecas que están fácilmente disponibles. Lectura de archivos PDF le permite escribir programas Java que pueden procesar el texto en esos archivos. Una de las opciones para la lectura de archivos PDF es el de código abierto biblioteca libre PDFBox disponible de Apache. La plataforma de desarrollo Eclipse Java hace que este trabajo sea más fácil y gestiona las bibliotecas se le descargando. Usted debe estar familiarizado con la programación Java para hacer uso de estas bibliotecas Java.

Reúna Bibliotecas Necesarios

Descargar el JDK de Java desde el sitio web de Sun. Este es un archivo ejecutable que puede instalar en su sistema mediante la ejecución de la misma. Hay versiones disponibles para Windows, Mac y Linux. Haga clic en el botón \ rojo "Download \". Guardar un archivo llamado \ "jdk-6uxx-windows-xxx.exe \" cuando se le solicite. Guarde este archivo y haga doble clic en él para iniciar la instalación de Java.

Descargue el sistema de desarrollo de Eclipse y descomprimirlo en un directorio de nivel superior. Seleccione \ "Eclipse IDE para desarrolladores de Java. \" Esto iniciará la descarga de \ "eclipse-java-galileo-SR2-win32.zip. \" Haga doble clic en el archivo para descomprimirlo después de la descarga se ha completado. Seleccione el \ "C: \" ubicación del directorio raíz para descomprimir Eclipse.

Iniciar Eclipse haciendo doble clic sobre \ "eclipse.exe \" en el directorio que acaba de crear por descomprimir el archivo zip del eclipse. En el sistema de Eclipse, cree un proyecto denominado \ "PrintPdf. \" Seleccione \ "Archivo \" entonces \ entonces \ "proyecto Java. \" "New \" Escriba el nombre del proyecto \ "PrintPdf \" en el cuadro de diálogo que aparece. Asegúrese de que se selecciona el botón de radio que dice \ "Crear carpetas separadas para los archivos de origen y de clase. \" Haga clic en \ "Finalizar \".

Crear una carpeta \ "lib \" en su proyecto \ "PrintPdf \". Haga clic en el \ proyecto "PrintPdf \" y seleccione \ "Nuevo \" y luego \ "carpeta. \" Introduzca el nombre de \ "lib \" y haga clic en \ "Finalizar \".

Descargar Apache \ "PDFBox.jar \" desde el sitio de Apache y copiarlo en el directorio lib que acaba de crear. En la misma página web, descargar el archivo \ "fontbox-nn.jar \" y el archivo \ "jempbox-nn.jar \". En cada caso, al hacer clic en ese archivo jar, que le llevará a una página donde puede seleccionar uno de varios servidores que pueden proporcionar este archivo. Escoja cada uno de ellos y cada archivo jar descargará. Copie cada archivo jar en el directorio lib que acaba de crear.

Descargue el paquete log4j.jar Apache de la misma manera y copiar el archivo log4j.jar en el directorio. La biblioteca Apache PDFBox utiliza esta biblioteca de registro de Apache, por lo que este archivo tiene que estar presente.

Descargue el paquete de Apache Commons Descubrimiento como un archivo zip. Haga doble clic en el archivo zip, seleccione el \ "commons-descubrimiento-nn.jar \" y extraerlo en el directorio lib.

En Eclipse, haga clic en el \ directorio "lib \" y pulse \ "F5. \" Asegúrese de que todos los archivos jar que agregó se muestran.

Haga clic derecho en el proyecto PrintPDF y seleccione \ "Propiedades. \" "Java Build Path \" Seleccione \ y seleccione el \ "Bibliotecas \" ficha. Haga clic en \ "Añadir frascos \" y vaya al directorio lib que acaba de crear, y añadir \ "commons-logging-nn.jar \" \ "fontbox-nn.jar, \" \ "jempbox-nn.jar, \ "\" log4j-nn.jar, \ "y \" PDFBox-nn.jar. \ "Haga clic en \" Aceptar \ ".

Escriba el Código para leer archivos PDF

Haga clic derecho en la carpeta \ "src \" de su proyecto \ "PrintPDF \" y seleccione \ "Nuevo \" y el \ "paquete. \" Crear un paquete utilizando cualquier nombre significativo. Por ejemplo, el nombre de la "com.pdf.util. \" Paquete \ Clic \ "Finalizar \".

Haga clic derecho en el nombre del paquete que acaba de crear y seleccione \ "Nuevo \" y luego \ "Clase. \" Crear una clase llamada \ "PDFTextParser. \" Asegúrese de hacer clic la casilla de verificación marcada \ "public static void main. .. \ "para que el sistema creará un \" principal método \ ".

Editar método "main \" en el \ "PDFTextParser \" clase para contener el siguiente código al \: <br /> <br /> static void main (String args []) {públicos <br /> PDFTextParser pdf = new PDFTextParser (\ "data / javaPDF.pdf \") <br /> <br /> GO // impresión resultados <br /> System.out.println (pdf.getParsedText ()) <br /> <br /> GO } <br /> <br /> Nota que el archivo que desea imprimir se explica en el constructor de PDFTextParser (\ "datos / JavaPDF.pdf \"). Podría ser simplemente tan fácilmente un argumento de línea de comandos: <br /> <br /> PDFTextParser pdf = new PDFTextParser (argv [0]) <br /> GO <br /> <br /> o seleccionados de una interfaz gráfica de usuario. <br /> <br /> Se crea una instancia de la clase PDFTextParser, y luego llama a su \ "getParsedText \" método.

Inserte el siguiente código justo debajo de la línea de primera clase \ "clase pública PDFTextParser \" que se ha creado para ti. <br /> <br /> Analizador PDFParser privada = <br /> nula GO <br /> <br /> / / extraer el texto de documento PDF <br /> PDFTextParser pública (String filename) {<br /> archivo File = new File (nombre del archivo) <br /> <br /> GO if (! file.isFile ()) {<br /> System.err.println (\ "Archivo \" + nomArchivo + \ "no existe. \") <br /> <br /> GO} <br /> // Configurar instancia de PDF analizador <br / > try {<br /> parser = new PDFParser (new FileInputStream (archivo)) <br /> <br /> GO} catch (IOException e) {<br /> System.err.println (\ "No se puede abrir PDF Analizador. \ "+ e.getMessage ()) <br /> <br /> GO}} <br /> <br /> // ------------------ ------------- <br /> public String getParsedText () {<br /> PDDocument pdDoc = null <br /> <br /> GO COSDocument cosDoc = null; <br /> Cadena parsedText = null; <br /> <br /> GO <br /> <br /> try {PDFTextStripper pdfStripper = new PDFTextStripper () <br /> parser.parse /> <br GO () < br /> <br /> GO cosDoc = parser.getDocument () <br /> <br /> GO pdDoc = new <br PDDocument (cosDoc) <br /> <br /> GO /> // obtener la lista de todos páginas <br List <PDPage> /> list = pdDoc.getDocumentCatalog (). getAllPages () <br /> GO <br /> <br /> // nota que usted puede imprimir cualquier página que desea <br /> / / eligiendo diferentes valores de la página de inicio y el final <br /> pdfStripper.setStartPage (1); // 1-basado longitud /> <br int = list.size (); // Número total de páginas <br /> pdfStripper.setEndPage (longitud); // Última página <br /> <br /> // obtener el texto de las páginas seleccionadas <br /> parsedText = pdfStripper.getText (pdDoc) <br /> <br /> GO} catch (IOException e) {< br /> <br /> System.err .println (\ "Una excepción ocurrió en analizar el documento PDF. \" <br /> + e.getMessage ()) <br /> <br /> GO} finally {< br /> <br /> try {si (cosDoc! = null) <br /> cosDoc.close () <br /> <br /> si GO (pdDoc! = null) <br /> pdDoc.close () <br /> <br /> GO} catch (IOException e) {<br /> e.printStackTrace () <br /> <br /> GO}} <br /> <br /> <br /> retorno parsedText GO <br />}

Ejecute el programa. Haga clic derecho en la clase PDFTextParser y haga clic en \ "Ejecutar como \" y luego en \ "programa Java. \" El programa debe ejecutar e imprimir el contenido de texto del archivo PDF que ha introducido en su código.

Reprimir Mensaje de error Log4j inicio

Crear un archivo de configuración para suprimir el mensaje de error log4j sistema de registro de Java creado cuando no puede encontrar un archivo de configuración cuando se inicia. Haga clic derecho sobre la carpeta de \ "src \" del proyecto PrintPDF y seleccione \ "nuevo \" y luego \ "Archivo. \" Nombre del archivo "\ log4j.properties \" Eclipse mostrará una pantalla vacía para este nuevo archivo.

Pegue las líneas siguientes en la pantalla en blanco que representan a la \ "log4j.properties \" archivo. <br /> <br /> # Ajuste el nivel de registrador de la raíz a DEBUG y su único appender a A1. <br /> Log4j.rootLogger = WARN , A1 <br /> <br /> # A1 está dispuesto a ser un ConsoleAppender. <br /> log4j.appender.A1 = org.apache.log4j.ConsoleAppender <br /> <br /> # A1 utiliza PatternLayout. < br />log4j.appender.A1.layout=org.apache.log4j.PatternLayout <br /> log4j.appender.A1.layout.ConversionPattern =% - 4r [% t]% -5p% c% x -% m% n

Guarde el "log4j.properties \" \ archivo. La presencia de este archivo en el nivel superior \ directorio "src \" va a suprimir el mensaje de inicio de log4j y los mensajes de registro triviales. El sistema log4j imprimirá sólo los errores actuales.

Consejos y advertencias

También hay una serie de paquetes comerciales que se pueden utilizar para extraer texto de archivos PDF, pero no son baratos.

  • Cómo leer PDF File en JavaCómo leer PDF File en Java Actualizado:05-26

    No es difícil de leer archivos PDF en Java que utilizan bibliotecas que están fácilmente disponibles. Lectura de archivos PDF le permite escribir programas Java que pueden procesar el texto en esos archivos. Una de las opciones para la lectura de arc

  • Cómo leer PDF Ebooks, CHM, y archivos de texto en PSPCómo leer PDF Ebooks, CHM, y archivos de texto en PSP Actualizado:04-13

    Aparte de jugar, se puede escuchar música, ver vídeos y leer cómics en tu PSP. Ya hemos cubierto algunos artículos para ayudarle con jugar en tu PSP, así que pensé que trata de explorar otras opciones que tenemos para el entretenimiento en PSP. Verem

  • Cómo leer un archivo con Java Actualizado:11-23

    Como Java se ha convertido en una herramienta muy popular tanto para la aplicación y programación web, vale la pena tener una comprensión de los conceptos básicos del lenguaje de programación. Para leer desde un archivo en JAVA, tienes que abrir el a

  • Cómo leer un archivo CSV a JavaCómo leer un archivo CSV a Java Actualizado:02-18

    CSV o valores separados por comas, los archivos se utilizan comúnmente como un formato universal para el intercambio de datos simples, sobre todo entre las aplicaciones de hojas de cálculo. El formato es simple. Tome una tabla de datos y colocar el n

  • Cómo leer archivos PDF y Otros Docs en el iPhone y el iPod TouchCómo leer archivos PDF y Otros Docs en el iPhone y el iPod Touch Actualizado:02-15

    La mayoría de la gente prefiere la lectura de documentos en papel sobre la lectura en una pantalla de ordenador. Sobre todo nada más que un blog se lee más fácilmente del buen papel viejo. Creo que esto tiene algo que ver con la posición de la cabeza

  • Cómo leer una ficha archivo delimitado en Java Actualizado:03-22

    Lectura de archivos delimitados por tabuladores es una forma esencial de leer salida básica de Java. Algunos datos de las bases de datos de exportación en la ficha o en formato delimitado por comas, por lo que la importación de esos datos en Java es

  • Cómo establecer Foxit Reader como predeterminado PDF Reader Actualizado:01-29

    Foxit Reader y Adobe lector tanto son lectores de noticias gratuito para ver PDF files.If está utilizando tanto lector de Adobe y Foxit lector por alguna razón y si desea establecer Foxit Reader como lector de PDF predeterminado que pueden establecer

  • Ventanas Reader: Windows 8 visor de PDF File CaracterísticasVentanas Reader: Windows 8 visor de PDF File Características Actualizado:06-01

    Anteriormente, Windows nunca se envía con un visor de PDF integrado. Se envía un visor de XPS en Windows 7. Pero a partir de Windows 8, Microsoft ha decidido incluir un lector de PDF denominado como Windows Reader. De Windows Reader es de Microsoft p

  • Cómo ver PDF y XPS archivos en Windows 8.1 con la App ReaderCómo ver PDF y XPS archivos en Windows 8.1 con la App Reader Actualizado:11-02

    La aplicación Reader es una aplicación gratuita desarrollada por Microsoft para Windows 8 y 8.1 y se incluye en ambos sistemas operativos. Por desgracia, no tiene una ficha en la pantalla de inicio y la mayoría de los usuarios no saben de su existenc

  • Cómo agregar números enteros en JavaCómo agregar números enteros en Java Actualizado:01-16

    Adición de números enteros en Java no es complicado, y es algo que usted puede encontrarse haciendo regularmente como parte de la programación Java. ¿Qué enfoque se toma para agregar números enteros en Java depende de los detalles de su propio progra