Aller au contenu

Apache PDFBox

Un article de Wikipédia, l'encyclopédie libre.
Apache PDFBox
Description de l'image Apache PDFBox logo.svg.

Informations
Développé par Apache Software Foundation
Première version [1]Voir et modifier les données sur Wikidata
Dernière version 3.0.5 ()[2]Voir et modifier les données sur Wikidata
Dépôt svn.apache.org/repos/asf/pdfbox et github.com/apache/pdfboxVoir et modifier les données sur Wikidata
Écrit en JavaVoir et modifier les données sur Wikidata
Environnement Machine virtuelle JavaVoir et modifier les données sur Wikidata
Formats lus Portable Document FormatVoir et modifier les données sur Wikidata
Formats écrits JPEG File Interchange FormatVoir et modifier les données sur Wikidata
Type Bibliothèque Java pour PDF
Licence Licence Apache
Site web pdfbox.apache.orgVoir et modifier les données sur Wikidata

Apache PDFBox est une bibliothèque open source écrite en Java, permettant de créer, afficher, imprimer, diviser, fusionner, modifier, vérifier et extraire le texte ainsi que les métadonnées des fichiers PDF.

Selon Open Hub, le projet compte plus de 11 000 commits (depuis son lancement en tant que projet Apache) réalisés par 18 contributeurs, représentant plus de 140 000 lignes de code. PDFBox dispose d’une base de code mature, maintenue par une équipe de développement de taille moyenne, avec un nombre de commits en augmentation d’année en année. Selon le modèle COCOMO, le développement a nécessité environ 46 années-homme d’effort[3].

Apache PDFBox comprend plusieurs composants principaux :

  • PDFBox : composant principal
  • FontBox : gestion des informations de polices
  • XmpBox : gestion des métadonnées XMP
  • Preflight (optionnel) : vérifie la conformité des fichiers PDF avec la norme PDF/A-1b

PDFBox a été créé en 2002 sur SourceForge par Ben Litchfield, qui souhaitait extraire le texte des fichiers PDF pour Lucene[4]. Le projet est devenu un projet incubateur de la Apache en 2008, puis un projet de premier niveau en 2009[5].

Le composant Preflight, initialement nommé PaDaF, a été développé par Atos et donné au projet en 2011[6].

En février 2015, Apache PDFBox a été reconnu comme organisation partenaire open source de la PDF Association[7].

Notes et références

[modifier | modifier le code]
  1. « https://projects.apache.org/json/projects/pdfbox.json » (consulté le )
  2. « Release 3.0.5 », (consulté le )
  3. « The Apache PDFBox Open Source Project on Open Hub », sur OpenHub (consulté le )
  4. (en) « Apache PDFBox and FontBox 1.0.0 released » [archive du ], sur The H Open, (consulté le )
  5. « PDFBox Project Incubation Status », sur Apache Incubator (consulté le )
  6. « PaDaF Preflight Codebase Intellectual Property (IP) Clearance Status », sur Apache Incubator (consulté le )
  7. (en) Thomas Zellmann, « Apache PDFBox named an Open Source Partner Organization of the PDF Association », sur PDF Association (consulté le )