PDFlib TET (Text Extraction Toolkit) reliably extracts text, images and metadata from any PDF file. It is available as a library/component and as a command-line tool. PDFlib TET makes available the text contents of a PDF as Unicode strings or structured XML, plus detailed glyph and font information. With PDFlib TET you can retrieve the corresponding Unicode values for text in a PDF document, as well as its position on the page.

In addition to low-level text retrieval TET contains advanced content analysis algorithms for determining word boundaries, removing redundant duplicate text (such as shadows and artificial bold). Using the auxiliary pCOS interface you can retrieve arbitrary objects from the PDF, such as metadata, hypertext, etc.

With PDFlib TET you can:

  • Extract text from PDF, e.g. to store it in a database
  • Implement a search engine for processing PDF
  • Convert the text content of PDF pages to XML for processing...

Aktuelle Neuigkeiten

PDFlib TET 5.4
January 12, 2023Neue Version
Verbessert alle Sprachbindungen und integriert die neuesten Sprachversionen einschließlich .NET 6/7 und PHP 8.1/8.2.
PDFlib TET 5.3 (Wartungsversion)
November 22, 2021Neue Version
Integriert die Unterstützung für Microsoft Windows 11.
PDFlib TET 5.3
May 4, 2021Neue Version
Optimiert die PDF-Ressourcenverarbeitung und verbessert die Sprachbindungen für .NET 5, PHP 8, Perl 5.32 und Ruby 3.0.
PDFlib TET 5.2
July 26, 2019Neue Version
Verbessert die Tabellenerkennung mit der Zeilen- und Spaltenspannenidentifikation.
PDFlib TET 5.1
June 1, 2017Neue Version
Nummerierte und nicht nummerierte Listen sind identifiziert und in TETML ausgedrückt.
 PDFlib TET improves Language Binding Support
March 2, 2015Veröffentlichung mit neuen Funktionen
New version adds support for PHP 5.6, Perl 5.20, Python 3.4, Ruby 2.1 and 2.2.

Component Type
  • .NET Class
  • .NET Core
  • DLL
  • Java Class

