Как преобразовать PDF в TXT в Java

Когда речь идет о работе с цифровыми документами, возможность конвертировать PDF-файлы в формат обычного текста (TXT) может оказаться невероятно полезной. Конвертирование PDF в TXT позволяет извлекать текстовое содержимое из PDF-документа, делая его легко редактируемым и доступным для поиска. В этой статье мы расскажем вам о том, как конвертировать PDF в TXT на Java с помощью Free Spire.PDF for Java.
Установка файла Free Spire.Pdf.jar
Бесплатная Spire.PDF for Java — это профессиональная Java-библиотека для чтения, создания и работы с PDF-файлами в Java-приложениях. Она поможет разработчикам выполнять широкий спектр операций с PDF-документами.
Если вы создали
Maven-проект, вы можете легко импортировать jar в свое приложение, используя следующие
конфигурации. Для проектов, не использующих Maven, загрузите jar-файл по этой ссылке
и добавьте его в качестве зависимости в свое приложение.
Бесплатный Spire.PDF для
Java предоставляет класс PdfTextExtractor для извлечения текста из PDF с
возможностью поиска и класс PdfTextExtractOptions для управления параметрами
извлечения. По умолчанию метод PdfTextExtractor.extract() извлекает весь текст
с указанной страницы без
необходимости указывать определенную опцию извлечения. import com.spire.pdf.PdfDocument; import com.spire.pdf.PdfPageBase; import com.spire.pdf.texts.PdfTextExtractOptions; import com.spire.pdf.texts.PdfTextExtractor; import java.io.IOException; import java.nio.file.Files; import java.nio.file.Paths; public class ExtractTextFromPage { public static void main(String[] args) throws IOException { //Create a PdfDocument object PdfDocument doc = new PdfDocument(); //Load a PDF file doc.loadFromFile("C:\Users\Administrator\Desktop\Terms of Service.pdf"); //Get the second page PdfPageBase page = doc.getPages().get(1); //Create a PdfTextExtractor object PdfTextExtractor textExtractor = new PdfTextExtractor(page); //Create a PdfTextExtractOptions object PdfTextExtractOptions extractOptions = new PdfTextExtractOptions(); //Extract text from the page String text = textExtractor.extract(extractOptions); //Write to a txt file Files.write(Paths.get("output/Extracted.txt"), text.getBytes()); } В этой статье мы узнали,
как использовать Free Spire.PDF for Java для преобразования PDF в TXT. Кроме
того, эта библиотека поддерживает другие функции обработки PDF, такие как: Преобразование
PDF в изображения в Java
Преобразование PDF в TXT в Java
Резюме