Как извлечь текст из PDF в Python

Извлечение текста из PDF-документа — это процесс, позволяющий извлечь текстовое содержимое PDF-файла. Файлы PDF, или Portable Document Format, широко используются благодаря своей способности сохранять форматирование и макет документов на различных платформах. Однако извлечение текста из PDF-файла может потребоваться, если вам нужно работать с текстом отдельно, например, анализировать данные, проводить исследования или преобразовывать его в другой формат. В этой статье вы узнаете, как извлечь текст из PDF-документа на Python с помощью Spire.PDF for Python.
- Извлечение текста с определенной страницы в Python
- Извлечение текста из прямоугольной области в Python
Установите зависимость
Это решение требует установки в качестве зависимости Spire.PDF for Python, которая представляет собой библиотеку Python для чтения, создания и работы с PDF-документами в программах на Python. Вы можете установить ее, выполнив следующую команду pip.
pip install Spire.PDF
Извлечение текста с определенной страницы в Python
Класс PdfTextExtractor в Spire.PDF для Python позволяет извлекать текст с определенной страницы, а класс PdfTextExtractOptions — управлять процессом извлечения и определять, как будет извлекаться текст. Ниже описаны шаги по извлечению текста с определенной страницы PDF-документа.
from spire.pdf.common import *
from spire.pdf import *
# Create a PdfDocument object
doc = PdfDocument()
# Load a PDF document
doc.LoadFromFile(’C:/Users/Administrator/Desktop/Terms of service.pdf’)
# Get a specific page
page = doc.Pages[1]
# Create a PdfTextExtractot object
textExtractor = PdfTextExtractor(page)
# Create a PdfTextExtractOptions object
extractOptions = PdfTextExtractOptions()
# Set IsExtractAllText to Ture
extractOptions.IsExtractAllText = True
# Extract text from the page keeping white spaces
text = textExtractor.ExtractText(extractOptions)
# Write text to a txt file
with open(’output/TextOfPage.txt’, ’w’) as file:
file.write(text)
Извлечение текста из прямоугольной области в Python
Свойство PdfTextExtactOptions.ExtractArea задает прямоугольную область, из которой будет извлечен текст. Ниже описаны шаги по извлечению текста из прямоугольной области страницы с помощью Spire.PDF для Python.
from spire.pdf.common import *
from spire.pdf import *
# Create a PdfDocument object
doc = PdfDocument()
# Load a PDF document
doc.LoadFromFile(’C:/Users/Administrator/Desktop/Terms of service.pdf’)
# Get a specific page
page = doc.Pages[1]
# Create a PdfTextExtractot object
textExtractor = PdfTextExtractor(page)
# Create a PdfTextExtractOptions object
extractOptions = PdfTextExtractOptions()
# Set the rectangle area
extractOptions.ExtractArea = RectangleF(0.0, 100.0, 890.0, 80.0)
# Extract text from the rectangle area keeping white spaces
text = textExtractor.ExtractText(extractOptions)
# Write text to a txt file
with open(’output/TextOfRectangle.txt’, ’w’) as file:
file.write(text)
Выводы
В этой статье мы узнали, как извлечь текст из PDF. Spire.PDF for Python, являясь продвинутой библиотекой Python, позволяет разработчикам выполнять широкий спектр операций с PDF-документами, таких как:
Преобразование изображений в PDF с помощью Python