Главное Авторские колонки Вакансии Вопросы
452 0 В избр. Сохранено
Авторизуйтесь
Вход с паролем

Как извлечь текст из PDF в Python

В этой статье вы узнаете, как извлечь текст из PDF-документа на Python с помощью Spire.PDF for Python.
Мнение автора может не совпадать с мнением редакции

Извлечение текста из PDF-документа — это процесс, позволяющий извлечь текстовое содержимое PDF-файла. Файлы PDF, или Portable Document Format, широко используются благодаря своей способности сохранять форматирование и макет документов на различных платформах. Однако извлечение текста из PDF-файла может потребоваться, если вам нужно работать с текстом отдельно, например, анализировать данные, проводить исследования или преобразовывать его в другой формат. В этой статье вы узнаете, как извлечь текст из PDF-документа на Python с помощью Spire.PDF for Python.

  1. Извлечение текста с определенной страницы в Python
  2. Извлечение текста из прямоугольной области в Python

Установите зависимость

Это решение требует установки в качестве зависимости Spire.PDF for Python, которая представляет собой библиотеку Python для чтения, создания и работы с PDF-документами в программах на Python. Вы можете установить ее, выполнив следующую команду pip.

pip install Spire.PDF

Извлечение текста с определенной страницы в Python

Класс PdfTextExtractor в Spire.PDF для Python позволяет извлекать текст с определенной страницы, а класс PdfTextExtractOptions — управлять процессом извлечения и определять, как будет извлекаться текст. Ниже описаны шаги по извлечению текста с определенной страницы PDF-документа.

from spire.pdf.common import *

from spire.pdf import *

# Create a PdfDocument object

doc = PdfDocument()

# Load a PDF document

doc.LoadFromFile(’C:/Users/Administrator/Desktop/Terms of service.pdf’)

# Get a specific page

page = doc.Pages[1]

# Create a PdfTextExtractot object

textExtractor = PdfTextExtractor(page)

# Create a PdfTextExtractOptions object

extractOptions = PdfTextExtractOptions()

# Set IsExtractAllText to Ture

extractOptions.IsExtractAllText = True

# Extract text from the page keeping white spaces

text = textExtractor.ExtractText(extractOptions)

# Write text to a txt file

with open(’output/TextOfPage.txt’, ’w’) as file:

file.write(text)

Извлечение текста из прямоугольной области в Python

Свойство PdfTextExtactOptions.ExtractArea задает прямоугольную область, из которой будет извлечен текст. Ниже описаны шаги по извлечению текста из прямоугольной области страницы с помощью Spire.PDF для Python.

from spire.pdf.common import *

from spire.pdf import *

# Create a PdfDocument object

doc = PdfDocument()

# Load a PDF document

doc.LoadFromFile(’C:/Users/Administrator/Desktop/Terms of service.pdf’)

# Get a specific page

page = doc.Pages[1]

# Create a PdfTextExtractot object

textExtractor = PdfTextExtractor(page)

# Create a PdfTextExtractOptions object

extractOptions = PdfTextExtractOptions()

# Set the rectangle area

extractOptions.ExtractArea = RectangleF(0.0, 100.0, 890.0, 80.0)

# Extract text from the rectangle area keeping white spaces

text = textExtractor.ExtractText(extractOptions)

# Write text to a txt file

with open(’output/TextOfRectangle.txt’, ’w’) as file:

file.write(text)

Выводы

В этой статье мы узнали, как извлечь текст из PDF. Spire.PDF for Python, являясь продвинутой библиотекой Python, позволяет разработчикам выполнять широкий спектр операций с PDF-документами, таких как:

Преобразование изображений в PDF с помощью Python

Шифрование PDF с помощью Python

Добавление водяного знака в PDF с помощью Python

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем
Комментарии
Выбрать файл
Блог проекта
Расскажите историю о создании или развитии проекта, поиске команды, проблемах и решениях
Написать
Личный блог
Продвигайте свои услуги или личный бренд через интересные кейсы и статьи
Написать

Spark использует cookie-файлы. С их помощью мы улучшаем работу нашего сайта и ваше взаимодействие с ним.