Как найти и выделить текст в PDF с помощью Python

Навигация по объемным или сложным PDF-документам может оказаться непростой задачей, но возможность находить и выделять в них текст может стать решающим фактором. Эта мощная функция позволяет быстро идентифицировать и визуально выделять ключевую информацию, облегчая просмотр, анализ и обмен важным содержимым PDF-файлов.
В этой статье я расскажу, как найти и выделить текст в PDF-документе с помощью Python и библиотеки Spire.PDF for Python.
- Поиск и выделение определенного текста в PDF
- Поиск и выделение текста в PDF с помощью регулярного выражения
Установите зависимость
Это решение требует установки в качестве зависимости Spire.PDF for Python, которая представляет собой библиотеку Python для чтения, создания и работы с PDF-документами в программах на Python. Вы можете установить ее, выполнив следующую команду pip.
pip install Spire.PDF
Поиск и выделение определенного текста в PDF
Spire.PDF, библиотека для Python, позволяет разработчикам искать и находить все экземпляры определенной текстовой строки на странице с помощью функции PdfPageBase.FindText(). Кроме того, метод ApplyHighLight() может быть использован для применения пользовательского цвета подсветки к любому из найденных текстовых вхождений.
from spire.pdf import *
from spire.pdf.common import*
# Создание объекта класса PdfDocument и загрузка PDF документа
pdf = PdfDocument()
pdf.LoadFromFile("Sample.pdf")
# Перебор страниц в PDF документе
for i in range(pdf.Pages.Count):
# Получение страницы
page = pdf.Pages.get_Item(i)
# Поиск всех вхождений заданного текста на странице
result = page.FindText("облачный сервер", TextFindParameter.IgnoreCase).Finds
# Выделение всех вхождений
for text in result:
text.ApplyHighLight(Color.get_Cyan())
# Сохранение документа
pdf.SaveToFile("output/FindHighlight.pdf")
pdf.Close()
Поиск и выделение текста в PDF с помощью регулярного выражения
Используя Spire.PDF для Python, разработчики могут использовать регулярные выражения для поиска и выделения определенных текстовых шаблонов в PDF-документе. Такой подход позволяет разработчикам использовать возможности регулярных выражений для поиска и выделения более сложных текстовых шаблонов в PDF-документах.
from spire.pdf import *
from spire.pdf.common import*
# Создание объекта класса PdfDocument и загрузка PDF документа
pdf = PdfDocument()
pdf.LoadFromFile("Sample.pdf")
# Определение регулярного выражения, которое соответствует двум словам после *
regex = «\*(\w+\s+\w+)»
# Получение второй страницы
page = pdf.Pages.get_Item(1)
# Поиск совпадающего текста на странице с использованием регулярного выражения
result = page.FindText(regex, TextFindParameter.Regex)
# Выделение совпадающего текста
for text in result.Finds:
text.ApplyHighLight(Color.get_DeepPink())
# Сохранение документа
pdf.SaveToFile("output/FindHighlightRegex.pdf")
Заключение
В этой статье вы узнали, как найти и выделить текст в PDF-документе с помощью Spire.PDF for Python. Будучи мощной библиотекой Python, она позволяет разработчикам выполнять широкий спектр операций с PDF-документами, таких как:
Преобразование PDF в TIFF в Python