Главное Авторские колонки Вакансии Вопросы
302 0 В избр. Сохранено
Авторизуйтесь
Вход с паролем

Как найти и выделить текст в PDF с помощью Python

В этой статье я расскажу, как найти и выделить текст в PDF-документе с помощью Python и библиотеки Spire.PDF for Python.
Мнение автора может не совпадать с мнением редакции

Навигация по объемным или сложным PDF-документам может оказаться непростой задачей, но возможность находить и выделять в них текст может стать решающим фактором. Эта мощная функция позволяет быстро идентифицировать и визуально выделять ключевую информацию, облегчая просмотр, анализ и обмен важным содержимым PDF-файлов.

В этой статье я расскажу, как найти и выделить текст в PDF-документе с помощью Python и библиотеки Spire.PDF for Python.

  • Поиск и выделение определенного текста в PDF
  • Поиск и выделение текста в PDF с помощью регулярного выражения

Установите зависимость

Это решение требует установки в качестве зависимости Spire.PDF for Python, которая представляет собой библиотеку Python для чтения, создания и работы с PDF-документами в программах на Python. Вы можете установить ее, выполнив следующую команду pip.

pip install Spire.PDF

Поиск и выделение определенного текста в PDF

Spire.PDF, библиотека для Python, позволяет разработчикам искать и находить все экземпляры определенной текстовой строки на странице с помощью функции PdfPageBase.FindText(). Кроме того, метод ApplyHighLight() может быть использован для применения пользовательского цвета подсветки к любому из найденных текстовых вхождений.

from spire.pdf import *

from spire.pdf.common import*

# Создание объекта класса PdfDocument и загрузка PDF документа

pdf = PdfDocument()

pdf.LoadFromFile("Sample.pdf")

# Перебор страниц в PDF документе

for i in range(pdf.Pages.Count):

# Получение страницы

page = pdf.Pages.get_Item(i)

# Поиск всех вхождений заданного текста на странице

result = page.FindText("облачный сервер", TextFindParameter.IgnoreCase).Finds

# Выделение всех вхождений

for text in result:

text.ApplyHighLight(Color.get_Cyan())

# Сохранение документа

pdf.SaveToFile("output/FindHighlight.pdf")

pdf.Close()

Поиск и выделение текста в PDF с помощью регулярного выражения

Используя Spire.PDF для Python, разработчики могут использовать регулярные выражения для поиска и выделения определенных текстовых шаблонов в PDF-документе. Такой подход позволяет разработчикам использовать возможности регулярных выражений для поиска и выделения более сложных текстовых шаблонов в PDF-документах.

from spire.pdf import *

from spire.pdf.common import*

# Создание объекта класса PdfDocument и загрузка PDF документа

pdf = PdfDocument()

pdf.LoadFromFile("Sample.pdf")

# Определение регулярного выражения, которое соответствует двум словам после *

regex = «\*(\w+\s+\w+)»

# Получение второй страницы

page = pdf.Pages.get_Item(1)

# Поиск совпадающего текста на странице с использованием регулярного выражения

result = page.FindText(regex, TextFindParameter.Regex)

# Выделение совпадающего текста

for text in result.Finds:

text.ApplyHighLight(Color.get_DeepPink())

# Сохранение документа

pdf.SaveToFile("output/FindHighlightRegex.pdf")

Заключение

В этой статье вы узнали, как найти и выделить текст в PDF-документе с помощью Spire.PDF for Python. Будучи мощной библиотекой Python, она позволяет разработчикам выполнять широкий спектр операций с PDF-документами, таких как:

Преобразование PDF в TIFF в Python

Слияние PDF-документов в Python

Добавление штампов в PDF в Python

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем
Комментарии
Выбрать файл
Блог проекта
Расскажите историю о создании или развитии проекта, поиске команды, проблемах и решениях
Написать
Личный блог
Продвигайте свои услуги или личный бренд через интересные кейсы и статьи
Написать

Spark использует cookie-файлы. С их помощью мы улучшаем работу нашего сайта и ваше взаимодействие с ним.