Извлечение изображений из PDF-документов на Python
Извлечение изображений из PDF-файла может быть полезной и практичной задачей в различных ситуациях. Если вам нужно использовать изображения для презентации, создать цифровой фотоальбом или просто сохранить изображения для дальнейшего использования, возможность извлечения изображений из PDF может сэкономить ваше время и силы. В этой статье вы узнаете, как извлекать изображения из PDF-документа на Python с помощью Spire.PDF for Python.
- Извлечение изображений с определенной страницы в Python
- Извлечение всех изображений из PDF-документа в Python
Установите зависимость
Это решение требует установки в качестве зависимости Spire.PDF for Python, которая представляет собой библиотеку Python для чтения, создания и работы с PDF-документами в программах на Python. Вы можете установить ее, выполнив следующую команду pip.
pip install Spire.PDF
Извлечение изображений с определенной страницы в Python
Spire.PDF for Python предлагает метод PdfPageBase.ExtractImages() для извлечения изображений с указанной страницы. Ниже приведены подробные шаги.
- Создайте объект PdfDocument.
- Загрузите PDF-документ с помощью метода PdfDocument.LoadFromFile().
- Получите определенную страницу через свойство PdfDocument.Pages[index].
- Извлеките изображения из страницы с помощью метода PdfPageBase.ExtractImages() и верните список изображений.
- Запишите каждое изображение в списке как PNG-файл.
from spire.pdf.common import *
from spire.pdf import *
# Create a PdfDocument object
doc = PdfDocument()
# Load a PDF document
doc.LoadFromFile(’C:/Users/Administrator/Desktop/input.pdf’)
# Get a specific page
page = doc.Pages[1]
# Extract images from the page
images = []
for image in page.ExtractImages():
images.append(image)
# Save images to specified location with specified format extension
index = 0
for image in images:
imageFileName = ’C:/Users/Administrator/Desktop/Extracted/Image-{0:d}.png’.format(index)
index += 1
image.Save(imageFileName, ImageFormat.get_Png())
doc.Close() Чтобы извлечь все
изображения из всего PDF-документа, пройдитесь по страницам документа, а затем
извлеките изображения с каждой страницы отдельно. Вот подробные шаги. from spire.pdf.common import * from spire.pdf import * # Create a PdfDocument object doc = PdfDocument() # Load a PDF document doc.LoadFromFile(’C:/Users/Administrator/Desktop/input.pdf’) images = [] # Loop through the pages in the document for i in range(doc.Pages.Count): page = doc.Pages.get_Item(i) # Extract images from a specific page for image in page.ExtractImages(): images.append(image) # Save images to specified location with specified format extension index = 0 for image in images: imageFileName = ’C:/Users/Administrator/Desktop/Extracted/Image-{0:d}.png’.format(index) index += 1 image.Save(imageFileName, ImageFormat.get_Png()) doc.Close() В этой статье мы узнали,
как извлекать изображения из PDF. Spire.PDF for Python, являясь продвинутой
библиотекой Python, позволяет разработчикам выполнять широкий спектр операций с
PDF-документами, таких как: Преобразование
изображений в PDF с помощью Python
Извлечение всех изображений из PDF-документа в Python

Выводы