Как преобразовать Word в HTML в Python

Преобразование документа из Microsoft Word в HTML может быть полезной задачей при размещении контента в Интернете. Этот процесс позволяет преобразовать текст, форматирование и изображения из файла Word в HTML-формат, удобный для просмотра в браузере.
В этой статье я расскажу, как конвертировать Word в HTML на Python с помощью библиотеки Spire.Doc for Python.
- Преобразование Word в HTML в Python
- Преобразование Word в HTML с заданными параметрами на Python
Установите Spire.Doc с помощью Pip
Spire.Doc for Python — это профессиональная библиотека, созданная для разработчиков для создания, чтения и манипулирования файлами Word Doc или Docx в приложениях на Python. Ее можно легко установить с помощью следующей команды Pip.
pip install Spire.Doc
Преобразование Word в HTML в Python
Чтобы преобразовать файл Word в HTML, можно воспользоваться методом Document.SaveToFile(fileName string, FileFormat.Html). В следующем коде приведен пример.
from spire.doc import *
from spire.doc.common import *
# Создание экземпляра Document
document = Document()
# Загрузка документа doc или docx
document.LoadFromFile("Statement.docx")
# Сохранение в HTML
document.SaveToFile("WordToHtml.html", FileFormat.Html)
document.Close()
Преобразование Word в HTML с заданными параметрами на Python
Spire.Doc for Python предоставляет класс HtmlExportOptions, который позволяет настраивать параметры экспорта Word в HTML во время преобразования, например, вставлять ли стили CSS, изображения или вывозить поля формы в виде обычного текста. В следующем фрагменте кода показано, как указать параметры конвертации при преобразовании Word в HTML.
from spire.doc import *
from spire.doc.common import *
# Создание экземпляра Document
document = Document()
# Загрузка документа Word
document.LoadFromFile("Statement.docx")
# Встраивание CSS-стилей
document.HtmlExportOptions.CssStyleSheetFileName = «sample.css»
document.HtmlExportOptions.CssStyleSheetType = CssStyleSheetType.External
# Установка параметров для встраивания изображений
document.HtmlExportOptions.ImageEmbedded = False
document.HtmlExportOptions.ImagesPath = «Images/»
# Установка параметров для экспорта полей формы как простой текст
document.HtmlExportOptions.IsTextInputFormFieldAsText = True
# Сохранение документа в формате HTML
document.SaveToFile("ToHtmlExportOption.html", FileFormat.Html)
document.Close()
Заключение
В этой статье вы узнали, как конвертировать Word в HTML с помощью Spire.Doc for Python. Эта библиотека позволяет разработчикам делать множество других вещей, связанных с документами Word, например:
Замена текста в Word на Python