如何使用docx中的python-docx识别分页符

 

问题描述:

我有几个.docx文件,其中包含许多相似的文本块:docx文件,其中包含300多个新闻稿,每个新闻稿1-2页,这些新闻稿需要分成单独的文本文件。区分文章之间差异的唯一一致方法是,两篇文章之间始终只有分页符。

但是,我不知道在将包含的Word文档转换为文本时如何查找分页符,并且在使用当前脚本进行转换后,分页符信息丢失了

我想知道在将.docx文件转换为.txt时如何保留HARD分页符。对于我来说,它们在文本文件中的外观无关紧要,只要它们在以后扫描文本文件时是唯一可识别的即可

这是我用来将docx文件转换为txt的脚本:

def docx2txt(file_path):
    document = opendocx(file_path)
    text_file = open("%s.txt" % file_path[:len(file_path)-5], "w")
    paratextlist = getdocumenttext(document)
    newparatextlist = []
    for paratext in paratextlist:
        newparatextlist.append(paratext.encode("utf-8"))
    text_file.write('\n\n'.join(newparatextlist))
    text_file.close()

默认情况下,chrome将使用以下命令行运行:"C:\Program Files (x86)\Google\Chrome\Application\chrome.exe"--disable-ha ...