如何使用docx中的python-docx识别分页符
问题描述:
我有几个.docx文件,其中包含许多相似的文本块:docx文件,其中包含300多个新闻稿,每个新闻稿1-2页,这些新闻稿需要分成单独的文本文件。区分文章之间差异的唯一一致方法是,两篇文章之间始终只有分页符。
但是,我不知道在将包含的Word文档转换为文本时如何查找分页符,并且在使用当前脚本进行转换后,分页符信息丢失了
我想知道在将.docx文件转换为.txt时如何保留HARD分页符。对于我来说,它们在文本文件中的外观无关紧要,只要它们在以后扫描文本文件时是唯一可识别的即可
这是我用来将docx文件转换为txt的脚本:
def docx2txt(file_path): document = opendocx(file_path) text_file = open("%s.txt" % file_path[:len(file_path)-5], "w") paratextlist = getdocumenttext(document) newparatextlist = [] for paratext in paratextlist: newparatextlist.append(paratext.encode("utf-8")) text_file.write('\n\n'.join(newparatextlist)) text_file.close()
默认情况下,chrome将使用以下命令行运行:"C:\Program Files (x86)\Google\Chrome\Application\chrome.exe"--disable-ha ...