自学Python:批量提取PPT文档中的文本内容

如果要把PPT文档中文字内容复制到文本中保存,内容不多的时候手动复制粘贴一下也是很快的,如果你要复制的PPT文档有许多页,那就有点浪费时间了,使用Python代码可以快速提取并保存好。

下面演示的是只提取文本框中的文本,且文本框独立存在,如果是位于形状组合中的就不能提取出来了。

完整的代码如下:

from pptximport Presentation

from docximport Document

word_file = Document()

file_path = d:\11\PowerPoint 演示文稿.pptx

ppt = Presentation(file_path)

for iin ppt.slides:

for jin i.shapes:

if j.has_text_frame:

text_frame = j.text_frame

for paragraphin text_frame.paragraphs:

word_file.add_paragraph(paragraph.text)

save_path = d:\22\22.docx

word_file.save(save_path)

执行完毕后查看,发现有许多汉字没有显示,不知道是什么问题,有高手路过可以留言指导一下。

________________END______________

© 版权声明
THE END
如果内容对您有所帮助,就支持一下吧!
点赞0 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容