python如何提取DOCX超链接的文本？

from docx import Document from docx.opc.constants import RELATIONSHIP_TYPE as RT document = Document('test.docx') rels = document.part.rels def iter_hyperlink_rels(rels): for rel in rels: if rels[rel].reltype == RT.HYPERLINK: yield rels[rel]._target print(iter_hyperlink_rels(rels)

1条回答

网友

1楼 · 发布于 2024-06-09 05:54:46

为了回答我自己的问题，我不得不通过html来完成：

from bs4 import BeautifulSoup
with open('my_word_file.htm', 'r') as file:
    page = file.read()
soup = BeautifulSoup(page, 'lxml')

text_and_url = []
for link in soup.findAll('a'):
    text_and_url.append({'text':link.string, 'url':link.get('href')})

docx文件html的Foor转换：

how to convert .docx file to html using python?

编程相关推荐

html Java spring框架：应用程序上下文不会设置属性
java如何保持已通过电话登录的用户登录
基于LWJGL的二维矩形图像java旋转
java如何将这些图像图标调整到我的棋盘格？
java如何在play框架中禁用http端口？
使用spring4@Transactional时，java事务不起作用
java堆栈由编译器或OS/体系结构创建
用vbscript杀死Java进程
java如何使用ApacheSparkML和两列文本作为特性来训练逻辑回归？
Tomcat上的java ElasticSearch节点客户端无法读取请求数据

相关问题更多 >

编程相关推荐

热门问题

热门文章

python如何提取DOCX超链接的文本？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >