from bs4 import BeautifulSoup as bs
soup = bs(open(r"C:\Users\eesam\OneDrive\Documents\Eesa\Paper.doc", encoding="ISO-8859-1").read())
[s.extract() for s in soup(['style', 'script'])]
tmpText = soup.get_text()
text = "".join("".join(tmpText.split('\t')).split('\n')).strip()
print(text)
一种方法是使用Python的win32com模块。win32可以通过pip命令
pip install pywin32
下载。这可以读取.doc文档并返回文本。试试这个:另一种方法是使用BeautifulSoup,但这种方法可能会有点问题:
相关问题 更多 >
编程相关推荐