使用Python从文本文件中提取单词

2024-04-25 22:00:46 发布

您现在位置：Python中文网/ 问答频道 /正文

6797

网友

男 | 程序猿一只，喜欢编程写python代码。

对整个Python来说还是个新手。我想做的是：

Extracting words from txt file using python

有点像这样，但是我需要从某个单词后面的双引号中去掉单词，而不是去掉单引号之间的单词。在

现在，我有脚本抓取一个网站和保存HTML。效果很好。没问题。然后我有了beauthulsoup整理HTML并搜索页面中所有我需要的数据所在的表。下面是一个表格行的示例：

<td style="background-color:red;w ...blahblahblah... margin:0px;background:none" title="Bland NB" type="button" value="TRX"/>

beauthulsoup将所有HTML安排为每行一个表行（如果这有意义的话），我使用regex进行搜索，只提取具有“background”的表行-颜色：红色“在他们身上，因为红色的是我唯一关心的标题。我只需要脚本逐行检查（上面有大约350行，但是标题不同），去掉'title='后面引号中的内容，然后将所有内容保存到一个文本文件one“title=”entry per line，如果你知道我的意思。。。在

我想美赞臣也许能做到。我一直在努力处理分区和剥离函数，但不能让它们做我想让它们做的事情。我也认为我可以使用正则表达式来实现这一点，但这本身就是一个可以操作的蠕虫。在

我离得太近了！非常感谢任何帮助！！在

谢谢！！在

编辑

我不能发布更多的代码，因为它包含公司IP和信息，我不能在野外发布。对不起的。在

——布伦特

Tags： from txt 脚本标题内容 title html 单词

1条回答

网友

1楼 · 发布于 2024-04-25 22:00:46

html = """
<td style="background-color:red;w ...blahblahblah... margin:0px;background:none" title="Bland NB" type="button" value="TRX"/>
"""

from bs4 import BeautifulSoup
soup = BeautifulSoup(html)

if "background-color:red" in td.get("style"):
    print soup.td.get("title")
    Bland NB

综合起来：

^{pr2}$

使用Python从文本文件中提取单词

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用Python从文本文件中提取单词

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >