使用Python从文本文件中提取单词

2024-04-25 22:00:46 发布

您现在位置:Python中文网/ 问答频道 /正文

对整个Python来说还是个新手。我想做的是:

Extracting words from txt file using python

有点像这样,但是我需要从某个单词后面的双引号中去掉单词,而不是去掉单引号之间的单词。在

现在,我有脚本抓取一个网站和保存HTML。效果很好。没问题。 然后我有了beauthulsoup整理HTML并搜索页面中所有我需要的数据所在的表。 下面是一个表格行的示例:

<td style="background-color:red;w ...blahblahblah... margin:0px;background:none" title="Bland NB" type="button" value="TRX"/>

beauthulsoup将所有HTML安排为每行一个表行(如果这有意义的话),我使用regex进行搜索,只提取具有“background”的表行-颜色:红色“在他们身上,因为红色的是我唯一关心的标题。我只需要脚本逐行检查(上面有大约350行,但是标题不同),去掉'title='后面引号中的内容,然后将所有内容保存到一个文本文件one“title=”entry per line,如果你知道我的意思。。。在

我想美赞臣也许能做到。我一直在努力处理分区和剥离函数,但不能让它们做我想让它们做的事情。我也认为我可以使用正则表达式来实现这一点,但这本身就是一个可以操作的蠕虫。在

我离得太近了!非常感谢任何帮助!!在

谢谢!!在

编辑

我不能发布更多的代码,因为它包含公司IP和信息,我不能在野外发布。对不起的。在

——布伦特


Tags: fromtxt脚本标题内容titlehtml单词
1条回答
网友
1楼 · 发布于 2024-04-25 22:00:46
html = """
<td style="background-color:red;w ...blahblahblah... margin:0px;background:none" title="Bland NB" type="button" value="TRX"/>
"""

from bs4 import BeautifulSoup
soup = BeautifulSoup(html)

if "background-color:red" in td.get("style"):
    print soup.td.get("title")
    Bland NB

综合起来:

^{pr2}$

相关问题 更多 >