我试图从这类pages中搜集信息。你知道吗
我需要包含在Internship
、Residency
、Fellowship
下的信息。我可以从表中提取值,但在本例中,我无法决定使用哪个表,因为标题(如Internship
)以简单的纯文本形式出现在表外的div
标记下,然后出现需要提取其值的表。我有很多这样的页面,没有必要每个页面都有这些值,比如在一些页面Residency
可能根本不存在。(这将减少页面中表的总数)。这种页面的一个例子是this。在这个页面中Internship
根本不存在。你知道吗
我面临的主要问题是所有的表都有相同的属性值,所以我无法决定在不同的页面中使用哪个表。如果页面中没有我感兴趣的任何值,我必须为该值返回一个空字符串。你知道吗
我在Python中使用BeautifulSoup。有人能指出,我怎样才能继续提取这些值。你知道吗
看起来标题和数据的id都有唯一的值和标准后缀。您可以使用它来搜索适当的值。以下是我的解决方案:
相关问题 更多 >
编程相关推荐