从新闻文章中抓取日期

-1 投票
0 回答
29 浏览
提问于 2025-04-12 02:40

我需要一些想法来解决这个问题。问题是我有一份网址列表,里面全是新闻文章。我需要抓取这些新闻文章的发布时间。但是,只有少数文章在HTML中有日期标签,绝大多数文章的日期写在不同的标签里。现在我找不到一个通用的方法来从所有网址中提取日期,因为它们的日期都写在不同的标签里。以下是一些文章的发布时间示例:

<div style="vertical-align: bottom; float:left; width:45%;">
  <b>As on: June 19, 2023 </b>
  <br><br><br>
</div>
<ul>
  <li>Updated Mar 14, 2024, 7:25 AM IST</li>
</ul>

我该如何识别这些日期呢?

一个解决方案是使用正则表达式来获取日期,但这样会把文章中写的日期也抓取到。这样就无法区分发布时间和文章中随便写的日期了。

0 个回答

暂无回答

撰写回答