擅长:python、mysql、java
<p>如果您能够识别实际包含日期信息的段,那么使用<a href="https://pypi.python.org/pypi/parsedatetime" rel="noreferrer">parsedatetime</a>可以非常简单地解析它们。有几件事要考虑,即你的日期没有年,你应该选择一个地点。</p>
<pre><code>>>> import parsedatetime
>>> p = parsedatetime.Calendar()
>>> p.parse("December 15th")
((2013, 12, 15, 0, 13, 30, 4, 319, 0), 1)
>>> p.parse("9/18 11:59 pm")
((2014, 9, 18, 23, 59, 0, 4, 319, 0), 3)
>>> # It chooses 2014 since that's the *next* occurence of 9/18
</code></pre>
<p>当你有无关的文本时,它并不总是完美地工作。</p>
<pre><code>>>> p.parse("9/19 LAB: Serial encoding")
((2014, 9, 19, 0, 15, 30, 4, 319, 0), 1)
>>> p.parse("9/19 LAB: Serial encoding (Section 2.2)")
((2014, 2, 2, 0, 15, 32, 4, 319, 0), 1)
</code></pre>
<p>老实说,这似乎是一个很简单的问题,可以为特定格式进行解析,并从每个句子中选出最有可能的一个。除此之外,这将是一个不错的机器学习问题。</p>