<p>我有一个特定单词的列表(“标记”),需要在纯文本中找到所有这些单词(如果有)。我更喜欢使用Pandas来加载文本并执行搜索。我使用pandas作为我的短文本集合的时间戳,它是相当容易组织这些短文本在一个单一的数据结构熊猫。在</p>
<p><strong>例如:</strong></p>
<p>考虑一下在Pandas中上传的一组twitter:</p>
<pre><code> twitts
0 today is a great day for BWM
1 prices of german cars increased
2 Japan introduced a new model of Toyota
3 German car makers, such as BMW, Audi and VW mo...
</code></pre>
<p>以及一份汽车制造商名单:</p>
^{pr2}$
<p>理想情况下,我需要获得以下数据帧:</p>
<pre><code> twitts cars_mentioned
0 today is a great day for BMW [BMW]
1 prices of german cars increased []
2 Japan introduced a new model of Toyota [Toyota]
3 German car makers, such as BMW, Audi and VW mo... [BMW, Audi, VW]
</code></pre>
<p>我对NLP和文本挖掘方法非常陌生,我在互联网上阅读/搜索了很多关于这个主题的材料。我的猜测是我可以使用<code>regex</code>和<code>re.findall()</code>,但是我需要遍历整个数据帧的令牌(汽车制造商)列表。在</p>
<p>有没有更简洁的方法来完成这个简单的任务,尤其是使用panad?在</p>