我试图在pandas dataframe中保存一个陈词滥调的列表,并希望在文本文件中运行它并找到extact匹配项。有可能使用spaCy吗?在
熊猫标本清单。在
Abandon ship
About face
Above board
All ears
例句。在
^{pr2}$预期产量:
abandon ship
all ears
它必须考虑列表和句子之间的大小写敏感度。在
目前我正在使用这种方法来实现单字匹配。在
Column compare and return values
pd.DataFrame([np.intersect1d(x,df1.WORD.values) for x in df2.values.T],index=df2.columns).T
您正在寻找Spacy的matcher,您可以阅读关于here的更多信息。它可以为您找到任意长/复杂的令牌序列,并且您可以轻松地将其并行化(参见pipe()的matcher文档)。它默认返回文本中匹配项的位置,尽管您可以使用找到的标记执行任何操作,还可以添加一个
on_match
回调函数。在也就是说,我认为你的用例相当简单。我已经包括了一个例子,让你开始。在
只需确保您有Spacy(2.0.0+)的最新版本,因为matcher API最近发生了更改。在
相关问题 更多 >
编程相关推荐