python中特定词典的文本处理与检测

2024-05-26 11:08:57 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个英文文本,我想处理它来检测Python中另一个字典中的特定条目(示例条目:质谱)。这些条目非常重要,因为它们需要为以后的注释进行匹配。为了做到这一点,我需要添加许多形式的每个条目(如复数,缩写词等)或找到一种方法来做智能处理。这种野蛮的方法不仅要花费更多的时间(对我来说),而且我可能无法解决所有的问题(我想要质谱,可能是光谱学,但不是质谱)。我不是在寻找解决方案,我只是需要如何处理问题和使用哪个工具箱的指导。这本词典正在不断发展,最好采用智能方法。你知道吗

我在Python中找到了NLTK,但是我不知道如何使用dict来替代内置的语料库。你知道吗

我有一句话: 【u‘液体’,u‘活检’,u‘基础’,u‘基础’,u‘循环’,u‘无细胞’,u‘DNA’,u’(cfDNA)”,u‘分析’,u‘是’,u‘描述’,u‘作为’,u‘替代品’,u‘样品’,u‘用于’,u‘分子’,u‘分析’。】 我有一个带有{‘液体活检’:[‘分析用血'],‘cfDNA':[‘分析用血']}的dict。数组是故意使用的,所以它们都是同一个对象,因此试图在dict中创建别名

如何将我的条目与文本匹配?你知道吗

提前谢谢!你知道吗


Tags: 方法文本示例字典智能时间条目基础
1条回答
网友
1楼 · 发布于 2024-05-26 11:08:57

如果我没有误解你的意思,你应该把字典里的条目和清单上的条目核对一下。然后将结果打印到控制台。你知道吗

dict_1={"Liquid Biopsy":"Blood for analysis","cfDNA":"Blood for analysis","Liquid Biopsies":"Blood for analysis"}
list_1=[u'Liquid', u'biopsies', u'based', u'on', u'circulating', u'cell-free', u'DNA', u'(cfDNA)', u'analysis', u'are', u'described', u'as', u'surrogate', u'samples', u'for', u'molecular', u'analysis.']
string_1=" ".join(list_1).lower()
for i in dict_1:
    if i.lower() in string_1:
        print("Key: {}\nValue: {}\n".format(i,dict_1[i]))

我用上面的代码和控制台打印了下面的结果。你知道吗

Key: Liquid Biopsies
Value: Blood for analysis

Key: cfDNA
Value: Blood for analysis


Process finished with exit code 0

相关问题 更多 >