在Python中索引CSV文件内容
我有一个非常大的CSV文件,里面只有两个字段(id和url)。我想用Python对url字段进行一些索引操作。我知道有一些工具,比如Whoosh或者Pylucene,但我试了很多例子都没能成功。有没有人能帮我一下?
2 个回答
0
file.csv 的内容:
a,b
d,f
g,h
下面是一个 Python 脚本,它会把所有内容加载到一个超级大的字典里:
#Python 3.1
giant_dict = {id.strip(): url.strip() for id, url in (line.split(',') for line in open('file.csv', 'r'))}
print(giant_dict)
{'a': 'b', 'd': 'f', 'g': 'h'}
1
PyLucene使用起来非常简单,不过因为你没有提供具体的例子,所以我不太清楚你遇到了什么问题。
另外,如果你只有键值对类型的数据,可能比起PyLucene,使用像Berkeley DB这样的数据库会更好(Python的接口可以参考pybsddb)。它的工作方式就像Python字典一样,速度应该和Lucene差不多,你可以试试看。