我的hy工具箱
anarcute的Python项目详细描述
我的动态编程工具箱
#待记录 #tf id
从无环导入*
导入请求,json
sentence=“多吃薯条,喝可乐”
alice=requests.get(“https://gist.githubusercontent.com/phillipj/4944029/raw/75ba2243dd5ec2875f629bf5d79f6c1e4b5a8b46/alice_in_wonderland.txt”).text
打印(tf_idf(sentence,alice))
>;gt;{吃':168.7962962962963,'更多':62.006802721088443,'的':5.9111543450064845,'那些':303.8333333333333,'法语':759.5833333333333,'和':3.4843272171253816,'饮料':434.047619047619}
#如果文本太大,它的频率可以预先缓存。
filename=“alice.json”
矢量=矢量化(爱丽丝)
打开(文件名,“w+”).write(json.dumps(vector))
vector=json.load(打开(文件名,“r+”)
打印(tf-idf(句子,向量))
>;gt;{“吃”:168.7962962962902,“更多”:62.00680272108618,“of”:5.91115434500627,“那些”:303.8333333333223,“法语”:759.5833333333056,“和”:3.484327217125255,“喝”:434.0476190476033}
#我们可以按值排序
打印(按值排序(tf-idf(句子,向量))
>;{“法语”:759.5833333332979,“饮料”:434.04761904759886,“那些”:303.8333333333192,“吃”:168.7962962962885,“更多”:62.00680272108556,“of”:5.911154345006209,“and”:3.4843272171252204}