如何使scikitlearn近邻算法运行得更快？

from sklearn.neighbors import NearestNeighbors #Code for recommendation system def recommendhts(x,model,train): distance,index=model.kneighbors(x.toarray(),n_neighbors=1) mi=distance.argmax() idx=index[mi][0] return(train.iloc[idx]['sHTS'],distance[0][0]) #Training the model of training set train=pd.read_csv('train0207190144.csv') vectorizer = CountVectorizer() X = vectorizer.fit_transform(train['keywords']) x=X.toarray() df=pd.DataFrame(x,columns=vectorizer.get_feature_names()) model=NearestNeighbors(metric='correlation',n_neighbors=1) model.fit(df) vect=vectorizer.fit(train['keywords']) #Fitting the Count vectoriser on keywords(product description to be queried) x_new=vect.transform(product['keywords']) for i in range(len(product)): key=x_new[i] output,probability=recommendhts(key,model,train)

1条回答

网友

1楼 · 发布于 2024-04-18 12:09:50

首先，您肯定需要分析您的代码。我建议对profiling your script使用IPython/Jupyter中的%prunmagic命令。你知道吗

还有几件事要尝试

设置“n\u jobs”参数，以便在进行预测时允许并行性。你知道吗

# setting n_jobs=2 will use 2 cores; setting n_jobs=-1 will use all cores
model=NearestNeighbors(metric='correlation',n_neighbors=1, n_jobs=2)

我不清楚重新拟合vectorizer是必要的。你知道吗
```
vect=vectorizer.fit(train['keywords'])  # can be removed?
```

最后，您应该能够对预测进行矢量化并替换for循环，但这需要重构您的推荐系统，如果没有更多信息，我将无能为力。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章