我正在建立一个依赖机器学习算法输出的网站。站点面向用户的部分只需要算法的输出(一组项的类标签),可以很容易地从django
模型中存储和检索。该算法可以每天运行一次,不依赖用户输入。在
所以站点的这一部分只依赖于django
和相关的包。在
但是,开发、调优和评估该算法需要使用许多其他python包,如scikit-learn
、pandas
、numpy
、matplotlib
等,它还需要保存许多不同的类标签集。在
当部署到heroku
时,这些依赖关系会导致一些问题,因为numpy
需要{
如何将机器学习部分与面向用户的部分分开,但是,仍然要使它们足够集成,以便算法的结果易于使用?在
我想创建两个独立的项目,然后以某种方式写入面向用户的数据库,但这似乎会导致维护问题(管理依赖关系、更改数据库模式等)。在
据我所知,这个问题与使用不同的设置或数据库进行生产和开发有点不同,因为它更多的是关于管理不同的依赖集。在
把我们讨论过的问题移到答案上来,以防人们有同样的问题,我的建议是:
花点时间定义站点和算法代码的依赖关系。
将每个项目的依赖项列表转储到
requirements.txt
。将它们部署到不同的环境中,这样就不会发生冲突。
使用Django Rest Framework或{a2}在站点端开发一些API端点,并让算法代码使用API更新模型。使用
cron
定期运行算法代码并推送数据。为每个环境创建一个需求文件,并为所有环境共享的那些包创建一个基本需求文件。在
然后调整开发和生产依赖关系,并在适当的环境中安装每个依赖项
^{pr2}$相关问题 更多 >
编程相关推荐