Python service-streamer包_程序模块 - PyPI

提升深度学习应用程序的web服务

service-streamer的Python项目详细描述

服务拖缆

提升您的深度学习应用程序的web服务。自述

什么是服务拖缆-" rel="nofollow">什么是服务拖缆？突出显示•。安装. 在5分钟内开发bert服务• api•。基准. 常见问题解答•

< H6>

•Shannani制造•：Globe_with_Meridians:http://www.shannani.com/

什么是业务拖缆？

小批量收集数据样本，通常用于深度学习模型。这样，模型就可以利用gpu的并行计算能力。然而，用户对web服务的请求通常是离散的。如果使用传统的循环服务器或线程服务器，gpu将空闲处理一次一个请求。当有并发用户请求时，延迟时间将线性增加。

Servicestreamer是一个用于机器学习应用程序的Web服务的中间件。用户的队列请求被抽样成小批量。ServiceStreamer可以通过提高GPU利用率显著提高系统的总体性能。

亮点

：孵化小鸡：易于使用：微小的改变可以使模型加速10倍。
：zap：快速处理速度：机器学习模型在线推理的低延迟。
：octopus:良好的可扩展性：易于应用于多GPU场景以处理大量请求。
：交叉剑：适用性：与任何web框架和/或深度学习框架一起使用。

安装

使用pip安装servicestream，需要python>；=3.5：

pip install service_streamer

在5分钟内开发BERT服务

我们提供一个循序渐进的教程，让您在5分钟内将bert联机。该服务每秒处理1400个句子。

文本填充是自然语言处理中的一项任务：给定一个随机删除多个单词的句子，该模型通过给定的上下文预测那些删除的单词。

bert在这两年中引起了广泛的关注，它在许多nlp任务中取得了最新的成果。伯特利用"蒙面语言模型（mlm）"作为训练前的目标之一。传销模型从输入中随机屏蔽一些令牌，其目的是基于上下文预测被屏蔽词的原始词汇id。传销与文字填充有相似之处。将bert引入文本填充任务是很自然的。

首先，我们定义了文本填充任务的模型。predict函数接受一批语句并返回[mask]标记的预测位置结果。

classTextInfillingModel(object):...batch=["twinkle twinkle [MASK] star.","Happy birthday to [MASK].",'the answer to life, the [MASK], and everything.']model=TextInfillingModel()outputs=model.predict(batch)print(outputs)# ['little', 'you', 'universe']

注意：请首先下载经过预培训的伯特模型。

其次，利用flask将预测接口打包到web服务。烧瓶示例.py

model=TextInfillingModel()@app.route("/naive",methods=["GET","POST"])defnaive_predict():ifrequest.method=="GET":inputs=request.args.getlist("s")else:inputs=request.form.getlist("s")outputs=model.predict(inputs)returnjsonify(outputs)app.run(port=5005)

请运行low">烧瓶示例.py，然后您将得到一个普通的Web服务器。

curl -X POST http://localhost:5005/naive -d 's=Happy birthday to [MASK].'["you"]

此时，web服务器每秒只能处理12个请求。有关详细信息，请参见基准。

第三，通过服务拖缆封装模型函数。三行代码使bert服务的预测速度达到每秒200多句（快16倍）。

fromservice_streamerimportThreadedStreamerstreamer=ThreadedStreamer(model.predict,batch_size=64,max_latency=0.1)@app.route("/stream",methods=["POST"])defstream_predict():inputs=request.form.getlist("s")outputs=streamer.predict(inputs)returnjsonify(outputs)app.run(port=5005,debug=False)

运行flask example.py并用wrk测试性能。

./wrk -t 2 -c 128 -d 20s --timeout=10s -s example/benchmark.lua http://127.0.0.1:5005/stream
...
Requests/sec:    200.31

最后，通过streamer封装模型，并在多个gpu上启动服务工作者。拖缆进一步加快推理速度，并达到每秒1000多句（快80倍）。

fromservice_streamerimportManagedModel,StreamerclassManagedBertModel(ManagedModel):definit_model(self):self.model=TextInfillingModel()defpredict(self,batch):returnself.model.predict(batch)streamer=Streamer(ManagedBertModel,batch_size=64,max_latency=0.1,worker_num=8,cuda_devices=(0,1,2,3))app.run(port=5005,debug=False)

可启动8个GPU工作程序，并在4个GPU上均匀分布。

API

快速启动

一般来说，通过使用并行计算，推理速度会更快。

outputs=model.predict(batch_inputs)

Servicestreamer是用于机器学习应用程序的Web服务的中间件。来自用户的队列请求被安排成小批量并转发到GPU工作进程。ServiceStreamer牺牲了一定的延迟（默认最大值为0.1s），并通过提高GPU利用率来提高整体性能。

fromservice_streamerimportThreadedStreamer# Encapsulate batch_predict function with Streamerstreamer=ThreadedStreamer(model.predict,batch_size=64,max_latency=0.1)# Replace model.predict with streamer.predictoutputs=streamer.predict(batch_inputs)

在多线程（或协调）上启动Web服务器。通过添加几行代码，您的服务器通常可以实现10倍的速度（批处理大小/批处理每个请求的速度）。

分布式GPU工作程序

在实际应用中，web服务器（qps）的性能远远高于gpu模型。我们还支持一个带有多个GPU工作进程的Web服务器。

pip install service_streamer

默认情况下，拖缆使用生成子进程运行GPU工作进程。拖缆使用进程间队列进行通信和排队。它可以将大量请求分发给多个工作人员进行处理。

然后将模型的预测结果分批返回到相应的web服务器。结果被转发到相应的http响应。

pip install service_streamer

上面的方法很容易定义，但是主进程初始化模型占用了额外的内存。模型只能在同一个gpu上运行。因此，我们提供了managedmodel类，以便在支持多个gpu的同时简化模型延迟初始化和迁移。

pip install service_streamer

分布式Web服务器

一些cpu密集型的计算，如图像和文本预处理，需要首先在web服务器中完成。然后，预处理的数据被转发到gpu worker中进行预测。在实践中，cpu资源常常成为性能瓶颈。因此，我们还提供了多个Web服务器匹配（单个或多个）GPU工作线程的模式。

使用redisstream为所有Web服务器和GPU工作程序指定唯一的redis地址。

pip install service_streamer

我们使用gunicorn或uwsgi来实现反向代理和负载平衡。

pip install service_streamer

每个请求将被负载均衡到每个Web服务器进行CPU预处理，然后均匀地分配到GPU Worker进行模型预测。

未来的API

如果您使用过任何并发库，您可能会熟悉future。如果您想将服务拖缆用于排队请求或分布式GPU计算，并且使用的场景不是Web服务，则可以直接使用未来的API。

pip install service_streamer

基准

我们利用wrk进行基准测试。

测试示例和脚本可以在示例中找到。

环境

GPU:Titan XP
CUDA:9.0
Pythorch:1.1

单GPU过程

多个GPU进程

通过与单个web服务器进程的比较，验证了多gpu工作进程的通信和负载平衡机制的性能损失。

我们采用gevent服务器是因为多线程flask服务器已经成为性能瓶颈。请参阅烧瓶/u multigpu example.py

pip install service_streamer

11.62211.02362.69365.80 n/a n/a488.40609.63 n/a n/a494.201034.57

线程拖缆由于python gil的限制，多个工作线程毫无意义。我们使用单个GPU工作人员进行比较研究。
拖缆性能改善在大于2 GPU工作线程时不是线性的。 CPU利用率达到100。此时瓶颈是CPU，烧瓶的性能问题是障碍。

利用未来的api启动多个gpu进程

为了降低web服务器的性能影响，我们采用了未来api在本地进行多gpu benchmemark测试。请参阅future-example.py中的代码示例 <表><广告>GPU工人数成批螺纹拖缆拖缆重新流媒体 < /广告><正文>422.883401.01399.26384.79 n/a n/a742.16714.781 n/a n/a1400.121356.47

可以看出，服务拖缆的性能几乎与gpu工作者的数量成线性关系。业务拖缆中进程间通信的效率比redis高。

`FAQ`

q:使用从allennlp培训的模型，设置allennlp的worker\u num=4，在推断过程中，16核CPU已满的原因是什么？速度比拖缆速度慢

a:对于多进程推理，如果模型进程数据使用多线程的numpy，可能会导致cpu开销，导致多核计算速度慢于单核。使用第三方库（如alenlp、spacy等）时可能会出现这种问题。可以通过设置numpy threads环境变量来解决此问题。

pip install service_streamer

8
确保在导入numpy之前放置环境变量
q:使用redisstreamer时，如果只有一个redis代理和多个模型，则输入批可能具有不同的结构。如何应对这种情况？
a:在初始化工作流和拖缆时指定前缀，每个拖缆将使用一个唯一的频道。
初始化工作者的示例：
pip install service_streamer 
9
使用拖缆产生结果的示例：
classTextInfillingModel(object):...batch=["twinkle twinkle [MASK] star.","Happy birthday to [MASK].",'the answer to life, the [MASK], and everything.']model=TextInfillingModel()outputs=model.predict(batch)print(outputs)# ['little', 'you', 'universe']0

                                标签：模型
服务器
web
应用程序
model
gpu
service
predict
拖缆
streamer
欢迎加入QQ群-->： 979659372
                                    
推荐PyPI第三方库
django-backupdb
Django中用于备份和还原数据库的管理命令。
ludolph
监视Jabber机器人
dxlvtapiclient
virustotal api dxl客户端库
django-polls
django的一个简单的投票应用程序
odoo10-addon-web-widget-slickroom
提供带暗室JS图像编辑的光滑旋转木马小部件
odoo11-addon-website-sale-secondary-unit
允许管理网站商店中的辅助单位
asyncorews
简单的基于异步的websocket服务器
nestl
nestly是一个函数集合，旨在使运行中的软件更容易选择参数。
tedana
多回波功能磁共振成像（fmri）数据的te依赖性分析（tedana）。
zops
要使用zappa部署的devops团队的实用程序
mdns
MDNS库
Trello2Kanboard
用于使用看板api从json文件导入trello项目的简单python包。
Webflowp
python webflow cms api客户端
sseclient-p
用于python的sse客户端
raspberrysystem
世界上最有趣的笑话

导 航 栏

                                            项目 描述
                                        

                                            版本历史
                                        

                                                下载文件
                                            
项目 链接
首页
                                    
标 签
许可证: BSD许可证（BSD 3条款）
作者信息:: 暂无
                                
                            
维护者

                                  meteorix
                                
最新PyPI项目
italian_vip_says
UFx
vofs
fake_item_generator
NerEva
django-monologue
fio_product_attribute_strict
climailsystem
pyshape
tbb-devel
npy-append-arra
anthill.tal.macrorenderer
odoo11-addon-stock-a
uuuu
contextil
fyl_nester
appomatic_renderable
teacher
chuletas
slackbot_ce
最新Python常见问题
我是否正确构建了这个递归神经网络
我是否正确理解acquire和realease是如何在python库“线程化”中工作的
我是否正确理解Keras中的批次大小？
我是否正确理解PyTorch的加法和乘法？
我是否正确组织了我的Django应用程序？
我是否正确计算执行时间？如果是这样，那么并行处理将花费更长的时间。这看起来很奇怪
我是否每次创建新项目时都必须在PyCharm中安装numpy？（安装而不是导入）
我是否每次运行jupyter笔记本时都必须重新启动内核？
我是否用python安装了socks模块？
我是否真的需要知道超过一种语言，如果我想要制作网页应用程序？
我是否缺少spaCy柠檬化中的预处理功能？
我是否缺少给定状态下操作的检查？
我是否能够使用函数“count（）”来查找密码中大写字母的数量(（Python）
我是否能够使用用户输入作为colorama模块中的颜色？
我是否能够创建一个能够添加新Django.contrib.auth公司没有登录到管理面板的用户？

service-streamer 0.1.1

service-streamer的Python项目详细描述

服务拖缆

什么是业务拖缆？

亮点

安装

在5分钟内开发BERT服务

API

快速启动

未来的API

基准

基准

环境

单GPU过程

多个GPU进程

利用未来的api启动多个gpu进程

`FAQ`

推荐PyPI第三方库

django-backupdb

ludolph

dxlvtapiclient

django-polls

odoo10-addon-web-widget-slickroom

odoo11-addon-website-sale-secondary-unit

asyncorews

nestl

tedana

zops

mdns

Trello2Kanboard

Webflowp

sseclient-p

raspberrysystem

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

service-streamer 0.1.1

service-streamer的Python项目详细描述

服务拖缆

什么是业务拖缆？

亮点

安装

在5分钟内开发BERT服务

API

快速启动

未来的API

基准

基准

环境

单GPU过程

多个GPU进程

利用未来的api启动多个gpu进程

FAQ

推荐PyPI第三方库

django-backupdb

ludolph

dxlvtapiclient

django-polls

odoo10-addon-web-widget-slickroom

odoo11-addon-website-sale-secondary-unit

asyncorews

nestl

tedana

zops

mdns

Trello2Kanboard

Webflowp

sseclient-p

raspberrysystem

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

`FAQ`

导航栏

项目链接

标签