专栏名称: AI科技大本营

迎来到AI科技大本营。这里汇集了优秀的AI学习者，技术大咖和产业领袖；提供接地气的实战课程。在这里和优秀的人一起成长。

五分钟搭建BERT服务，实现1000+QPS，这个Service-Streamer做到了

AI科技大本营 · 公众号 · AI · 2019-08-06 18:20

正文

作者 | 刘欣

简介：刘欣，Meteorix，毕业于华中科技大学，前网易游戏技术总监，现任香侬科技算法架构负责人。之前专注游戏引擎工具架构和自动化领域，2018年在GDC和GoogleIO开源Airtest自动化框架，广泛应用于Unity3d/Cocos2dx游戏和网易、暴雪、SE等公司。目前负责香侬NLP领域工程化、算法平台架构。

深度学习模型在训练和测试时，通常使用小批量(mini-batch)的方式将样本组装在一起，这样能充分利用GPU的并行计算特性，加快运算速度。

但在将使用了深度学习模型的服务部署上线时，由于用户请求通常是离散和单次的，若采取传统的循环服务器或多线程服务器，在短时间内有大量请求时，会造成GPU计算资源闲置，用户等待时间线性变长。

基于此，我们开发了service-streamer，它是一个中间件，将服务请求排队组成一个完整的batch，再送进GPU运算。这样可以牺牲最小的时延（默认最大0.1s），提升整体性能，极大优化GPU利用率。

功能特色

简单易用: 只需添加两三行代码即可让模型服务提速上数十倍。
处理高速: 高QPS、低延迟，专门针对速度做了优化，见基准测试。
扩展性好: 可轻松扩展到多GPU场景，处理大量请求，见分布式。
适用性强: 中间件，适用于所有深度学习框架和web框架。

安装步 骤

可通过 pip 安装，要求 Python>=3.5 :

pip install service_streamer

五分钟搭建 BERT 服务

为了演示API使用方法，service-streamer提供了一个完整的教程和示例代码。如何在五分钟搭建起基于BERT模型的完形填空服务， 每秒处理 1000+ 请求。

GitHub链接： https://github.com/ShannonAI/service-streamer

1、首先我们定义一个完型填空模型（bert_model.py），其predict方法接受批量的句子，并给出每个句子中[MASK]位置的预测结果。

class TextInfillingMode l ( object );

...

batch=［ "twinkletwinkle [MASK] star",

"Happy birthday to [MASK]",

'the answer to life, the [MASK], andeverything' ]

model=TextaInfillingModel()

outputs=model.predict(batch)

print (outputs)

#['little', 'you', 'universe' ]

2、然后使用Flask将模型封装成web服务flask_example.py。这时候你的web服务每秒钟只能完成12句请求。

model=TextInfillingModel()

@app.route( "/naive", methods=[ "POST" ])

def naive_predict ( ):

inputs =request.form.getlist( "s" )

outputs =model.predict(inputs)

return jsonify(outputs)

app.run(port= 5005 )

3、下面我们通过service_streamer封装你的模型函数，三行代码使BERT服务的预测速度达到每秒200+句(16倍QPS)。

from service_streamer import ThreadStreamer

streamer=ThreadedStreamer (model.predict,batch_size= 64 , max_latency= 0.1 )

@app.route( "/stream" , methods=[ "POST" ])

def stream_predict ( ):

inputs =request.form.getlist( "s" )

outputs= streamer.predict(inputs)

return isonify(outputs)

app.run(port= 5005 ,debug=False)

4、最后，我们利用Streamer封装模型，启动多个GPU worker，充分利用多卡性能实现每秒1000+句(80倍QPS)。

import multiprocessing

from service_streamer import ManagedModel, Streamer

multiprocessing.set_start_method( "spawn" , force= True )

class ManagedBertModel (ManagedModel):

def init_model ( self ):

self. model = TextInfillingModel( )

def predict ( self , batch):

return self .model.predict(batch)

streamer =Streamer(ManageBertModel, batch_size= 64 , max_latency= 0.1 ,

worker_num = 8 , cuda_devices=( 0,1,2,3 ))

app.run(port= 5005 ,debug= False )

运行flask_multigpu_example.py这样即可启动8个GPUworker，平均分配在4张卡上。

更多指南

除了上面的5分钟教程，service-streamer还提供了：

分布式API使用方法，可以配合gunicorn实现web server和gpuworker的分布式；
异步FutureAPI，在本地高频小batch调用的情形下如何利用service-streamer加速；
性能Benchmark，利用wrk进行单卡和多卡的性能测试数据。

API 介绍

快速入 门

通常深度学习的inference按batch输入会比较快。

outputs= model.predict(batch_inputs)

用service_streamer中间件封装predict函数，将request排队成一个完整的batch，再送进GPU。牺牲一定的时延（默认最大0.1s），提升整体性能，极大提高GPU利用率。

from service_streamer im port ThreadedStreamer

# 用 Streamer 封装 batch_predict 函数

streamer= ThreadedStreamer(model.predict, batch_size=64, max_latency=0.1)

# 用 Streamer 封装 batch_predict 函数

outputs= streamer.predict(batch_inouts)

然后你的web server需要开启多线程（或协程）即可。

短短几行代码，通常可以实现数十（ batch_size/batch_per_request ）倍的加速。

分布式 GPU worker

上面的例子是在web server进程中，开启子线程作为GPUworker进行 batch predict，用线程间队列进行通信和排队。

实际项目中web server的性能（QPS）远高于GPU模型的性能，所以我们支持一个web server搭配多个GPUworker进程。

import multiprocessing ;

multiprocessing.set_start_method(" spawn ",force= True )

from service_streamer import Streamer

#spawn 出 4 个 gpu worker 进程

streamer= Streamer（model.predict, 64 , 0.1 ,worker_num= 4 ）

outputs= streamer.redict(batch)

Streamer默认采用spawn子进程运行gpuworker，利用进程间队列进行通信和排队，将大量的请求分配到多个worker中处理，再将模型batch predict的结果传回到对应的web server，并且返回到对应的http response。

上面这种方式定义简单，但是主进程初始化模型，多占了一份显存，并且模型只能运行在同一块GPU上，所以我们提供了ManageModel类，方便模型lazy初始化和迁移，以支持多GPU。

from service_streamer import ManagedModel

class ManagedBertModel (ManagedModel):

def init_model ( self ):

self. model = Model( )

def predict ( self , batch):

return self .model.predict(batch)

# spawn 出 4 个 gpu worker 进程，平均分数在 0/1/2/3 号 GPU 上

streamer=Streamer(ManagedBertModel, 64 , 0.1 ,worker_num= 4 ,cuda_devices=( 0 , 1 , 2 , 3 ))

outputs = streamer.predict(batch)

分布式web server

有时候，你的web server中需要进行一些CPU密集型计算，比如图像、文本预处理，再分配到GPU worker进入模型。 CPU资源往往会成为性能瓶颈，于是我们也提供了多web server搭配（单个或多个）GPU worker的模式。

使用跟任意RedisStreamer指定所有web server 和GPU worke的模式。

# 默认参数可以省略，使用 localhost:6379

streamer = RedisStreamer

(redis_broker= "172.22.22.22:6379" )

然后跟任意python web server的部署一样，用gunicorn或uwsgi实现反向代理和负载均衡。

cd example

gunicorn -c redis_streamer_gunicorn.py flask_example:app

这样每个请求会负载均衡到每个web server中进行CPU预处理，然后均匀的分布到GPU worke中进行模型predict。

Future API

如果你使用过任意concurrent库，应该对future不陌生。当你的使用场景不是web service，又想使用service_streamer进行排队或者分布式GPU计算，可以直接使用Future API。

from service_streamer import ThreadedStreamer

streamer = ThreadedStreamer(model.predict , 64 , 0.1 )

xs ={}

for i in range ( 200 ):

future =streamer.submit(["Happy birthday to [MASK]",

"Today is my lucky [MASK]"])

xs.append(future)

# 先拿到所有 future 对象，再等待异步返回

for future in xs:

outputs = future.result()

print (outputs)

基准测试

如何做基准测试

我们使用wrk来使做基准测试。

环境

GPU : Titan Xp
cuda : 9.0
python : 1.1

单个GPU进程

五分钟搭建BERT服务，实现1000+QPS​，这个Service-Streamer做到了

正文

请到「今天看啥」查看全文

五分钟搭建BERT服务，实现1000+QPS，这个Service-Streamer做到了