如何同时处理多个http请求

#27
by 007hao - opened

我使用llama-server 启动的服务,--threads-http设置成10,从不同终端请求的时候发现只能将上一个请求处理完后才能处理下一个请求,如何才能同时处理不同的http请求?

首先,你的gpu 要处理得过来

安装一个 nvtop, 看下 gpu load,r1 的模型对 gpu load 要求很多

我用nvidia-smi查看过GPU的使用情况 ,推理的时候只用了GPU很少的资源,但是内存基本是满的,我这有8张24G的4090

num_gpu参数设置offload到GPU的层数,否则都在用CPU推理

Sign up or log in to comment