开源模型应用落地-知识巩固-如何正确搭建生产级AI服务（一）

2024-06-05 20:26:01
开发
29

一、前言

将大语言模型集成至vllm，能够显著实现推理加速，让模型在处理任务时更加高效快捷，极大地提升了响应速度，减少用户等待时间。具体而言，一方面它能大幅提高吞吐量，vLLM 借助 PagedAttention巧妙地对attention中缓存的张量进行高效管理，从而达成比 HuggingFace Transformers 高出14 至 24 倍的惊人吞吐量；另一方面，还可以基于此构建与OpenAI-API 高度兼容的 API 服务，使得开发者能够以完全相同的方式和方法去便捷地调用语言模型功能，无需进行繁琐的调整和适配。

与此同时，当与 gunicorn 集成时，可以进一步实现 AI 服务在性能方面的优化提升；与 supervisor 集成则能够显著提升 AI 服务的稳定性，确保其在各种复杂情况下都能持续、可靠地运行，为用户提供稳定且优质的服务体验。

关键词：vLLM、qwen1.5-7b-chat、gunicorn、supervisor

二、术语介绍

2.1. vLLM

vLLM是一个开源的大模型推理加速框架，通过PagedAttention高效地管理attention中缓存的张量，实现了比HuggingFace Trans

原文地址:https://blog.csdn.net/qq839019311/article/details/139350021 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1798330433436520448.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

开源模型应用落地-知识巩固-如何正确搭建生产级AI服务（一）

一、前言

二、术语介绍

2.1. vLLM

相关推荐

最近更新

热门阅读