accelerate 分布式技巧实战--部署ChatGLM-6B（三）

发呆的比目鱼

发布时间 2023.12.25阅读数 648 评论数 0

accelerate 分布式技巧实战–部署ChatGLM-6B（三）
基础环境

torch==2.0.0+cu118
transformers==4.28.1
accelerate==0.18.0
Tesla T4 15.3G
内存：11.8G

下载相关文件：

git clone https://github.com/THUDM/ChatGLM-6B
cd ChatGLM-6B

git clone --depth=1 https://huggingface.co/THUDM/chatglm-6b THUDM/chatglm-6b
git clone --depth=1 https://huggingface.co/THUDM/chatglm-6b-int4 THUDM/chatglm-6b-int4

pip install -r requirements.txt
pip install gradio
pip install accelerate

正常情况下，我们使用Chat-GLM需要的显存大于13G，内存没有评估过，但上述的肯定是不够的，16G应该可以。

方案一:量化模型

from accelerate import infer_auto_device_map, init_empty_weights, load_checkpoint_and_dispatch
from transformers import AutoConfig, AutoModel, AutoModelForCausalLM, AutoTokenizer
import gradio as gr
import torch
import time

tokenizer = AutoTokenizer.from_pretrained("./THUDM/chatglm-6b-int4", trust_remote_code=True)
model = AutoModel.from_pretrained("./THUDM/chatglm-6b-int4", trust_remote_code=True).half().cuda()

model = model.eval()

def predict(input, history=None):
    print(f'predict started: {time.time()}');
    if history is None:
        history = []
    response, history = model.chat(tokenizer, input, history)
    return response, history

while True:
  text = input(">>用户：")
  response, history = model.chat(tokenizer, input, history)
  print(">>CHatGLM：", response)

GPU使用4.9G，内存使用5.5G。

方案二:一块GPU

from accelerate import infer_auto_device_map, init_empty_weights, load_checkpoint_and_dispatch
from transformers import AutoConfig, AutoModel, AutoModelForCausalLM, AutoTokenizer
import gradio as gr
import torch
import time


tokenizer = AutoTokenizer.from_pretrained("./THUDM/chatglm-6b", trust_remote_code=True)
config = AutoConfig.from_pretrained("./THUDM/chatglm-6b", trust_remote_code=True)
with init_empty_weights():
  model = AutoModel.from_config(config, trust_remote_code=True)

for name, _ in model.named_parameters():
  print(name)
# device_map = infer_auto_device_map(model, no_split_module_classes=["GLMBlock"])
# print(device_map)
device_map = {'transformer.word_embeddings': 0, 'transformer.layers.0': 0, 'transformer.layers.1': 0, 'transformer.layers.2': 0, 'transformer.layers.3': 0, 'transformer.layers.4': 0, 'transformer.layers.5': 0, 'transformer.layers.6': 0, 'transformer.layers.7': 0, 'transformer.layers.8': 0, 'transformer.layers.9': 0, 'transformer.layers.10': 0, 'transformer.layers.11': 0, 'transformer.layers.12': 0, 'transformer.layers.13': 0, 'transformer.layers.14': 0, 'transformer.layers.15': 0, 'transformer.layers.16': 0, 'transformer.layers.17': 0, 'transformer.layers.18': 0, 'transformer.layers.19': 0, 'transformer.layers.20': 0, 'transformer.layers.21': 'cpu', 'transformer.layers.22': 'cpu', 'transformer.layers.23': 'cpu', 'transformer.layers.24': 'cpu', 'transformer.layers.25': 'cpu', 'transformer.layers.26': 'cpu', 'transformer.layers.27': 'cpu', 'transformer.final_layernorm': 'cpu', 'lm_head': 'cpu'}
model = load_checkpoint_and_dispatch(model, "./THUDM/chatglm-6b", device_map=device_map, offload_folder="offload", offload_state_dict=True, no_split_module_classes=["GLMBlock"]).half()

def predict(input, history=None):
    print(f'predict started: {time.time()}');
    if history is None:
        history = []
    response, history = model.chat(tokenizer, input, history)
    return response, history

while True:
  history = None
  text = input(">>用户：")
  response, history = model.chat(tokenizer, text, history)
  print(">>CHatGLM：", response)

GPU使用9.7G，内存使用5.9G。第一轮输入你好后GPU使用11.2G。

方案三:accelerate，多块GPU

import os
os.environ["cuda_visible_devices"] = "0,1"

from accelerate import infer_auto_device_map, init_empty_weights, load_checkpoint_and_dispatch
from transformers import AutoConfig, AutoModel, AutoModelForCausalLM, AutoTokenizer
# import gradio as gr
# import torch
import time


tokenizer = AutoTokenizer.from_pretrained(".\\chatglm-6b\\", trust_remote_code=True)
config = AutoConfig.from_pretrained(".\\chatglm-6b\\", trust_remote_code=True)
with init_empty_weights():
  model = AutoModel.from_config(config, trust_remote_code=True)

for name, _ in model.named_parameters():
  print(name)
# device_map = infer_auto_device_map(model, no_split_module_classes=["GLMBlock"])
# print(device_map)
# device_map = {'transformer.word_embeddings': 0, 'transformer.layers.0': 0, 'transformer.layers.1': 0, 'transformer.layers.2': 0, 'transformer.layers.3': 0, 'transformer.layers.4': 0, 'transformer.layers.5': 0, 'transformer.layers.6': 0, 'transformer.layers.7': 0, 'transformer.layers.8': 0, 'transformer.layers.9': 0, 'transformer.layers.10': 0, 'transformer.layers.11': 0, 'transformer.layers.12': 0, 'transformer.layers.13': 0, 'transformer.layers.14': 0, 'transformer.layers.15': 0, 'transformer.layers.16': 0, 'transformer.layers.17': 0, 'transformer.layers.18': 0, 'transformer.layers.19': 0, 'transformer.layers.20': 0, 'transformer.layers.21': 'cpu', 'transformer.layers.22': 'cpu', 'transformer.layers.23': 'cpu', 'transformer.layers.24': 'cpu', 'transformer.layers.25': 'cpu', 'transformer.layers.26': 'cpu', 'transformer.layers.27': 'cpu', 'transformer.final_layernorm': 'cpu', 'lm_head': 'cpu'}
model = load_checkpoint_and_dispatch(model, ".\\chatglm-6b\\", device_map="balanced", offload_folder="offload", offload_state_dict=True, no_split_module_classes=["GLMBlock"]).half()

def predict(input, history=None):
    print(f'predict started: {time.time()}')
    if history is None:
        history = []
    response, history = model.chat(tokenizer, input, history)
    return response, history

while True:
  history = None
  text = input(">>用户：")
  response, history = model.chat(tokenizer, text, history)
  print(">>CHatGLM：", response)

注意，这里我们设置设备映射为balanced，并只使用前两块GPU。显卡占用情况

参考
https://cloud.tencent.com/developer/article/2274903?areaSource=102001.17&traceId=dUu9a81soH3zQ5nQGczRV

人工智能 ChatGLM-6B llama 语言模型 accelerate

转载原出处：

打赏 0

上一篇：Prompt-Tuning源码分析

下一篇：DiffDock源码解析

accelerate 分布式技巧实战--部署ChatGLM-6B（三）

发呆的比目鱼

accelerate 分布式技巧实战–部署ChatGLM-6B（三）
基础环境

方案一:量化模型

方案二:一块GPU

方案三:accelerate，多块GPU

为你推荐

相机标定之畸变矫正与反畸变计算

无人驾驶技术入门（十五）| 再识图像之高级车道线检测

精选【技术分享】使用YOLOv4跑通VOC官方数据集

深度学习：详细说明GoogleNet网络结构

VGG Face数据集多线程下载

OpenAI官方提示词课（四）如何进行文字的情感分析

关于作者

发呆的比目鱼

29

0

150

2

numpy.linalg--线性代数基础

精选accelerate 分布式技巧（一）

Rdkit|分子性质描述符（Descriptors）

相关推荐

当我们在谈论 Deep Learning：AutoEncoder 及其相关模型

深度学习一：使用BERT做 NLP分类任务

卷积神经网络（VGG-11）识别Fashion-MNIST数据集（Pytorch版）

05-基于深度学习的无人机目标识别、跟踪

本地连接服务器docker中的jupyter notebook

自动驾驶之轨迹规划6——Apollo EM Motion Planner

热门泡泡

30积分失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

accelerate 分布式技巧实战--部署ChatGLM-6B（三）

发呆的比目鱼

accelerate 分布式技巧实战–部署ChatGLM-6B（三）基础环境

方案一:量化模型

方案二:一块GPU

方案三:accelerate，多块GPU

为你推荐

相机标定之畸变矫正与反畸变计算

无人驾驶技术入门（十五）| 再识图像之高级车道线检测

精选【技术分享】使用YOLOv4跑通VOC官方数据集

深度学习：详细说明GoogleNet网络结构

VGG Face数据集多线程下载

OpenAI官方提示词课（四）如何进行文字的情感分析

评论（0）

关于作者

发呆的比目鱼

29

0

150

2

numpy.linalg--线性代数基础

精选accelerate 分布式技巧（一）

Rdkit|分子性质描述符（Descriptors）

相关推荐

当我们在谈论 Deep Learning：AutoEncoder 及其相关模型

深度学习 一 ：使用BERT做 NLP分类任务

卷积神经网络（VGG-11）识别Fashion-MNIST数据集（Pytorch版）

05-基于深度学习的无人机目标识别、跟踪

本地连接服务器docker中的jupyter notebook

自动驾驶之轨迹规划6——Apollo EM Motion Planner

热门泡泡

30积分 失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分 想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

忘记密码

修改头像

添加你感兴趣的标签

举报类型（必选）

举报详情（选填）

accelerate 分布式技巧实战–部署ChatGLM-6B（三）
基础环境

深度学习一：使用BERT做 NLP分类任务

30积分失眠，聊聊自己搞ROS的心得体会吧

5积分想买能用ROS2的开发套件。或者开发板