Prompt-Tuning源码分析

发呆的比目鱼

发布时间 2023.12.24阅读数 589 评论数 0

Prompt-Tuning源码分析
源码
我们这里的代码解析以huggingface peft源码为主
从模型类结构可以看到，Prompt Tuning 只在输入层加入 prompt virtual tokens，其他地方均没有变化，具体可查看 PromptEmbedding 的源码。

伪代码示例

soft_prompt=torch.nn.Parameter(#Make tensor trainable 
torch.rand（num_tokens，embed_dim))#Initialize soft prompt tensor 
def input_with_softprompt(x，soft_prompt):
    x=concatenate([soft_prompt,x] #Prepend soft prompt to input 
                  dim=seq_len)
    return x 
model(input_with_softprompt(x))

peft源码

class PromptEmbedding(torch.nn.Module):
    """

    ```py
    >>> from peft import PromptEmbedding, PromptTuningConfig

    >>> config = PromptTuningConfig(
    ...     peft_type="PROMPT_TUNING",
    ...     task_type="SEQ_2_SEQ_LM",
    ...     num_virtual_tokens=20,
    ...     token_dim=768,
    ...     num_transformer_submodules=1,
    ...     num_attention_heads=12,
    ...     num_layers=12,
    ...     prompt_tuning_init="TEXT",
    ...     prompt_tuning_init_text="Predict if sentiment of this review is positive, negative or neutral",
    ...     tokenizer_name_or_path="t5-base",
    ... )

    >>> # t5_model.shared is the word embeddings of the base model
    >>> prompt_embedding = PromptEmbedding(config, t5_model.shared)
    ```

    Input Shape: (`batch_size`, `total_virtual_tokens`)

    Output Shape: (`batch_size`, `total_virtual_tokens`, `token_dim`)
    """

    def __init__(self, config, word_embeddings):
        super().__init__()

        total_virtual_tokens = config.num_virtual_tokens * config.num_transformer_submodules
        self.embedding = torch.nn.Embedding(total_virtual_tokens, config.token_dim)
        if config.prompt_tuning_init == PromptTuningInit.TEXT:
            from transformers import AutoTokenizer

            tokenizer = AutoTokenizer.from_pretrained(config.tokenizer_name_or_path)
            init_text = config.prompt_tuning_init_text
            init_token_ids = tokenizer(init_text)["input_ids"]
            # Trim or iterate until num_text_tokens matches total_virtual_tokens
            num_text_tokens = len(init_token_ids)
            if num_text_tokens > total_virtual_tokens:
                init_token_ids = init_token_ids[:total_virtual_tokens]
            elif num_text_tokens < total_virtual_tokens:
                num_reps = math.ceil(total_virtual_tokens / num_text_tokens)
                init_token_ids = init_token_ids * num_reps
            init_token_ids = init_token_ids[:total_virtual_tokens]

            word_embedding_weights = word_embeddings(torch.LongTensor(init_token_ids)).detach().clone()
            word_embedding_weights = word_embedding_weights.to(torch.float32)
            self.embedding.weight = torch.nn.Parameter(word_embedding_weights)

    def forward(self, indices):
        # Just get embeddings
        prompt_embeddings = self.embedding(indices)
        return prompt_embeddings

输出的模型权重文件如下所示：

/data/nfs/llm/model/bloomz-560m_PROMPT_TUNING_CAUSAL_LM
├── [ 500]  adapter_config.json
├── [ 33K]  adapter_model.bin
└── [ 111]  README.md

0 directories, 3 files

其中，adapter_config.json 为 Prompt Tuning 配置文件；adapter_model.bin 为 Prompt Tuning 权重文件。

推理

from peft import PeftModel, PeftConfig

peft_model_id = f"{model_name_or_path}_{peft_config.peft_type}_{peft_config.task_type}"

# 加载PEFT配置
config = PeftConfig.from_pretrained(peft_model_id)

# 加载基础模型
model = AutoModelForCausalLM.from_pretrained(config.base_model_name_or_path)
# 加载PEFT模型
model = PeftModel.from_pretrained(model, peft_model_id)

# Tokenizer编码
inputs = tokenizer(f'{text_column} : {dataset["test"][i]["Tweet text"]} Label : ', return_tensors="pt")

# 模型推理
outputs = model.generate(
        input_ids=inputs["input_ids"], 
        attention_mask=inputs["attention_mask"], 
        max_new_tokens=10, 
        eos_token_id=3
    )

# Tokenizer 解码
print(tokenizer.batch_decode(outputs.detach().cpu().numpy(), skip_special_tokens=True))

人工智能 Pytorch 预训练模型源码分析 prompt

转载原出处：

打赏 0

上一篇：accelerate 分布式技巧（一）

下一篇：accelerate 分布式技巧实战--部署ChatGLM-6B（三）

Prompt-Tuning源码分析

发呆的比目鱼

为你推荐

CUDA编程入门极简教程

浅析扩散模型与图像生成【应用篇】(六)——DiffuseIT

人脸检测实战高级：使用 OpenCV、Python 和 dlib 完成眨眼检测

【强化学习与最优控制】笔记（九）值函数，Q函数和策略空间的近似

深入理解机器学习——类别不平衡学习（Imbalanced Learning）：影响因素

精选langchain主要模块(五)：Agent以及Wandb

关于作者

发呆的比目鱼

29

0

150

2

机器学习之超参数优化 - 网格优化方法（随机网格搜索）

DiffDock源码解析

accelerate 分布式技巧实战--部署ChatGLM-6B（三）

相关推荐

使用NNI对BERT模型进行粗剪枝、蒸馏与微调

机器学习笔记之集成学习AdaBoost算法理解及实践

「RL篇柒」Actor-Critic & A2C 原理与实现

精选Matlab深度学习实战二：AlexNet图像分类篇提供花分类这里以分二类演示且matlab提供模型框架详细操作流程

XGBOOST算法Python实现（保姆级）

机器学习笔记 - 时间序列的趋势分量

热门泡泡

30积分失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

Prompt-Tuning源码分析

发呆的比目鱼

为你推荐

CUDA编程入门极简教程

浅析扩散模型与图像生成【应用篇】(六)——DiffuseIT

人脸检测实战高级：使用 OpenCV、Python 和 dlib 完成眨眼检测

【强化学习与最优控制】笔记（九）值函数，Q函数和策略空间的近似

深入理解机器学习——类别不平衡学习（Imbalanced Learning）：影响因素

精选langchain主要模块(五)：Agent以及Wandb

评论（0）

关于作者

发呆的比目鱼

29

0

150

2

机器学习之超参数优化 - 网格优化方法（随机网格搜索）

DiffDock源码解析

accelerate 分布式技巧实战--部署ChatGLM-6B（三）

相关推荐

使用NNI对BERT模型进行粗剪枝、蒸馏与微调

机器学习笔记之集成学习AdaBoost算法理解及实践

「RL篇 柒」Actor-Critic & A2C 原理与实现

精选Matlab深度学习实战二：AlexNet图像分类篇提供花分类这里以分二类演示且matlab提供模型框架详细操作流程

XGBOOST算法Python实现（保姆级）

机器学习笔记 - 时间序列的趋势分量

热门泡泡

30积分 失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分 想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

忘记密码

修改头像

添加你感兴趣的标签

举报类型（必选）

举报详情（选填）

「RL篇柒」Actor-Critic & A2C 原理与实现

30积分失眠，聊聊自己搞ROS的心得体会吧

5积分想买能用ROS2的开发套件。或者开发板