NLP、CV、多模态领域一些经典文献

import os import clip import torch from torchvision.datasets import CIFAR100 # 1、读取模型 device = "cuda" if torch.cuda.is_available() else "cpu" model, preprocess = clip.load('ViT-B/32', device) # 2、下载数据集 cifar100 = CIFAR100(root=os.path.expanduser("~/.cache"), download=True, train=False) # 3、（1）从数据集中随机抽取一张图片，作为图片输入 # （2）取出该数据集下所有的标签，作为文字数据 image, class_id = cifar100[3637] image_input = preprocess(image).unsqueeze(0).to(device) text_inputs = torch.cat([clip.tokenize(f"a photo of a {c}") for c in cifar100.classes]).to(device) # 4、计算图像、文字的特征向量 # ------------------------------------------------- with torch.no_grad(): image_features = model.encode_image(image_input) text_features = model.encode_text(text_inputs) # 5、分别对图像、文字特征向量做归一化处理， # 然后计算余弦相似度 # 取最相似的top5结果 # ------------------------------------------------- image_features /= image_features.norm(dim=-1, keepdim=True) text_features /= text_features.norm(dim=-1, keepdim=True) similarity = (100.0 * image_features @ text_features.T).softmax(dim=-1) values, indices = similarity[0].topk(5) # 6、打印结果 print("\nTop predictions:\n") for value, index in zip(values, indices): print(f"{cifar100.classes[index]:>16s}: {100 * value.item():.2f}%")

复制

import os import clip import torch from torchvision.datasets import CIFAR100 # 1、读取模型 device = "cuda" if torch.cuda.is_available() else "cpu" model, preprocess = clip.load('ViT-B/32', device) # 2、下载数据集 cifar100 = CIFAR100(root=os.path.expanduser("~/.cache"), download=True, train=False) # 3、（1）从数据集中随机抽取一张图片，作为图片输入 # （2）取出该数据集下所有的标签，作为文字数据 image, class_id = cifar100[3637] image_input = preprocess(image).unsqueeze(0).to(device) text_inputs = torch.cat([clip.tokenize(f"a photo of a {c}") for c in cifar100.classes]).to(device) # 4、计算图像、文字的特征向量 # ------------------------------------------------- with torch.no_grad(): image_features = model.encode_image(image_input) text_features = model.encode_text(text_inputs) # 5、分别对图像、文字特征向量做归一化处理， # 然后计算余弦相似度 # 取最相似的top5结果 # ------------------------------------------------- image_features /= image_features.norm(dim=-1, keepdim=True) text_features /= text_features.norm(dim=-1, keepdim=True) similarity = (100.0 * image_features @ text_features.T).softmax(dim=-1) values, indices = similarity[0].topk(5) # 6、打印结果 print("\nTop predictions:\n") for value, index in zip(values, indices): print(f"{cifar100.classes[index]:>16s}: {100 * value.item():.2f}%")

复制

import os import clip import torch from torchvision.datasets import CIFAR100 # 1、读取模型 device = "cuda" if torch.cuda.is_available() else "cpu" model, preprocess = clip.load('ViT-B/32', device) # 2、下载数据集 cifar100 = CIFAR100(root=os.path.expanduser("~/.cache"), download=True, train=False) # 3、（1）从数据集中随机抽取一张图片，作为图片输入 # （2）取出该数据集下所有的标签，作为文字数据 image, class_id = cifar100[3637] image_input = preprocess(image).unsqueeze(0).to(device) text_inputs = torch.cat([clip.tokenize(f"a photo of a {c}") for c in cifar100.classes]).to(device) # 4、计算图像、文字的特征向量 # ------------------------------------------------- with torch.no_grad(): image_features = model.encode_image(image_input) text_features = model.encode_text(text_inputs) # 5、分别对图像、文字特征向量做归一化处理， # 然后计算余弦相似度 # 取最相似的top5结果 # ------------------------------------------------- image_features /= image_features.norm(dim=-1, keepdim=True) text_features /= text_features.norm(dim=-1, keepdim=True) similarity = (100.0 * image_features @ text_features.T).softmax(dim=-1) values, indices = similarity[0].topk(5) # 6、打印结果 print("\nTop predictions:\n") for value, index in zip(values, indices): print(f"{cifar100.classes[index]:>16s}: {100 * value.item():.2f}%")

复制

import os import clip import torch from torchvision.datasets import CIFAR100 # 1、读取模型 device = "cuda" if torch.cuda.is_available() else "cpu" model, preprocess = clip.load('ViT-B/32', device) # 2、下载数据集 cifar100 = CIFAR100(root=os.path.expanduser("~/.cache"), download=True, train=False) # 3、（1）从数据集中随机抽取一张图片，作为图片输入 # （2）取出该数据集下所有的标签，作为文字数据 image, class_id = cifar100[3637] image_input = preprocess(image).unsqueeze(0).to(device) text_inputs = torch.cat([clip.tokenize(f"a photo of a {c}") for c in cifar100.classes]).to(device) # 4、计算图像、文字的特征向量 # ------------------------------------------------- with torch.no_grad(): image_features = model.encode_image(image_input) text_features = model.encode_text(text_inputs) # 5、分别对图像、文字特征向量做归一化处理， # 然后计算余弦相似度 # 取最相似的top5结果 # ------------------------------------------------- image_features /= image_features.norm(dim=-1, keepdim=True) text_features /= text_features.norm(dim=-1, keepdim=True) similarity = (100.0 * image_features @ text_features.T).softmax(dim=-1) values, indices = similarity[0].topk(5) # 6、打印结果 print("\nTop predictions:\n") for value, index in zip(values, indices): print(f"{cifar100.classes[index]:>16s}: {100 * value.item():.2f}%")

复制

import os import clip import torch from torchvision.datasets import CIFAR100 # 1、读取模型 device = "cuda" if torch.cuda.is_available() else "cpu" model, preprocess = clip.load('ViT-B/32', device) # 2、下载数据集 cifar100 = CIFAR100(root=os.path.expanduser("~/.cache"), download=True, train=False) # 3、（1）从数据集中随机抽取一张图片，作为图片输入 # （2）取出该数据集下所有的标签，作为文字数据 image, class_id = cifar100[3637] image_input = preprocess(image).unsqueeze(0).to(device) text_inputs = torch.cat([clip.tokenize(f"a photo of a {c}") for c in cifar100.classes]).to(device) # 4、计算图像、文字的特征向量 # ------------------------------------------------- with torch.no_grad(): image_features = model.encode_image(image_input) text_features = model.encode_text(text_inputs) # 5、分别对图像、文字特征向量做归一化处理， # 然后计算余弦相似度 # 取最相似的top5结果 # ------------------------------------------------- image_features /= image_features.norm(dim=-1, keepdim=True) text_features /= text_features.norm(dim=-1, keepdim=True) similarity = (100.0 * image_features @ text_features.T).softmax(dim=-1) values, indices = similarity[0].topk(5) # 6、打印结果 print("\nTop predictions:\n") for value, index in zip(values, indices): print(f"{cifar100.classes[index]:>16s}: {100 * value.item():.2f}%")

复制

import os import clip import torch from torchvision.datasets import CIFAR100 # 1、读取模型 device = "cuda" if torch.cuda.is_available() else "cpu" model, preprocess = clip.load('ViT-B/32', device) # 2、下载数据集 cifar100 = CIFAR100(root=os.path.expanduser("~/.cache"), download=True, train=False) # 3、（1）从数据集中随机抽取一张图片，作为图片输入 # （2）取出该数据集下所有的标签，作为文字数据 image, class_id = cifar100[3637] image_input = preprocess(image).unsqueeze(0).to(device) text_inputs = torch.cat([clip.tokenize(f"a photo of a {c}") for c in cifar100.classes]).to(device) # 4、计算图像、文字的特征向量 # ------------------------------------------------- with torch.no_grad(): image_features = model.encode_image(image_input) text_features = model.encode_text(text_inputs) # 5、分别对图像、文字特征向量做归一化处理， # 然后计算余弦相似度 # 取最相似的top5结果 # ------------------------------------------------- image_features /= image_features.norm(dim=-1, keepdim=True) text_features /= text_features.norm(dim=-1, keepdim=True) similarity = (100.0 * image_features @ text_features.T).softmax(dim=-1) values, indices = similarity[0].topk(5) # 6、打印结果 print("\nTop predictions:\n") for value, index in zip(values, indices): print(f"{cifar100.classes[index]:>16s}: {100 * value.item():.2f}%")

复制

#输入序列由交替的文本和视觉提示令牌组成，通过预训练的语言模型（如T5模型）进行编码 class T5EncoderModel(T5PreTrainedModel): authorized_missing_keys = [ r"encoder.embed_tokens.weight", ] def __init__(self, config): super().__init__(config) self.shared = nn.Embedding(config.vocab_size, config.d_model) encoder_config = copy.deepcopy(config) encoder_config.use_cache = False encoder_config.is_encoder_decoder = False self.encoder = T5Stack(encoder_config, self.shared) # Initialize weights and apply final processing初始化权重并应用到编解码阶段 self.post_init() # Model parallel模型分布式计算 self.model_parallel = False self.device_map = None #Prompt Encoder步骤中使用T5模型对文本输入进行编码 class WordEmbedding(nn.Module): def __init__(self): super().__init__() model = AutoModel.from_pretrained("t5-base") embed_weight = model.get_input_embeddings().weight.data _emb_dim = embed_weight.shape[1] self._embed_layer = nn.Embedding.from_pretrained(embed_weight) del model self.output_dim = _emb_dim

复制

#输入序列由交替的文本和视觉提示令牌组成，通过预训练的语言模型（如T5模型）进行编码 class T5EncoderModel(T5PreTrainedModel): authorized_missing_keys = [ r"encoder.embed_tokens.weight", ] def __init__(self, config): super().__init__(config) self.shared = nn.Embedding(config.vocab_size, config.d_model) encoder_config = copy.deepcopy(config) encoder_config.use_cache = False encoder_config.is_encoder_decoder = False self.encoder = T5Stack(encoder_config, self.shared) # Initialize weights and apply final processing初始化权重并应用到编解码阶段 self.post_init() # Model parallel模型分布式计算 self.model_parallel = False self.device_map = None #Prompt Encoder步骤中使用T5模型对文本输入进行编码 class WordEmbedding(nn.Module): def __init__(self): super().__init__() model = AutoModel.from_pretrained("t5-base") embed_weight = model.get_input_embeddings().weight.data _emb_dim = embed_weight.shape[1] self._embed_layer = nn.Embedding.from_pretrained(embed_weight) del model self.output_dim = _emb_dim

复制

#输入序列由交替的文本和视觉提示令牌组成，通过预训练的语言模型（如T5模型）进行编码 class T5EncoderModel(T5PreTrainedModel): authorized_missing_keys = [ r"encoder.embed_tokens.weight", ] def __init__(self, config): super().__init__(config) self.shared = nn.Embedding(config.vocab_size, config.d_model) encoder_config = copy.deepcopy(config) encoder_config.use_cache = False encoder_config.is_encoder_decoder = False self.encoder = T5Stack(encoder_config, self.shared) # Initialize weights and apply final processing初始化权重并应用到编解码阶段 self.post_init() # Model parallel模型分布式计算 self.model_parallel = False self.device_map = None #Prompt Encoder步骤中使用T5模型对文本输入进行编码 class WordEmbedding(nn.Module): def __init__(self): super().__init__() model = AutoModel.from_pretrained("t5-base") embed_weight = model.get_input_embeddings().weight.data _emb_dim = embed_weight.shape[1] self._embed_layer = nn.Embedding.from_pretrained(embed_weight) del model self.output_dim = _emb_dim

复制

#输入序列由交替的文本和视觉提示令牌组成，通过预训练的语言模型（如T5模型）进行编码 class T5EncoderModel(T5PreTrainedModel): authorized_missing_keys = [ r"encoder.embed_tokens.weight", ] def __init__(self, config): super().__init__(config) self.shared = nn.Embedding(config.vocab_size, config.d_model) encoder_config = copy.deepcopy(config) encoder_config.use_cache = False encoder_config.is_encoder_decoder = False self.encoder = T5Stack(encoder_config, self.shared) # Initialize weights and apply final processing初始化权重并应用到编解码阶段 self.post_init() # Model parallel模型分布式计算 self.model_parallel = False self.device_map = None #Prompt Encoder步骤中使用T5模型对文本输入进行编码 class WordEmbedding(nn.Module): def __init__(self): super().__init__() model = AutoModel.from_pretrained("t5-base") embed_weight = model.get_input_embeddings().weight.data _emb_dim = embed_weight.shape[1] self._embed_layer = nn.Embedding.from_pretrained(embed_weight) del model self.output_dim = _emb_dim

复制

#输入序列由交替的文本和视觉提示令牌组成，通过预训练的语言模型（如T5模型）进行编码 class T5EncoderModel(T5PreTrainedModel): authorized_missing_keys = [ r"encoder.embed_tokens.weight", ] def __init__(self, config): super().__init__(config) self.shared = nn.Embedding(config.vocab_size, config.d_model) encoder_config = copy.deepcopy(config) encoder_config.use_cache = False encoder_config.is_encoder_decoder = False self.encoder = T5Stack(encoder_config, self.shared) # Initialize weights and apply final processing初始化权重并应用到编解码阶段 self.post_init() # Model parallel模型分布式计算 self.model_parallel = False self.device_map = None #Prompt Encoder步骤中使用T5模型对文本输入进行编码 class WordEmbedding(nn.Module): def __init__(self): super().__init__() model = AutoModel.from_pretrained("t5-base") embed_weight = model.get_input_embeddings().weight.data _emb_dim = embed_weight.shape[1] self._embed_layer = nn.Embedding.from_pretrained(embed_weight) del model self.output_dim = _emb_dim

复制

#1.编码：将视觉提示中的物体信息和多个视角的RGB图像编码为嵌入向量表示，以供后续的序列建模和决策生成步骤使用，包含ObjEncoder,GatoMultiViewRGBEncoder, MultiViewRGBPerceiverEncoder, MultiViewRGBEncoder四部分，实际使用的是vit模型。 #ObjEncoder部分，将输入的物体图像或特征提取为物体的表示 self.cropped_img_encoder = ViTEncoder( output_dim=vit_output_dim, resolution=vit_resolution, patch_size=vit_patch_size, width=vit_width, layers=vit_layers, heads=vit_heads, ) #GatoMultiViewRGBEncoder：多视角RGB编码器，用于对多个视角的RGB图像进行编码转换为嵌入向量表示。 #MultiViewRGBPerceiverEncoder：多视角RGB Perceiver编码器。Perceiver是一种结合了注意力机制和卷积操作的神经网络结构，用于处理结构化输入和输出。 #MultiViewRGBEncoder：一个多视角RGB编码器，用于对多个视角的RGB图像进行编码。 #2.（基于GPT的序列建模方法）序列建模，包含引入OpenAIGPTPreTrainedModel（gpt预训练模型）和XAttnGPT、HFGPT三部分。学习输入序列的语义表示和序列之间的关联，从而生成合理的机器人动作序列。 from transformers.models.openai.modeling_openai import ( OpenAIGPTPreTrainedModel, OpenAIGPTConfig, ) #gpt def __init__(self, config): super().__init__(config) self.tokens_embed = nn.Embedding(config.vocab_size, config.n_embd) self.positions_embed = nn.Embedding(config.n_positions, config.n_embd) self.drop = nn.Dropout(config.embd_pdrop) self.h = nn.ModuleList( [ Block(config.n_positions, config, scale=True) for _ in range(config.n_layer) ] ) self.register_buffer("position_ids", torch.arange(config.n_positions)) # 初始化权重并应用到编解码阶段 self.post_init() #XAttn表示交叉注意力（Cross-Attention），对输入的提示序列和历史交互序列进行编码，并通过交叉注意力机制将提示序列与历史交互序列进行关联。这样，模型可以在生成下一步动作时考虑到提示信息和先前的交互历史。 class XAttnGPT(OpenAIGPTPreTrainedModel): def __init__( self, embd_dim: int = 768, *, n_positions: int = 512, n_layer: int = 12, n_head: int = 12, dropout: float = 0.1, xattn_n_head: int = 8, xattn_ff_expanding: int = 4, xattn_detach_qk: bool = False, xattn_n_positions: int, use_geglu: bool = False, ): #HFGPT（历史注意力）在生成下一步动作时主要关注历史交互序列，而不是提示序列。使用GPT对历史交互序列进行编码，并通过自注意力机制（Self-Attention）捕捉序列中的上下文信息，以生成下一步动作。 class HFGPT(nn.Module) #略 #3.解码：Action Embedding（动作嵌入）：将机器人的动作编码为嵌入向量，包含ActionEmbedding, ContinuousActionEmbedding两部分。ActionEmbedding将机器人的离散动作符号（如"pick and place"或"wipe"）转换为嵌入向量（如使用整数编码），以便模型能够对其进行处理和预测。这种嵌入表示可以捕捉到不同动作之间的语义关系和相似性。 class ActionEmbedding(nn.Module): def __init__(self, output_dim: int, *, embed_dict: dict[str, nn.Module]): super().__init__() self._embed_dict = nn.ModuleDict(embed_dict) embed_dict_output_dim = sum( embed_dict[k].output_dim for k in sorted(embed_dict.keys()) ) self._post_layer = ( nn.Identity() if output_dim == embed_dict_output_dim else nn.Linear(embed_dict_output_dim, output_dim) ) self._output_dim = output_dim self._input_fields_checked = False #ContinuousActionEmbedding：将机器人的连续动作（通常由一组连续的数值表示，如机器人臂的位置和姿态）转换为嵌入向量，可以捕捉到不同连续动作之间的关系和变化。 class ContinuousActionEmbedding(nn.Module): #略 #Action Decoder（动作解码器）：使用解码器部分生成机器人的动作序列。创建一个包含多个解码器的模块字典用于将神经网络输出转换为对应的动作。参数action_dims表示每个动作的维度，可以是一个整数（用CategoricalNet解码）或一个整数列表（用MultiCategoricalNet解码）。 self._decoders = nn.ModuleDict() for k, v in action_dims.items(): if isinstance(v, int): self._decoders[k] = CategoricalNet( #略 ) elif isinstance(v, list): self._decoders[k] = MultiCategoricalNet( input_dim, action_dims=v, hidden_dim=hidden_dim, hidden_depth=hidden_depth, activation=activation, norm_type=norm_type, last_layer_gain=last_layer_gain, ) else: raise ValueError(f"Invalid action_dims value: {v}") class MultiCategoricalNet(nn.Module): def __init__( self, input_dim: int, #接收输入维度 *, action_dims: list[int], #动作维度列表 hidden_dim: int, #隐藏层维度 hidden_depth: int, activation: str | Callable = "relu", norm_type: Literal["batchnorm", "layernorm"] | None = None, last_layer_gain: float | None = 0.01, #最后一层初始化增益 ): super().__init__() #调用父类的初始化函数 self.mlps = nn.ModuleList() #创建一个空的nn.ModuleList存储多个MLP感知网络 for action in action_dims: #遍历动作维度列表 net = _build_mlp_distribution_net( #构建MLP分布网络 #略 ) self.mlps.append(net) self.head = MultiCategoricalHead(action_dims)#创建一个MultiCategoricalHead对象传入动作维度列表

复制

#1.编码：将视觉提示中的物体信息和多个视角的RGB图像编码为嵌入向量表示，以供后续的序列建模和决策生成步骤使用，包含ObjEncoder,GatoMultiViewRGBEncoder, MultiViewRGBPerceiverEncoder, MultiViewRGBEncoder四部分，实际使用的是vit模型。 #ObjEncoder部分，将输入的物体图像或特征提取为物体的表示 self.cropped_img_encoder = ViTEncoder( output_dim=vit_output_dim, resolution=vit_resolution, patch_size=vit_patch_size, width=vit_width, layers=vit_layers, heads=vit_heads, ) #GatoMultiViewRGBEncoder：多视角RGB编码器，用于对多个视角的RGB图像进行编码转换为嵌入向量表示。 #MultiViewRGBPerceiverEncoder：多视角RGB Perceiver编码器。Perceiver是一种结合了注意力机制和卷积操作的神经网络结构，用于处理结构化输入和输出。 #MultiViewRGBEncoder：一个多视角RGB编码器，用于对多个视角的RGB图像进行编码。 #2.（基于GPT的序列建模方法）序列建模，包含引入OpenAIGPTPreTrainedModel（gpt预训练模型）和XAttnGPT、HFGPT三部分。学习输入序列的语义表示和序列之间的关联，从而生成合理的机器人动作序列。 from transformers.models.openai.modeling_openai import ( OpenAIGPTPreTrainedModel, OpenAIGPTConfig, ) #gpt def __init__(self, config): super().__init__(config) self.tokens_embed = nn.Embedding(config.vocab_size, config.n_embd) self.positions_embed = nn.Embedding(config.n_positions, config.n_embd) self.drop = nn.Dropout(config.embd_pdrop) self.h = nn.ModuleList( [ Block(config.n_positions, config, scale=True) for _ in range(config.n_layer) ] ) self.register_buffer("position_ids", torch.arange(config.n_positions)) # 初始化权重并应用到编解码阶段 self.post_init() #XAttn表示交叉注意力（Cross-Attention），对输入的提示序列和历史交互序列进行编码，并通过交叉注意力机制将提示序列与历史交互序列进行关联。这样，模型可以在生成下一步动作时考虑到提示信息和先前的交互历史。 class XAttnGPT(OpenAIGPTPreTrainedModel): def __init__( self, embd_dim: int = 768, *, n_positions: int = 512, n_layer: int = 12, n_head: int = 12, dropout: float = 0.1, xattn_n_head: int = 8, xattn_ff_expanding: int = 4, xattn_detach_qk: bool = False, xattn_n_positions: int, use_geglu: bool = False, ): #HFGPT（历史注意力）在生成下一步动作时主要关注历史交互序列，而不是提示序列。使用GPT对历史交互序列进行编码，并通过自注意力机制（Self-Attention）捕捉序列中的上下文信息，以生成下一步动作。 class HFGPT(nn.Module) #略 #3.解码：Action Embedding（动作嵌入）：将机器人的动作编码为嵌入向量，包含ActionEmbedding, ContinuousActionEmbedding两部分。ActionEmbedding将机器人的离散动作符号（如"pick and place"或"wipe"）转换为嵌入向量（如使用整数编码），以便模型能够对其进行处理和预测。这种嵌入表示可以捕捉到不同动作之间的语义关系和相似性。 class ActionEmbedding(nn.Module): def __init__(self, output_dim: int, *, embed_dict: dict[str, nn.Module]): super().__init__() self._embed_dict = nn.ModuleDict(embed_dict) embed_dict_output_dim = sum( embed_dict[k].output_dim for k in sorted(embed_dict.keys()) ) self._post_layer = ( nn.Identity() if output_dim == embed_dict_output_dim else nn.Linear(embed_dict_output_dim, output_dim) ) self._output_dim = output_dim self._input_fields_checked = False #ContinuousActionEmbedding：将机器人的连续动作（通常由一组连续的数值表示，如机器人臂的位置和姿态）转换为嵌入向量，可以捕捉到不同连续动作之间的关系和变化。 class ContinuousActionEmbedding(nn.Module): #略 #Action Decoder（动作解码器）：使用解码器部分生成机器人的动作序列。创建一个包含多个解码器的模块字典用于将神经网络输出转换为对应的动作。参数action_dims表示每个动作的维度，可以是一个整数（用CategoricalNet解码）或一个整数列表（用MultiCategoricalNet解码）。 self._decoders = nn.ModuleDict() for k, v in action_dims.items(): if isinstance(v, int): self._decoders[k] = CategoricalNet( #略 ) elif isinstance(v, list): self._decoders[k] = MultiCategoricalNet( input_dim, action_dims=v, hidden_dim=hidden_dim, hidden_depth=hidden_depth, activation=activation, norm_type=norm_type, last_layer_gain=last_layer_gain, ) else: raise ValueError(f"Invalid action_dims value: {v}") class MultiCategoricalNet(nn.Module): def __init__( self, input_dim: int, #接收输入维度 *, action_dims: list[int], #动作维度列表 hidden_dim: int, #隐藏层维度 hidden_depth: int, activation: str | Callable = "relu", norm_type: Literal["batchnorm", "layernorm"] | None = None, last_layer_gain: float | None = 0.01, #最后一层初始化增益 ): super().__init__() #调用父类的初始化函数 self.mlps = nn.ModuleList() #创建一个空的nn.ModuleList存储多个MLP感知网络 for action in action_dims: #遍历动作维度列表 net = _build_mlp_distribution_net( #构建MLP分布网络 #略 ) self.mlps.append(net) self.head = MultiCategoricalHead(action_dims)#创建一个MultiCategoricalHead对象传入动作维度列表

复制

#1.编码：将视觉提示中的物体信息和多个视角的RGB图像编码为嵌入向量表示，以供后续的序列建模和决策生成步骤使用，包含ObjEncoder,GatoMultiViewRGBEncoder, MultiViewRGBPerceiverEncoder, MultiViewRGBEncoder四部分，实际使用的是vit模型。 #ObjEncoder部分，将输入的物体图像或特征提取为物体的表示 self.cropped_img_encoder = ViTEncoder( output_dim=vit_output_dim, resolution=vit_resolution, patch_size=vit_patch_size, width=vit_width, layers=vit_layers, heads=vit_heads, ) #GatoMultiViewRGBEncoder：多视角RGB编码器，用于对多个视角的RGB图像进行编码转换为嵌入向量表示。 #MultiViewRGBPerceiverEncoder：多视角RGB Perceiver编码器。Perceiver是一种结合了注意力机制和卷积操作的神经网络结构，用于处理结构化输入和输出。 #MultiViewRGBEncoder：一个多视角RGB编码器，用于对多个视角的RGB图像进行编码。 #2.（基于GPT的序列建模方法）序列建模，包含引入OpenAIGPTPreTrainedModel（gpt预训练模型）和XAttnGPT、HFGPT三部分。学习输入序列的语义表示和序列之间的关联，从而生成合理的机器人动作序列。 from transformers.models.openai.modeling_openai import ( OpenAIGPTPreTrainedModel, OpenAIGPTConfig, ) #gpt def __init__(self, config): super().__init__(config) self.tokens_embed = nn.Embedding(config.vocab_size, config.n_embd) self.positions_embed = nn.Embedding(config.n_positions, config.n_embd) self.drop = nn.Dropout(config.embd_pdrop) self.h = nn.ModuleList( [ Block(config.n_positions, config, scale=True) for _ in range(config.n_layer) ] ) self.register_buffer("position_ids", torch.arange(config.n_positions)) # 初始化权重并应用到编解码阶段 self.post_init() #XAttn表示交叉注意力（Cross-Attention），对输入的提示序列和历史交互序列进行编码，并通过交叉注意力机制将提示序列与历史交互序列进行关联。这样，模型可以在生成下一步动作时考虑到提示信息和先前的交互历史。 class XAttnGPT(OpenAIGPTPreTrainedModel): def __init__( self, embd_dim: int = 768, *, n_positions: int = 512, n_layer: int = 12, n_head: int = 12, dropout: float = 0.1, xattn_n_head: int = 8, xattn_ff_expanding: int = 4, xattn_detach_qk: bool = False, xattn_n_positions: int, use_geglu: bool = False, ): #HFGPT（历史注意力）在生成下一步动作时主要关注历史交互序列，而不是提示序列。使用GPT对历史交互序列进行编码，并通过自注意力机制（Self-Attention）捕捉序列中的上下文信息，以生成下一步动作。 class HFGPT(nn.Module) #略 #3.解码：Action Embedding（动作嵌入）：将机器人的动作编码为嵌入向量，包含ActionEmbedding, ContinuousActionEmbedding两部分。ActionEmbedding将机器人的离散动作符号（如"pick and place"或"wipe"）转换为嵌入向量（如使用整数编码），以便模型能够对其进行处理和预测。这种嵌入表示可以捕捉到不同动作之间的语义关系和相似性。 class ActionEmbedding(nn.Module): def __init__(self, output_dim: int, *, embed_dict: dict[str, nn.Module]): super().__init__() self._embed_dict = nn.ModuleDict(embed_dict) embed_dict_output_dim = sum( embed_dict[k].output_dim for k in sorted(embed_dict.keys()) ) self._post_layer = ( nn.Identity() if output_dim == embed_dict_output_dim else nn.Linear(embed_dict_output_dim, output_dim) ) self._output_dim = output_dim self._input_fields_checked = False #ContinuousActionEmbedding：将机器人的连续动作（通常由一组连续的数值表示，如机器人臂的位置和姿态）转换为嵌入向量，可以捕捉到不同连续动作之间的关系和变化。 class ContinuousActionEmbedding(nn.Module): #略 #Action Decoder（动作解码器）：使用解码器部分生成机器人的动作序列。创建一个包含多个解码器的模块字典用于将神经网络输出转换为对应的动作。参数action_dims表示每个动作的维度，可以是一个整数（用CategoricalNet解码）或一个整数列表（用MultiCategoricalNet解码）。 self._decoders = nn.ModuleDict() for k, v in action_dims.items(): if isinstance(v, int): self._decoders[k] = CategoricalNet( #略 ) elif isinstance(v, list): self._decoders[k] = MultiCategoricalNet( input_dim, action_dims=v, hidden_dim=hidden_dim, hidden_depth=hidden_depth, activation=activation, norm_type=norm_type, last_layer_gain=last_layer_gain, ) else: raise ValueError(f"Invalid action_dims value: {v}") class MultiCategoricalNet(nn.Module): def __init__( self, input_dim: int, #接收输入维度 *, action_dims: list[int], #动作维度列表 hidden_dim: int, #隐藏层维度 hidden_depth: int, activation: str | Callable = "relu", norm_type: Literal["batchnorm", "layernorm"] | None = None, last_layer_gain: float | None = 0.01, #最后一层初始化增益 ): super().__init__() #调用父类的初始化函数 self.mlps = nn.ModuleList() #创建一个空的nn.ModuleList存储多个MLP感知网络 for action in action_dims: #遍历动作维度列表 net = _build_mlp_distribution_net( #构建MLP分布网络 #略 ) self.mlps.append(net) self.head = MultiCategoricalHead(action_dims)#创建一个MultiCategoricalHead对象传入动作维度列表

复制

#1.编码：将视觉提示中的物体信息和多个视角的RGB图像编码为嵌入向量表示，以供后续的序列建模和决策生成步骤使用，包含ObjEncoder,GatoMultiViewRGBEncoder, MultiViewRGBPerceiverEncoder, MultiViewRGBEncoder四部分，实际使用的是vit模型。 #ObjEncoder部分，将输入的物体图像或特征提取为物体的表示 self.cropped_img_encoder = ViTEncoder( output_dim=vit_output_dim, resolution=vit_resolution, patch_size=vit_patch_size, width=vit_width, layers=vit_layers, heads=vit_heads, ) #GatoMultiViewRGBEncoder：多视角RGB编码器，用于对多个视角的RGB图像进行编码转换为嵌入向量表示。 #MultiViewRGBPerceiverEncoder：多视角RGB Perceiver编码器。Perceiver是一种结合了注意力机制和卷积操作的神经网络结构，用于处理结构化输入和输出。 #MultiViewRGBEncoder：一个多视角RGB编码器，用于对多个视角的RGB图像进行编码。 #2.（基于GPT的序列建模方法）序列建模，包含引入OpenAIGPTPreTrainedModel（gpt预训练模型）和XAttnGPT、HFGPT三部分。学习输入序列的语义表示和序列之间的关联，从而生成合理的机器人动作序列。 from transformers.models.openai.modeling_openai import ( OpenAIGPTPreTrainedModel, OpenAIGPTConfig, ) #gpt def __init__(self, config): super().__init__(config) self.tokens_embed = nn.Embedding(config.vocab_size, config.n_embd) self.positions_embed = nn.Embedding(config.n_positions, config.n_embd) self.drop = nn.Dropout(config.embd_pdrop) self.h = nn.ModuleList( [ Block(config.n_positions, config, scale=True) for _ in range(config.n_layer) ] ) self.register_buffer("position_ids", torch.arange(config.n_positions)) # 初始化权重并应用到编解码阶段 self.post_init() #XAttn表示交叉注意力（Cross-Attention），对输入的提示序列和历史交互序列进行编码，并通过交叉注意力机制将提示序列与历史交互序列进行关联。这样，模型可以在生成下一步动作时考虑到提示信息和先前的交互历史。 class XAttnGPT(OpenAIGPTPreTrainedModel): def __init__( self, embd_dim: int = 768, *, n_positions: int = 512, n_layer: int = 12, n_head: int = 12, dropout: float = 0.1, xattn_n_head: int = 8, xattn_ff_expanding: int = 4, xattn_detach_qk: bool = False, xattn_n_positions: int, use_geglu: bool = False, ): #HFGPT（历史注意力）在生成下一步动作时主要关注历史交互序列，而不是提示序列。使用GPT对历史交互序列进行编码，并通过自注意力机制（Self-Attention）捕捉序列中的上下文信息，以生成下一步动作。 class HFGPT(nn.Module) #略 #3.解码：Action Embedding（动作嵌入）：将机器人的动作编码为嵌入向量，包含ActionEmbedding, ContinuousActionEmbedding两部分。ActionEmbedding将机器人的离散动作符号（如"pick and place"或"wipe"）转换为嵌入向量（如使用整数编码），以便模型能够对其进行处理和预测。这种嵌入表示可以捕捉到不同动作之间的语义关系和相似性。 class ActionEmbedding(nn.Module): def __init__(self, output_dim: int, *, embed_dict: dict[str, nn.Module]): super().__init__() self._embed_dict = nn.ModuleDict(embed_dict) embed_dict_output_dim = sum( embed_dict[k].output_dim for k in sorted(embed_dict.keys()) ) self._post_layer = ( nn.Identity() if output_dim == embed_dict_output_dim else nn.Linear(embed_dict_output_dim, output_dim) ) self._output_dim = output_dim self._input_fields_checked = False #ContinuousActionEmbedding：将机器人的连续动作（通常由一组连续的数值表示，如机器人臂的位置和姿态）转换为嵌入向量，可以捕捉到不同连续动作之间的关系和变化。 class ContinuousActionEmbedding(nn.Module): #略 #Action Decoder（动作解码器）：使用解码器部分生成机器人的动作序列。创建一个包含多个解码器的模块字典用于将神经网络输出转换为对应的动作。参数action_dims表示每个动作的维度，可以是一个整数（用CategoricalNet解码）或一个整数列表（用MultiCategoricalNet解码）。 self._decoders = nn.ModuleDict() for k, v in action_dims.items(): if isinstance(v, int): self._decoders[k] = CategoricalNet( #略 ) elif isinstance(v, list): self._decoders[k] = MultiCategoricalNet( input_dim, action_dims=v, hidden_dim=hidden_dim, hidden_depth=hidden_depth, activation=activation, norm_type=norm_type, last_layer_gain=last_layer_gain, ) else: raise ValueError(f"Invalid action_dims value: {v}") class MultiCategoricalNet(nn.Module): def __init__( self, input_dim: int, #接收输入维度 *, action_dims: list[int], #动作维度列表 hidden_dim: int, #隐藏层维度 hidden_depth: int, activation: str | Callable = "relu", norm_type: Literal["batchnorm", "layernorm"] | None = None, last_layer_gain: float | None = 0.01, #最后一层初始化增益 ): super().__init__() #调用父类的初始化函数 self.mlps = nn.ModuleList() #创建一个空的nn.ModuleList存储多个MLP感知网络 for action in action_dims: #遍历动作维度列表 net = _build_mlp_distribution_net( #构建MLP分布网络 #略 ) self.mlps.append(net) self.head = MultiCategoricalHead(action_dims)#创建一个MultiCategoricalHead对象传入动作维度列表

NLP、CV、多模态领域一些经典文献

羊羊羊机器人

为你推荐

使用python hashlib模块给明文字符串加密，以及如何撞库破解密码

英伟达jetson NANO开箱

常用的ADC十大滤波算法

01-旭日X3派测评——开箱测试&系统烧写&性能初测

记录贴：Linux显示无进程，但是内存占满

蓝桥杯——sort函数（三）

关于作者

羊羊羊机器人

24

0

389

5

九、机器人控制系统设计（第二篇-视觉部分）

十、机器人控制系统设计（第三篇-抓取部分-手眼标定、TF坐标转换、位置发布）

IntelRealsenseZR300-TF坐标转换系列第五篇

相关推荐

精选STM32循迹小车系列教程（三）—— 使用灰度传感器循迹

MATLAB - Modbus TCP客户端的使用

LIMO-S2 初体验

MoveIt! demo的学习结果

精选鸿蒙应用开发学习|HarmonyOS工程介绍

精选树莓派 ROS Noetic学习（三）通过两轮机器人学习 Rviz 和 Gazebo

热门泡泡

30积分失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

TA的专栏

大模型驱动多模态集群机器人专栏

机器人控制专栏

UR机械臂系列

专栏导航

谢谢哦~

NLP、CV、多模态领域一些经典文献

羊羊羊机器人

为你推荐

使用python hashlib模块给明文字符串加密，以及如何撞库破解密码

英伟达jetson NANO开箱

常用的ADC十大滤波算法

01-旭日X3派测评——开箱测试&系统烧写&性能初测

记录贴：Linux显示无进程，但是内存占满

蓝桥杯——sort函数（三）

评论（0）

关于作者

羊羊羊机器人

24

0

389

5

九、机器人控制系统设计（第二篇-视觉部分）

十、机器人控制系统设计（第三篇-抓取部分-手眼标定、TF坐标转换、位置发布）

IntelRealsenseZR300-TF坐标转换 系列第五篇

相关推荐

精选STM32循迹小车系列教程（三）—— 使用灰度传感器循迹

MATLAB - Modbus TCP客户端的使用

LIMO-S2 初体验

MoveIt! demo的学习结果

精选鸿蒙应用开发学习|HarmonyOS工程介绍

精选树莓派 ROS Noetic学习（三）通过两轮机器人学习 Rviz 和 Gazebo

热门泡泡

30积分 失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分 想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

TA的专栏

大模型驱动多模态集群机器人专栏

机器人控制专栏

UR机械臂系列

专栏导航

谢谢哦~

忘记密码

修改头像

添加你感兴趣的标签

举报类型（必选）

举报详情（选填）

IntelRealsenseZR300-TF坐标转换系列第五篇

30积分失眠，聊聊自己搞ROS的心得体会吧

5积分想买能用ROS2的开发套件。或者开发板