BackGround 在生成的时候,模型的输出是一个时间步一个时间步依次获得的,而且前面时间步的结果还会影响后面时间步的结果。也就是说,每一个时间步,模型给出的都是基于历史生成结果的条件概率。 为了生成完整的句子,需要一个称为解码的额外动作来融合模型多个时间步的输出,而且使得最终得到的序列的每一步条件概率连乘起来最大。 在文本生成任务中,每一个时间步可能的输出种类称为字典大小
教程地址:https://github.com/datawhalechina/prompt-engineering-for-developers Prompt 如何构造好的Prompt 分割符:分隔符就像是 Prompt 中的墙,将不同的指令、上下文、输入隔开,避免意外的混淆。你可以选择用 ```,“”",< >, ,: 等做分隔符,只要能明确起到隔断作用即可。
BGE的技术亮点: 高效预训练和大规模文本微调; 在两个大规模语料集上采用了RetroMAE预训练算法,进一步增强了模型的语义表征能力; 通过负采样和难负样例挖掘,增强了语义向量的判别力; 借鉴Instruction Tuning的策略,增强了在多任务场景下的通用能力。 数据集的构成: RetroMAE预训练 主要思想是:encoder用小一点
前置知识复习 https://www.cnblogs.com/Allen-rg/p/13958508.html word2vec详解:https://zhuanlan.zhihu.com/p/114538417Word2Vec和GloVe都是用于将词与向量相关联的流行词嵌入模型。 相同点: 目标:Word2Vec和GloVe的共同目标是将词汇映射到低维向量空
https://zhuanlan.zhihu.com/p/659770503 https://zhuanlan.zhihu.com/p/638468472 KV cache Decoder 每次前向,当前 timestep 计算 Attention 要用到的部分,如之前 timestep 的 KV (Key 和 Value)值都计算过的,只是之前每次前向完后给计算
如何从语言模型中获得Text embedding呢? a) 将模型最后一层[CLS]位置的向量表征直接作为句向量。 b) 将模型最后一层[CLS]位置的向量表征,再经过MLP层得到的向量。 c) 将模型最后一层所有位置的向量表征,再经过一个Pooling层得到的向量。(大部分情况下采用的是mean pooling,在有些情况下也会使用max pooling等其他方式) d) 将模型最后一层
在图像中的特征处理: 平均亮度的去除 SVD Whiten PCA 注意P i P_iPi对特征向量进行处理的意义,把特征矩阵的对角线变成1,即把每个特征的重要性相等,让每个特征相互独立 参数初始化策略 数据归一化: 标准归一化 缩放归一化 PCA/SVD 数据归一化对梯度的影响 归一化
前馈神经网络 MLP:multi-layer percetron Feed Forward and Back error propagation 解决异或划分问题 缺点: 容易过拟合 容易陷入局部最优化 梯度消失 计算资源不充分,训练集小 DNN 深一点效果好,宽一点容易理解,发现潜在规律 前向计算公式: 梯度消失与爆炸
注意力 注意力分为两步: 计算注意力分布 α 其实就是,打分函数进行打分,然后softmax进行归一化 根据 α 来计算输入信息的加权平均(软注意力) 其选择的信息是所有输入向量在注意力下的分布 打分函数 只关注某一个输入向量, 叫作硬性注意力( Hard Attention) 本质上,从所有输入向量里面选一个向量(最具代表性)
AutoEncoder & GAN AE Auto-Encoder (AE) 是20世纪80年代晚期提出的,它是一种无监督学习算法,使用了反向传播算法,让目标值等于输入值。 是神经网络的一种,经过训练后能尝试将输入复制到输出。 三层网络结构:输入- 隐层- 输出 自编码网络的作用是:将输入样本压缩到隐藏层,再在输出端重建样本。其目标是使输出和输入之间尽量的小,即重构误差尽可能
RNN & Seq2Seq Feedforward v.s. Recurrent Feedforward network does not have input at each step Feedforward network has different parameters for each layer 双向RNN 双向递归层可以提供更好的识别预测效果,但却不能实时
Transfer Learning 迁移学习 Transer Learning Background: Data not directly related to the task consideredSimilar domain, different tasksDifferent domains, same taskkey problem: distribution change and
Meta Learning(元学习)是一种机器学习技术,它的核心思想是学习如何学习。 Meta Learning的目标是从以前的学习经验中学习到通用的学习策略和模式,以便在新的任务上快速适应和学习。 Meta Learning的核心思想是将学习任务视为元任务,从元任务中学习通用的学习策略和模式,然后将这些策略和模式应用于新的任务中。 Meta Learning
计算机视觉基础 文章目录 计算机视觉基础 计算机视觉处理的概念: 发展历程 什么是数字图像? 图像与矩阵 OpenCV简介 图像、视频基本操作 图像去噪 图像增强 图像修补 图像分割 图像颜色通道分离(RGB分离) 图像二值化 滤波 图像特征提取 特征匹配 视频处理 基于OpenCV的图像读取与显示 视
文章目录 Tensor API: 索引: 维度变换 广播机制 Autograd 关于计算 神经网络块 Pytorch架构 torchvision torchvision.transforms torchvision.models torchvision.io torchvision.opt torchvision.utils
文章目录 图像复原 上升阶跃边缘、下降阶跃边缘、脉冲状边缘和屋顶状边缘曲线及其一阶导数和二阶导数有哪些特征? Hough变换的基本思想是什么? 基本概念 图像增强 灰度变换 直方图: 直方图特点 matlab代码 空间域滤波 平滑空间滤波 均值滤波器: 统计排序滤波器 锐化空间滤波器 微分滤波器
张量 定义: 张量是一种特殊的数据结构,与数组和矩阵非常相似。在 PyTorch 中,我们使用张量对模型的输入和输出以及模型的参数进行编码。 张量类似于 NumPy 的 ndarrays,不同之处在于张量可以在 GPU 或其他专用硬件上运行以加速计算。 三种方式创建张量Tensor: 直接来自数据 张量可以直接从数据中创建。数据类型是自动推断的。
缺失值处理 发现缺失值 拿到数据的第一步,判断是否存在缺失数据,以及字段的缺失值占比 缺失率:用shape()和count()函数做差得到数据的缺失值个数,再除以样本总个数 定性:df.info:查看总体数据,对比一下就知道哪里少了 定量: 案例分析: #缺失率计算(user_info.shape[0]-user_info[‘age_range’]
积分
粉丝
勋章
TA还没有专栏噢
第三方账号登入
看不清?点击更换
第三方账号登入
QQ 微博 微信