分类目录:《自然语言处理从入门到应用》总目录 无论是基于神经网络语言模型还是word2vec的词向量预训练方法,本质上都是利用文本中词与词在局部上下文中的共现信息作为自监督学习信号。除此之外,另一类常用于估计词向量的方法是基于矩阵分解的方法,例如潜在语义分析(参考《自然语言处理从入门到应用——文本的表示方法》)等。这类方法首先对语料进行统计分析,并获得含有全局统计信息的“词–上下文”共现矩阵,然
目录 蒙特卡罗法 (Monte Carlo Method) 随机抽样 (random sampling) 数学期望估计 (estimation of mathematical expectation) 定积分的近似计算 (Monte Carlo integration) 马尔可夫链的性质 不可约 非周期 正常返 遍历定理 可逆马尔可夫链 马尔可夫链蒙特卡罗法 要解决的问题
《自然语言处理从入门到应用——自然语言处理的语言模型(Language Model,LM)》中介绍了语言模型的基本概念,以及经典的基于离散符号表示的N元语言模型(N-gram Language Model)。从语言模型的角度来看,N元语言模型存在明显的缺点。首先,模型容易受到数据稀疏的影响,一般需要对模型进行平滑处理;其次,无法对长度超过N的上下文依赖关系进行建模。神经网络语言模型(Neural
一、基本概念 聚类是把一个数据对象划分成多个组或簇的过程,使得簇内对象相似度很高,而簇间对象相似度很低。聚类属于无监督分类方式。主要得的聚类方法主要有:基于划分的方法,基于层次的方法,基于密度的方法,基于网格的方法,基于模型的方法。 二、基于划分的方法 1.划分的思想 给定一个有n个数据对象的集合,基于划分的方法会构建数据的k个分组,其中每个分组表示一个簇。对于给定的分组数k,算法会首先给
语言模型(Language Model,LM)(也称统计语言模型)是描述自然语言概率分布的模型,是一个非常基础和重要的自然语言处理任务。利用语言模型,可以计算一个词序列或一句话的概率,也可以在给定上文的条件下对接下来可能出现的词进行概率分布的估计。同时,语言模型是一项天然的预训练任务,在基于预训练模型的自然语言处理方法中起到非常重要的作用,因此这种预训练模型有时也被称为预训练语言模型。本文将主要介
若要利用计算机对自然语言进行处理,首先需要解决语言在计算机内部的存储和计算问题。字符串(String)是文本最自然,也是最常用的机内存储形式。所谓字符串,即字符序列,而其中的一个字符本质上就是一个整数。基于字符串的文本表示方式可以实现简单的字符串增删改查等编辑任务,并能够通过编辑距离等算法计算两个字符串之间的字面相似度。在使用字符串表示(也叫符号表示)计算文本的语义信息时,往往需要使用基于规则的方
一、惰性学习法与急切学习法 急切学习法:指在利用算法进行判断之前,先利用训练集数据通过训练得到一个目标函数,在需要进行判断时利用已经训练好的函数进行决策。惰性学习法:在最开始的时候不会根据已有的样本创建目标函数,只是简单的把训练用的样本储存好,后期需要对新进入的样本进行判断的时候才开始分析新进入样本与已存在的训练样本之间的关系。 典型的惰性学习法是KNN,它不会根据训练集训练一个模型,而是将训练集
论文:Learning Transferable Visual Models From Natural Language Supervision Github:https://github.com/OpenAI/CLIP OpenAI出品 论文通过网络爬取4亿(image, text)对,使用对比学习的方法训练得到clip(Contrastive Language-Image Pre-tr
自然语言通常指的是人类语言,是人类思维的载体和交流的基本工具,也是人类区别于动物的根本标志,更是人类智能发展的外在体现形式之一。自然语言处理(Natural Language Processing,NLP)主要研究用计算机理解和生成自然语言的各种理论和方法,属于人工智能领域的一个重要甚至核心分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学(Computational Linguisti
前言 上一篇介绍过使用opencv-dnn模块实现模型推理部署,但视频效果较差,本篇介绍使用onnxruntime完成模型推理部署。 一、环境 1、硬件 Intel® Core i5-7400 CPU @ 3.00GHZIntel® HD Graphics 630 内存4G 核显内存 8Gwin10 64位系统 2、软件 opencv4.2.0yolov5 6.2版本qt5.6.2onnxru
前言 最近工作中需要用yolov5训练模型,然后在win10系统下,完成推理部署。本篇主要介绍使用opencv-dnn模块实现模型推理部署。 一、环境 1、硬件 Intel® Core i5-7400 CPU @ 3.00GHZIntel® HD Graphics 630 内存4G 核显内存 8Gwin10 64位系统 2、软件 opencv4.6.0yolov5 6.2版本 二、YOLO模型
文章目录 一、全概率公式 1.引例 2.全概率公式 二、贝叶斯公式 1.引例 2.贝叶斯公式 三、朴素贝叶斯 1.概念 2.算法流程 3.拉普拉斯校准 四、一个示例 一、全概率公式 1.引例 p(活着) = 0.5 _ 0.8 + 0.5 _ 0.3花活着这一事件可以分为两种情况,一种是如果邻居记得浇水的情况下,花活着,另一种是如果邻居忘记浇水的情况下,花活着
目录 马尔可夫链 马尔可夫链的基本定义 离散状态马尔可夫链 (Finite-State Markov Chains) 转移概率矩阵 状态分布 平稳分布 (steady-state vector / equilibrium vector) 平稳分布的定义 平稳分布的存在性 如何找到平稳分布? 连续状态马尔可夫链 马尔可夫链的简单应用 语言模型 Signal Tran
前言 上一篇介绍过使用onnxruntime实现模型推理部署,但在我的机器上视频效果仍不理想,本篇介绍使用openvino完成模型推理部署。 openvino是Intel开发的深度学习模型推理加速引擎,支持python和C++,使用起来比较方便。 一、环境 1、硬件 Intel® Core i5-7400 CPU @ 3.00GHZIntel® HD Graphics 630 内存4G 核显
国家实用新型发明专利:一种机器视觉的流水线智能检测报警系统 【系统装置设计图】 文章目录 国家实用新型发明专利:一种机器视觉的流水线智能检测报警系统 【说明书摘要】 【权利要求书】 【说明书】 _技术领域_ _背景技术_ _发明内容_ _有益效果_ _附图说明_ _具体实施方式_ 【说明书摘要】 本实用新型公开了一种基于机器视觉的流水线智能检测报警系统,包括
本文主要介绍人工智能模型的网络结构可视化的常见方法。 对于使用神经网络模型来说,我们主要关注的是模型的输入和输出。在 ML.NET 中使用 ONNX 模型时,我们就需要了解这些信息,以便在构成神经网络的所有层之间生成连接映射。 下图就是昨天 《YOLOv7 在 ML.NET 中使用 ONNX 检测对象》 文章中使用到的 ONNX 模型基本属性信息。 NETRON Netron 是一款常见的可视
一、基本介绍 决策树是一种类似于流程图的树结构,其中每个内部节点表示在一个属性上的测试,每个分支代表该测试的一个输出,而每个叶子节点(终端节点)存放一个分类结果。上图是一个决策时的示例。当决策树构建好之后,对检验记录进行分类就很容易,从树的根节点开始,将测试条件用于检验记录,沿着树的分支达到叶子节点,得到分类结果。 二、决策树构建 原则上讲,对于给定的属性集,可以构造的决策树很多,所有如何在合
一、过拟合之前我们提到过的模型只能拟合训练数据的状态被称为过拟合,英文是 overfitting。记得在学习回归的时候,过度增加函数 fθ(x)的次数会导致过拟合。过拟合不止在回归时出现,在分类时也经常发生,我们要时常留意它。避免过拟合有以下方法: 增加全部训练数据的数量 使用简单的模型 正则化首先,重要的是增加全部训练数据的数量。之前我也讲过,机器学习是从数据中学习的,所以数据最重要。另外,使用
鸣谢!!! 深入浅出 Word2vec–图文解读原理 一 Skipgram 我们不仅要考虑目标单词的前两个单词,还要考虑其后两个单词如果这么做,我们实际上构建并训练的模型就如下所示:上述的这种架构被称为连续词袋(CBOW),在一篇关于word2vec的论文中有阐述。 还有另一种架构,它不根据前后文(前后单词)来猜测目标单词,而是推测当前单词可能的前后单词。我们设想一下滑动窗在训练数据时如
为什么要进行数据预处理? 只有当数据的质量好才能保证数据分析的结果好。然后实际系统中的原始数据会因为很多原因出现数据错误,数据缺失,不一致等情况,所以需要对原始数据进行预处理,包括数据清洗,数据集成,数据归约,数据转换。 一、数据清洗 目的:填充或删除缺失值,降低噪声与识别离群点。数据清洗的第一步偏差检测(数据的不一致性,字段过载),第二步纠正偏差1.缺失值处理(1)直接删除缺失属性的记录。(
第三方账号登入
看不清?点击更换
第三方账号登入
QQ 微博 微信