自主采样:即有放回的采样 在原数据集中经过m次有放回的随机采样,可以得到一个含m个样例的子数据集,使用这个子数据集进行训练,得到一个基学习器 我们对上述过程重复T次,就会得到T个基学习器,我们对这T个学习器的预测结果进行结合,就能够得到一个准确率更高的预测结果。一般使用简单投票的方法进行结合,即选择T个预测结果中预测最多的类,例如10次预测,其中7个预测为正类,3个预测为反类,我们就认为最终预测为
本文介绍机器学习中的线性模型的基本形式和求解线性回归方程方法 设问题为:判断一个同学对机器学习算法的掌握程度 有以下观点:1.数学基础 2.高级语言掌握程度
LDA线性判别分析的思想十分简单,将给定的训练样例集投影到一条直线上,我们希望投影过后,不同类的数据点尽量远离,同类数据点尽量聚合。设Xi表示i类数据的集合i∈(0,1),μi为i类数据集合的均值向量 类内散度的定义: 使用方差来度量类内的离散程度,因为都是向量表示形式,所以平方和用向量乘向量的转置表示 类间散度矩阵: 使用均值的方差表示两种数据类之间的离散程度 我们要使类间散度越大越好
本文介绍对数几率回归模型,是一个典型的二分类任务学习模型 书接上回,我们可以对一个数据集得到它的回归方程 我们是这样去解读回归方程的:在相关属性下对样例的某一特征的度量 我们根据回归方程得到的特征度量是一个连续值,我们可以根据这个度量值进行分类 例如:大学的绩点计算,当我们的绩点大于等于2.0才能拿到学位,否则拿不到学位,我们可以认为当度量值达到多少时将样例视为一类,而没达到的样例分为另一类。 但
第一部分:泰勒公式在高数中,引出相关需求,其描述如下: 对于一些较复杂的函数,为了便于研究,往往希望用一些简单的函数来近似表达。由于用多项式表示的函数,只要对自变量进行有限次的加,减,乘三种算数运算,便能求出它的函数值,因此我们经常用多项式近似表达函数。 简单说来,就是:在误差允许的前提下,我们用多项式(简单函数)来近似代替复杂函数,使得复杂函数的应用更加方便 所以说,泰勒公式是使用多项式对目标函
在线性模型中我们认为事物的属性是具有权重的,即对事物类别判断产生的影响力,在线性模型中我们将这样的权重视为线性函数的参数,由优化方法求出,该过程也称为线性模型的“学习”过程。 在线性模型中,样例的属性是连续的数值型数据,若属性是离散的呢(离散的标签,离散的数值) 例如,下列西瓜数据(数据来源于,周志华的《机器学习》): 编号 色泽 根蒂 敲击 纹理 脐部 触感 好瓜 0 青绿 蜷缩 浊响 清晰 凹
连续值处理:决策树处理的是离散数据,当离散数据中混杂着连续数据时,我们希望将连续数据离散化。 我们可以将连续取值的值域划分为多个区间,每个区间视为一个属性取值,这样就将连续数据离散化了。 例如:属性a的取值范围为0-100,我们划分为0-25, 25-50, 50-75, 75-100四个区间,作为属性a的四种取值 那么,划分边界的选择就是我们需要解决的问题。我们以二分为例(化为两个子区间): 设
一个神经元即一个感知机模型,由多个神经元相互连接形成的网络,即神经网络。 这里我们只讨论单隐层前馈神经网络,其连接形式入下: 神经网络模型的待估参数即,每个神经元的阈值,以及神经元之间的连接权重。 对于该模型有如下定义: 训练集:D={(x1, y1), (x2, y2), ......, (xm, ym)},x具有d个属性值,y具有k个可能取值 则我们的神经网络(单隐层前馈神经网络)应该是具有
本文参考《Python神经网络编程》的相关章节 现在很火的一个机器学习数据集就是手写数字数据集(MNIST) 这个网站提供了两个CSV文件: 训练集:http://www.pjreddie.com/media/files/mnist_train.csv 测试集:http://www.pjreddie.com/media/files/mnist_test.csv 训练
本文参考《Python神经网络编程》的相关章节 上文中我们使用神经网络实现对手写数字的识别,那我们反向的给出一个标签,即给出[1, 0, 0, 0, 0, 0, 0, 0, 0, 0],从输出反向推导出输入,应该是什么样子呢? 其实可以想象得到,逆推的结果如果将其实例化,应该是对应的数字图片,图片越清晰,越标准,说明我们的学习效果越好。 对数几率函数的反函数(是叫反函数是吧)为: 在上一篇文章中
我们是否可以通过计算样例分类的概率来对样例进行分类呢,即一个样例分为正例的概率为0.9,分为反例的概率为0.5,那么我们将该样例分为正例。 那么我们的目标就是求P(正)和P(反)。 每一个样例都是由多个属性组成的,我们根据属性的取值来计算概率,这是明显的条件概率P(正|X),P(反|X)。X表示各个属性组成的属性向量(x1, x2, x3,......,xn) 若各个属性之间是独立的,即各个属性独
梯度的定义如下: 梯度是一个方向向量,若α是函数在某点的梯度,那么函数在该点沿着α方向的变化最快 那么什么是函数的增长方向? 任何函数都可以用以下的表示方式表示: x为自变量,w为参数,y为因变量,我们一般默认函数的增长方向为因变量的增长方向(函数图像中因变量的坐标轴的正方向),所以函数上某点的最快增长方向,是使得因变量增长最快的方向。 那么,现在考虑一个三维空间中的球面,其上的一个点的最快增长
积分
粉丝
勋章
TA还没有专栏噢
第三方账号登入
看不清?点击更换
第三方账号登入
QQ 微博 微信