当前位置 > 首页 > 国内新闻 > 正文

你不得不了解的机器学习知识
  • 发布时间:2020-03-13
  • www.zzqgjd.cn
  • 机器学习知识你必须理解

    1。什么是机器学习?

    (1)机器学习、深度学习和人工智能之间有什么关系?

    机器学习包括许多不同的算法,深度学习就是其中之一。其他方法包括决策树、聚类、贝叶斯等。

    深度学习的灵感来自大脑的结构和功能,即许多神经元的相互联系。人工神经网络是一种模拟大脑生物结构的算法。

    机器学习和深度学习都属于人工智能的范畴。因此,人工智能、机器学习和深度学习可以用下图来表示:

    (2)机器学习的基本思想

    通过训练集,不断地识别特征,不断地进行建模,最终形成一个有效的模型。这个过程被称为“机器学习”!

    (3)根据训练方法,有监督学习、无监督学习和强化学习

    机器学习可以大致分为三类:

    有监督学习

    无监督学习

    强化学习

    有监督学习是指给算法一个数据集和一个正确答案。机器通过数据学习正确答案的计算方法。

    我们准备了很多猫和狗的照片。我们希望机器学会如何识别猫和狗。当我们使用监督学习时,我们需要标记这些照片。

    我们将照片标注为“正确答案”。通过大量的学习,这台机器可以学会识别新照片中的猫和狗。在

    无监督学习中,给定数据集没有“正确答案”,所有数据都是一样的。无监督学习的任务是从给定的数据集挖掘潜在的结构。

    我们给了机器一堆猫和狗的照片,但没有给这些照片贴标签,但是我们希望机器能把这些照片分类。

    在无监督学习中,虽然照片被分为猫和狗,但机器不知道哪一个是猫,哪一个是狗。对于机器来说,它相当于a和b。强化学习更接近生物学习的本质,所以它被期望获得更高的智力。它关注代理如何在环境中采取一系列行动来获得最大的累积回报。通过强化学习,代理应该知道在什么状态下采取什么行为。

    最典型的场景是玩游戏。

    (4)机器学习实战步骤

    (5)。经典机器学习算法

    线性回归

    逻辑回归

    决策树

    K最近邻

    支持向量机

    随机森林

    AdaBoost

    2。线性回归-线性回归

    线性回归位置如上所示,它属于机器学习-监督学习-回归-线性回归。

    (1)什么是回归

    回归的目的是预测,例如,明天的天气温度和股票趋势…

    2)什么是线性

    3)什么是线性回归

    线性回归最初是统计学中的一个概念,现在常用于机器学习。

    如果两个或更多变量之间存在“线性关系”,那么我们可以通过历史数据找出变量之间的“常规”,并建立一个有效的模型来预测未来的变量结果。

    a。建模速度很快,不需要复杂的计算,即使在数据量很大的情况下,它仍然运行得很快。

    b .每个变量的理解和解释可以根据系数给出。

    非线性数据不能很好地拟合。因此,有必要判断变量是否是线性的。

    3。逻辑回归的位置-逻辑回归

    如上图所示。它属于机器学习c监督学习c分类c逻辑回归。

    logistic回归与线性回归

    a。线性回归只能用于回归问题。虽然逻辑回归的名称是回归,但它更多地用于分类问题

    b。线性回归要求因变量是连续的数值变量,而逻辑回归要求因变量是离散变量

    c。线性回归要求自变量和因变量具有线性关系。然而,逻辑回归不需要自变量和因变量之间的线性关系。线性回归可以直观地表达自变量和因变量之间的关系,而逻辑回归不能表达自变量和因变量之间的关系

    决策树算法采用树形结构,采用逐层推理实现最终分类。决策树由以下元素组成:

    根节点:包含样本的全集

    内部节点:对应的特征属性测试

    叶节点:表示预测时的决策

    的结果,在树的内部节点使用某个属性值进行判断,根据判断结果,决定进入哪个分支节点,直到到达叶节点,得到分类结果。

    这是一个基于假设-其他规则的监督学习算法。决策树的这些规则是通过训练获得的,而不是人工制定的。

    (1)决策树示例

    银行需要使用机器学习算法来决定是否向客户发放贷款。因此,他们需要检查客户的年收入以及他们是否拥有房地产。领导安排你执行算法。你想出了最简单的线性模型,并很快完成了任务。

    此示例的决策树如下图所示:

    2决策树学习的三个步骤

    A。特征选择

    特征选择决定了用于判断的特征。在训练数据集中,每个样本可能有许多属性,不同的属性扮演不同的角色。因此,特征选择的功能是筛选出与分类结果相关性高的特征,即分类能力强的特征。

    b .决策树生成

    并选择特征后,从根节点触发,计算该节点所有特征的信息增益,选择信息增益最大的特征作为节点特征,根据特征的不同值建立子节点;以相同的方式为每个子节点生成一个新的子节点,直到信息增益很小或者没有要选择的特征。

    c .决策树剪枝

    剪枝的主要目的是通过主动移除一些分支来对抗“过度拟合”并降低过度拟合的风险。

    (3)三种典型的决策树算法

    ID3

    ID3是最早提出的决策树算法,它利用信息增益来选择特征。

    C4.5算法

    ID3的改进版本不直接使用信息增益,而是引入“信息增益比”指标作为特征选择的依据。

    cart(分类和回归树)

    该算法可用于分类和回归问题。CART算法使用基尼系数代替信息熵模型。

    5。K最近邻居| KNN

    通过搜索k个最相似实例(邻居)的整个训练集并汇总这k个实例的输出变量来预测新的数据点。对于回归问题,这可能是平均输出变量,对于分类问题,这可能是模式(或最常见的)类值。

    诀窍在于如何确定数据实例之间的相似性。如果您的属性具有相同的比例(例如,以英寸为单位),最简单的技术是使用欧几里德距离,您可以根据每个输入变量之间的差异直接计算该距离。

    6。支持向量机

    超平面是划分输入变量空间的线。在SVM,超平面被选择来最佳地将输入变量空间中的点与其类(级别0或级别1)分开。在二维空间中,你可以把它想象成一条线,并假设我们所有的输入点都可以被这条线完全分开。SVM学习算法找到导致超平面最佳分离类的系数。

    支持向量机的基本概念可以用一个简单的例子来解释。让我们想象两类:红色和蓝色。我们的数据有两个特征:X和y。我们需要一个分类器。给定一对(x,y)坐标,输出限于红色或蓝色。我们在下图中列出了标记的训练数据:

    支持向量机接受这些数据点并输出一个超平面(二维图形中的一条线)来分隔这两种类型。这条线是判断的边界:把红色和蓝色分开。

    但是什么是最好的超平面?对SVM来说,这是最大化两个类别的边界的方法,换句话说:超平面(在这种情况下,是一条线)离每个类别最近的元素最远。

    7。随机森林

    随机森林是一个由决策树组成的集成算法,在许多情况下可以很好地执行。

    随机森林属于集成学习中的Bagging方法。如果它们之间的关系用如下图表示:

    随机森林由许多决策树组成,不同的决策树之间没有相关性。

    当我们执行分类任务时,当新的输入样本进入时,森林中的每个决策树将被分别判断和分类。每个决策树都会得到自己的分类结果。如果决策树的分类结果中哪一个是最分类的,随机森林将把这个结果作为最终结果。

    (2)构建随机森林的四个步骤

    A。如果有N个样本,则随机选择回N个样本(一次一个样本,然后返回继续选择)。所选择的N个样本被用于训练决策树,作为决策树的根节点处的样本。

    b .当每个样本有m个属性时,当决策树的每个节点需要拆分时,从m个属性中随机选择m个属性满足m个条件,然后从m个属性中采用一定的策略(如信息增益)选择一个属性作为节点的拆分属性。

    c .每个节点必须按照决策树形成过程中的步骤2进行拆分(很容易理解,如果节点下次选择的属性是其父节点拆分时刚刚使用的属性,那么该节点已经到达叶节点,不需要继续拆分)。直到我们不能再分开。注意,在整个决策树形成过程中没有执行修剪。

    d .根据步骤1到3建立大量的决策树,从而形成一个随机的森林

    8。集成学习

    在机器学习中,我们讨论了许多不同的算法。那些算法是独自战斗的英雄。综合学习就是组成一个由这些英雄组成的团队。达到“三个臭皮匠等于一个诸葛亮”的效果。

    本文将介绍集成学习的两个主要思想:打包和提升。

    (1)什么是综合学习?

    在现实生活中,我们都知道“人多势众”和“三个臭皮匠组成诸葛亮”。综合学习的核心理念是“人多力量大”。它不会创建新的算法,而是结合现有的算法来获得更好的结果。

    集成学习将选择一些简单的基本模型进行组装。组装这些基本模型主要有两种方法:

    bagging(bootstrap aggregation的缩写,也称为“bagging”)

    boosting

    2)bagging

    bagging的想法是所有基本模型都以相同的方式处理,每个基本模型手中只有一张选票。然后用民主投票来获得最终结果。

    在大多数情况下。

    a .从原始样本集中提取训练集。每轮,通过引导从原始样本集中提取N个训练样本(在训练集中,一些样本可能被提取多次,而一些样本可能不被一次提取)。总共进行了k轮提取以获得k个训练集。(k个训练集相互独立)

    b每次使用一个训练集得到一个模型,k个训练集得到总共k个模型。(注:这里没有具体的分类算法或回归方法,我们可以根据具体问题采用不同的分类或回归方法,如决策树、感知器等。)

    c .对于分类问题:对上一步得到的K个模型进行投票,得到分类结果;对于回归问题,计算上述模型的平均值作为最终结果。(所有型号都同等重要)

    (3)助推

    助推和装袋在根本上是不同的,因为它们对基本型号的处理方式不同。相反,他们通过不断的测试和筛选来选择“精英”,然后给予精英更多的投票权,而表现不佳的基本模型给予更少的投票权,然后综合所有人的投票以获得最终结果。

    在大多数情况下。

    a。基本模型由过加法模型线性组合而成。

    b .每轮训练将增加低错误率基本模型的权重,减少高错误率模型的权重。

    c .改变每一轮训练数据的权重或概率分布,通过增加上一轮弱分类器错误分类的样本的权重和减少上一轮错误分类的样本的权重,使分类器对错误分类的数据有更好的效果。

    (4)Bagging和Boosting之间的四个区别

    (4)Bagging:训练集被选回到原始集合中,并且从原始集合中选择的每一轮训练集是独立的。

    装袋:采用均匀取样,每个样品的重量相等

    Boosting:样品的重量根据误差率不断调整,误差率越大,重量越大。

    Bagging:所有预测函数的权重相等。

    Boosting:每个弱分类器都有自己的权重,分类误差小的分类器权重更大。

    Bagging:每个预测函数可以并行生成

    Boosting:每个预测函数只能顺序生成,因为后一个模型参数需要前一个模型的结果。

    8。在现实生活中,我们都知道“人多势众”,“三个臭皮匠比得上诸葛亮”。整合学习的核心理念是“人多力量大”。它不会创建新的算法,而是结合现有的算法来获得更好的结果。

    Boosting是一种收集技术,它试图从许多弱分类器中创建一个强分类器。这是通过从训练数据构建一个模型,然后创建第二个模型来尝试纠正第一个模型的错误来实现的。添加模型,直到完全预测到训练集或添加了最大数量的模型。

    AdaBoost是第一个真正成功的二进制分类增强算法。这是理解帮助的最佳起点。现代升压方法是基于AdaBoost的,其中最着名的是随机梯度增强器。

    AdaBoost用于短决策树。在创建第一棵树之后,树在每个训练实例上的性能被用来在下一个创建的树中加权每个训练实例的注意力。难以预测的训练数据被赋予更大的权重,而易于预测的实例被赋予更小的权重。模型按顺序一个接一个地创建,每个模型更新训练实例的权重,这会影响序列中下一棵树执行的学习。在所有的树被建立之后,新的数据将被预测,并且每个树的性能将根据训练数据的准确性被加权。

    白云信息网 版权所有© www.zzqgjd.cn 技术支持:白云信息网 | 网站地图