机器学习是什么

如题所述

提起机器学习,我们不得不给机器学习下一个准确的定义。在直观的层面,如果说计算机科学是研究关于算法的科学,那么机器学习就是研究关于“学习算法”的科学,或者说,不同于一般的显式编程,机器学习就是研究如何使得计算机在无法被显式编程的情况下进行学习的领域,需要注意的是,显式与否都是对于人类而言的——人类能否明确的搞清楚每个决策步骤,对于计算机而言,构成不同算法的代码与指令没有任何区别。
更加精确的说,机器学习的定义如下:
A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.
一个(机器学习)的程序就是可以从经验数据E中对任务T进行学习的算法,它在任务T上的性能度量P会随着对于经验数据E的学习而变得更好
由于机器学习必然利用了某些经验,它们常常数据的形式存在,我们称之为数据集,其中的每个数据称为记录。例如我们通过一个人的性别、年龄和身高预测他是否患某种常见疾病,有以下数据:
(性别:男;年龄:18;身高:174;是否得病:否)
(性别:女;年龄:17;身高:164;是否得病:是)
(性别:男;年龄:20;身高:181;是否得病:是)
(性别:女;年龄:16;身高:161;是否得病:是) ……
这可以被称为一个数据集,其中每个人的数据称为记录。在记录中,关于该对象的描述型数据称为属性,由于属性往往有很多个——如上文的年龄,身高等,可以构成属性向量,这些向量张成的空间称为属性空间。而我们的算法需要预测那个量被称为标记(label)——在上文中便是“得病与否”。在有的数据集中存在标记,有的不存在。标记构成的空间称为标记空间,也称为输出空间。
显然,由于我们只能得到整个总体数据的一部分——即训练样本,我们程序得到的模型却不能只适应于这个训练样本,它必须对整个总体数据都有比较好的预测效果。这就是说我们的模型必须具有泛化的能力。
我们训练得到的模型称为一个假设,所有的模型一起构成了假设空间。显然,可能有多种假设空间和训练数据一致——就好像对于一个知识点很少的课堂学习,有不少人能得到很高的分数,但是对于整个总体数据,学习的不同模型显然效果差别很大——真正考验很多难的知识点的考试,考验把上述表面上的学霸分开。
每个假设——也就是训练的模型,必然有其归纳偏好,也就是说,在训练集中没有见过的情况,或者两者皆可的情况,模型会选择哪种。归纳偏好是模型进行泛化的能力基础。
温馨提示:答案为网友推荐,仅供参考
第1个回答  推荐于2017-09-13
有一天,你想吃芒果了,你就到地边的小摊上去买芒果,你可以自己用手挑芒果。挑完摊主称重,根据重量付钱。
买芒果嘛,你只要不是重口味或者口味独特,还是选择最甜的,熟透了的芒果。因为你是根据重量来付钱的,又不是根据甜的程度或者熟了的程度,虽然摊主有时候会把好的芒果挑出一堆来单独涨价,但是这里这个摊主没这么做。
奶奶曾经告诉过你,芒果要买金黄色的,黄橙橙黄灿灿的,这样的最甜,不要买那些浅黄色的,因为还没熟透。
这样你就有了一点经验,虽然这点经验是别人直接教给我的:“甜芒果,就是金黄色的”。
生活没那么简单
回家,高高兴兴吃芒果,但是很快你会发现,并不是每个芒果都那么甜,有些不甜。奶奶的经验不是100%正确。只通过颜色判断芒果甜不甜,不是很靠谱。
你回忆后发现“好像是又大又金黄色的比较甜,那些小点的金黄色的芒果,得有一半是不甜。”(买了100个金黄色的芒果,有50个大的,都是甜的;另外有50个小的,其中有25个是不甜的。)
你总结出来一条经验规则了:大的金黄色的是最甜的。哈哈。你又高高兴兴的去买芒果。Shit,你熟悉的、你信得过的那个摊主走了。所以你得
换一个小摊买芒果了,但是新的摊主的芒果是产自不同的地方,你之前总结的经验可能不行了,你不知道能不能迁移过去(transfer
learning),于是你从头再开始尝试吧,发现这里小的,浅黄色的是最甜的!
一天,你表妹来找你玩,想吃芒果,但是她不在乎甜不甜,她喜欢吃多汁的。唉,以前的经验又不顶用了。你只能进行新的一轮实验,目标就是多汁的芒果(优化目标变了)。你又总结出,越软的越多汁。
你出国了读PhD,这里的芒果跟你家乡的差不太大了,这里绿色的最好吃。PhD毕业后,你结婚了,老婆不喜欢吃芒果,喜欢吃苹果。你积累的丰富的挑
if (color is bright yellow and size is big and sold by favorite
vendor): mango is sweet.
if (soft): mango is juicy.etc.
但是你想啊,这些规则越来越多的话,特征之间的组合啥的就越来越麻烦了,管理、使用都很麻烦。包括写程序实现啊,谁会笨到写这么多IfThen。机器学习
随机的选择了一个市场上的芒果,作为要研究的目标(training
data)。你可以用一个表格描述芒果属性和类型的关系,每一行可以放一个芒果的数据,包括芒果的物理属性(feature):颜色、大小、形状、软硬度、产地,等等,还有这么芒果的类型(output
variables):甜度、成熟度、多汁度。然后这就是一个多分类问题,或者回归问题,自动的从数据中学习出特征与芒果类型的各种关系等。
如果你用决策树算法,那么这个模型的样子就是你的规则库了;当然你可以使用其他模型,例如线性模型,这样就是特征的线性组合了。
甚至你的选择芒果的模型,稍微变化下就可以选择苹果了,迁移学习。
甚至你的模型会随着新的样本、新芒果种类进来后,变的越来越好,增量学习。转自-丕子 原文基础上稍作修改本回答被提问者采纳
第2个回答  2019-07-26

通俗理解机器学习:机器从数据中学习,进而得到一个更加符合现实规律的模型,通过对模型的使用使得机器比以往表现的更好。

举个例子:

中学阶段,学生通过做大量的练习题,为的就是在高考解决问题。高考的题目一般来说是之前肯定没有遇到过的(无原题),但是这并不意味着这些题目我们无法解决。通过对之前所做过的练习题的分析,找到解题方法,同样可以解决陌生的题目,这就是人类的学习。机器学习就是模拟人类学习的过程。

机器学习其实就是将这一套方式运用到机器上,利用一些已知的数据(平时的练习题)来训练机器(做,让机器自己分析这些数据,并找到内在联系(学习解题方法),构建模型,从而对未知的数据(高考题)进行预测判定等。

关于机器学习一些算法  可以关注 机器学习学习笔记 

第3个回答  2019-07-23
机器学习,是一门涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科的多领域交叉学科,是指用某些算法指导计算机利用已知数据自主构建合理的模型,并利用此模型对新的情境给出判断的过程。该学科专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器通过大数据的输入,从中寻求、验证规律,得出结论,并据此结论自主解决问题,出现偏差会自主纠错。而不是像传统电脑一样,由人给出指令,按照这些指令被动工作。
1783年,贝叶斯在发表的同名定理中最早提出了“机器学习”这个概念,即“贝叶斯定理”。该定理是一种从经验中学习的数学方法,根据类似事件的历史数据得出事件的可能性,同时也是机器学习的基本思想。到了2006年深度学习的发展成为机器学习的大突破,深度学习模仿人类大脑的思维过程,一般用于图像和语音识别。如今我们生活中随处可见的很多技术,都离不开深度学习,例如,用户在小红书APP上发布图片,可以标记途中的人物、品牌、产品,或者是人手一台的智能手机,里面的Siri、“小爱同学”等功能,当用户向他们询问“周边有哪些加油站”“上周足球比赛冠军是谁”等问题时,用户的语音将通过复杂的语音解析算法进行分析,这些都是在深度学习的帮助下实现的。
机器学习注重算法的设计,让计算机能够自主从数据中“学习”规律,并利用规律对未知数据进行“预测”,这也是机器学习的核心。“预测”会随着计算机本身的经验而不断改进,人们无需明确的编程计算机来执行任务,而是计算机主动开发算法完成任务。机器视觉、语音识别、数据挖掘、统计学习以及模式识别、自然语言处理等等,都是如今机器学习的应用范围。上海分壳信息技术股份有限公司旗下的核心产品——信贷全流程一体化金融科技平台风信子风控云,通过机器学习的核心引擎,结合大数据采集、分析、拦截、反欺诈等技术,打造一个将数据、模型、规则、流程和机器学习于一体的智能金融云平台。解决了金融机构风控“冷启动”和风险量化的难题。将信贷全流程管控以评分卡的形式量化,完整实现了基于大数据和人工智能的线上智能信贷评估。
如今人们生活中各种各样的应用都离不开机器学习的使用,许多技术资源也都基于人工智能和机器学习,在科学技术日益先进的时代背景下,机器学习正焕发着强大的生命力。
相似回答