研究机器学习理论及应用

(整期优先)网络出版时间:2019-05-15
/ 3

研究机器学习理论及应用

刘兴翔

(中国人民大学,北京100872)

摘要:机器学习就是一个让机器获得学习能力的过程,如今计算机和人工智能相关的发展已经取得了优异的成绩,但是想要让这些机器不再受“预装程序”的限制,让其具备自我的学习能力,机器学习就是一个非常具有潜力的研究对象,也是现如今人工智能突破自身瓶颈的一个有效办法,本文介绍了机器学习的发展背景和理论,对几种机器学习理论和相关应用进行了分析。

关键词:机器学习;人工智能;学习能力;学习方法

1.发展背景及理论

机器学习作为人工智能最具特征最具代表性的领域,已成为时下相关领域研究的热点,机器学习就是通过研究让计算机模拟或获得人类学习活动的能力,是让机器学会“独立思考”的一个过程,与我们人类学习的过程在某一方面来说具有极高的相似度。机器学习作为人工智能最具特征最具代表性的领域,从80年代起,就引起了相关领域界的极大兴趣。不管是通过提高效率来增加其解决问题的速度,还是通过增加范围来让其具有处理更多问题的能力,这都是其性能提高的表现。

我们都知道,计算机处理问题的速度和能力非常强大,但这些强大的能力都是人类赋予的。很显然,计算机想要获取“智能”的身份,其学习是必不可少的。知识的使用、表示和获取被称为只是工程的三大支柱。而关于机器学习的研究对象,就压侧重如何获取知识并实现该过程的自动化。而关于机器学习的概念,相关领域似乎已经达成了共识:不具有学习能力的职能不是真正的智能。即使如今人工智能在各个方面都取得了不错的成就,如专家系统、自然语言理解、计算机的视觉和听觉等成功的系统,但这些“先进”的系统仅仅只有少部分存在机器有限的学习能力,大部分仍然跟学习能力扯不上任何关系。而这些系统也难逃“填鸭式命运”,所以在其运行中就算呈现知识错误或存在一定的片面性,它也不会自动修改结果。所以,这也是为什么机器学习成为了目前人工智能领域最具研究型的问题之一。而机器学习的研究会让人们对自身学习能力和局限性有客观清醒的认识,这样还能对人类教育的方法产生积极的作用。

机器学习成为了庞大的人工智能领域中一个年轻化的板块,被相关领域研究人士认为是科研的重中之重。几十年的时间中,大量的研究者们涌入这个领域,对其进行更深的研究,并且让其应用的领域也越来越广泛。2010年时,哈佛大学计算机系的LeslieValiant被授予图灵奖,以此奖励其在机器学习领域的优秀成绩。就连赫赫有名的国际数学大师SteveSmale在成名之后,也一心转行至机器学习的理论研究。而具有实际应用性的研究也非常多,比如关于解释的学习、神经模型学习以及基于遗传算法的学习等等方面。下面我们列举几类成功应用到实际中的机器学习法。

2.相关机器学习法的概念及应用

2.1决策树学习法的概念及应用

通过对已有答案范例的分析,提出能够对决策人员权衡利弊起到帮助作用的方案,这就是决策树学习法,而该方法也是发展最成熟的学习技术之一,很多关于该技术的软件商品也相当畅销。这个方法曾经被美国航天局成功地应用,他们用此方法来对图像进行分析,从而对从空间和地面拍摄到的天体照片进行处理。该方法的使用流程如下,先将一些已经由专家识别过的星座范例照片作为输入的信息,然后通过分析构造出一个相关的决策树,然后在使用的阶段,将大量还没有识别的照片输入,经过测试之后,就可得到对图像做出的判断结果,而最终的测定结果的准确率高于90%,可以说明的是,构建决策树就是一个学习的过程。决策树具有双数值的数据结构,任何一条树根到树叶的路径都是一条有效的规则,而只要决策树构造成功,就不再需要相关人员的编程等工作,因为决策树可以直接向系统知识库提供规则。决策树学习法的关键就是对决策树完美的构建,当然也是最耗费时间的过程。首先需要找到一个最有利的特征作为树根的分叉点分得到两个子树,这就是一个递归的过程,然后继续用递归法对子树的分岔点进行选择,这个过程直到子树内全部范例具有同样的分类值。决策树的应用性很高,但其也存在规则不含概率性和不能处理相互矛盾的范例的局限性。

2.2事例学习法概念及应用

事例学习法也是当下应用较广的一门学习技术。它的理论概念是:对已经选择过去有用范例做集合并加以索引后存储,当一个新问题出现的时候,就会先到事例库中找寻已经被解决过的例子,然后用这个范例尝试解决该问题,从而得出新的论断。如果范例是为问题量身打造的那就再好不过了,当然如果存在差异的化稍加修改便可适用,如果修改后匹配度太低或者还要进行大量的修改工作,就要寻找其他相似事例;当然如果最终都没有较为合适的范例,就需要通过人工来解决了,当问题解决之后,问题本身和解决方法都会以新事例作为存档入库。由洛克希德人工智能中心研制CLAVIER(基于事例的配件组合系)便是这一学习方法的成功应用,也是首批用于工业生产的基于事例的学习系统之一。我们都知道航天是一项耗资非常大的事业,尤其是航天器上一些特殊的配件,不断价格昂贵,而且规格也有所不同。在过去的生产过程中,一般都采用的是高压热处理和手工作分布的方法,这种含有人工操作的方法弊端特别多,导致废品率极高,所以造成的资金浪费也高居不下。而通过使用该系统推荐的分布方案之后,直接形成了让人不可思议的零废品率的结果,这是因为系统中存储了全部无废品出炉件的范例。而基于事例的学习法的另一个比较热门的应用是在市场销售预报系统上。一个经营连锁店的商业集团,需要在前几星期对各个分店的货物需求进行预估,而在以前的过程中,大多都是依靠往年的数据和人工的判断,误差率有时候会非常高,而这个集团通过对专家系统和神经网络进行比价之后,选择了基于事例学习法,将前三年的市场记录引入范例,形成事例库,让预报误差从原来的40%直接降低到8%,可见其应用性。

2.3遗传学习法的概念及应用

基于遗传的学习法是以竞争为原则,通过评估解决问题的规则在应用领域中作用的大小,来进行优胜劣汰的“繁殖”。我们可以这样理解这个过程,首先将参赛的每一轮规则看作一代,从其中选出优秀的“选手”进行交配,这样就产生了新一代的规则。如此这样进行一代代的更新,让每一轮都能获得比前一轮质量更高的规则,这是不是跟渔船生物学的”繁殖“很相似呢?而且应用领域也跟这种规则相似,在一个不断变化的环境中,其规则为了适应环境的变化不断的更新,而其中学习能力强的规则适应变化的能力就相对较强。这种把生物进化作为模型的方法被成为遗传算法,是在1975年被霍兰德(JohnHolland)提出的。到目前其应用的范围也相当广。虽然专家系统的应用得到了良好的发展,但机器学习在其中的贡献就少之又少。最大的障碍就是表达规则的句法过于复杂。所以分类系统就采用了固定长度的数串(0和1)来进行表达。而符合规格的数串都属于句法上有意义的规则,这种有利于比较的形式就是它的特点。固定规则长度的存在,让遗传算法中的变形算子能够获得较好的使用,遗传算法的有两类变形算子,交叉(Crossover,即分节互换两条规则的表达式)和变异(Mutation'即随机地改变一条规则的某一特征)。而为每条规则进行规则级别评定和加(减)权值就是奖罚系统的工作,这样就可以促成有用规则的良性循环,让其变得更加有用并做出更多的贡献。但变形的过程中,结果会出现有时好有时坏的不可控性,这不仅造成时间上的浪费,还让方法进行的速度变缓,好在遗传算法对该算法进行了弥补。

近两年来,并行遗传算法又成了研究领域的一个热点。在应用上曾经出现了一个比较有趣的例子,由于美国的某大型航空公司的机种特别多,每个集中的训练计划和要求也截然不同。飞行员最关心的就是机种的选择问题,因为这样直接跟他们以后的前途和钱途挂钩,所以就造成了飞行员的个人意愿和航空公司的计划发生矛盾的现象,临时或突发地将训练计划进行更改这种行为会给肮空公司造成很大的资源浪费。为了解决这个问题,航空公司将对历任飞行员的选择和其他相关数据进行了统计,并根据这些数据设计出了一个预测飞行员训练计划的基于遗传的学习系统。该方法施行后,不仅避免了公司的预测错误结果,连飞行员们也都愿意使用该系统对自己做出合适并有利的人生前途选择。

2.4解释学习法的理论及应用

基于解释的学习法指的就是当一个具有价值的问题得到解决之后,从中吸收比较抽象的学习过程。这个自从上世纪80年代以来活跃度一直很高的领域的目的就是集各种高级思维于一身,来防止突发情况。而什么是有价值的问题呢?就是那些需要用曾经没有被使用过或者更有效的方法来解决的问题。这种问题的价值就在于,一旦被解决之后对其解决的方法进行加工修缮,然后以一种捷径的规则将其存储起来,就可以在以后的问题中使用。这个方法的优势在于其分析性特别强,并且要求使用系统已经具备足以解决那些有价值的问题的足够知识。这个学习系统输入的主要信息有:目标的概念定义,也就是对将要学习的某个概念的一种描述;训练例子(将有价值的问题作为教学的范例);领域理论,就是对某个训练例子为什么是目标概念这一解释的过程中用到的规则和事实;运用规范,就是对所学概念应该具有的表达形式做出明确的规定。而一个形成的概念就是这个系统的输出信息,也就是对训练因子广义化处理后的一种表达形式。而这个形式需要满足需求的运用规范,还需要能够被很快地识别利用。而这总方法的目的就是加快解决问题的过程,所以又被称为加速学习。规划设计和自动控制等领域都是该方法的应用范围。不仅如此,它还能和其他的学习方法进行组合使用。在基于该方法的使用过程中,有两点需要注意:第一需要注意规则使用的效率问题,要不断向知识库增添新的规则,选择一套筛选的算法,对低效率的规则进行定期处理,从而让系统效率得到保证;第二点需要注意依靠近似技术或者启发式的方法,解决领域理论的不完整性。

4.结语

学习是一个相当复杂并且庞大的工程,而机器学习的复杂之处在于其多样的输入信息。在这些信息流之中,包括直接观测的数据,也包括经过处理的结论型或半结论型知识,这些纷繁杂物的知识有时候会要求系统知识的多样,有时要求又非常有限,正是这种复杂性的存在让机器学习研究领域受到了阻碍。机器学习作为新兴领域,发展时间太短导致一些问题的出现。机器学习中作为人工智能发展的“瓶颈之处”,对研究者们提出了新的要求,希望通过更多领域的结合或者新的学习体制来解决这个问题。

参考文献

[1]赵玉鹏.论机器学习[N]安阳工学院学报,2011,10(52):34-36.

[2]颜远松等.机器学习理论研究[J].中国科学技术大学出版社,2009.

[3]马笑潇.智能故障中的机器学习新理论机器应用研究[D].2002.12.

[4]张利君.大规模机器学习理论研究与应用[D].2012.15.

[5]郭亚宁.机器学习理论研究[J].中国科学信息,2010.3(14).

作者简介:刘兴翔(1985.07-),男,甘肃省靖远县人,中国人民大学在职研究生在读,主要研究方向:机器学习算法及相关工程应用。