将机器学习引入心理学研究

/ 2

将机器学习引入心理学研究

朱仕浩刘芯伶

(浙江师范大学教师教育学院,浙江金华321004)

近年来,随着计算机技术的进步,机器学习(machinelearning)研究也得到飞速发展。机器学习,顾名思义就是让机器像人类一样产生学习的行为,这种行为在人类身上表现为知识获取与能力改善,在机器上就表现为一个不断重复且有反馈的信息处理与控制过程。目前,机器学习已在许多领域得到广泛应用,如图像处理、模式识别、自然语言理解、语音识别、信号处理和专家系统等,并同样以其强大的魅力吸引着广大心理学研究者们,在机器学习的带动下,心理学研究必将迎来一片新天地。

自20世纪50年代以来,机器学习主要历经了以下四个阶段。第一阶段,20世纪50年代到20世纪60年代,属于热烈期。此时研究者们主要研究目标是各类自组织系统和自适应系统,但其结果远不能满足人们对机器学习的期望;第二阶段,20世纪60年代到20世纪70年代,属于冷静期。此时的研究目标是模拟人类概念学习的过程。第三阶段,20世纪70年代到20世纪80年代,属于复兴期。此时,人们从学习单个概念变为学习多个概念,寻找不同的学习策略和学习方法,并与各种应用结合起来获得很大成功。第四阶段,20世纪80年代至今,这个时期机器学习已成为新的边缘学科,它综合应用于心理学、生物学、计算机科学等领域知识,形成机器学习自身的理论基础;并融合多种学习方法,形成多种多样的集成学习系统;又有效地与商业结合,极大的加速了机器学习的发展。因此,在这个机器学习空前活跃的时代,心理学研究也不能固步自封,应当用于接收新事物,并将其融入自身的研究中去。

在这个信息爆炸的时代,研究缺少的不再是数据,而是如何有效且快速分析数据的方法,心理学研究同样拥有这一问题。传统心理学研究主要通过观察法、访谈法、问卷法以及实验法等,得到少量但准确的数据。分析这些数据的方法一般包括T检验、F检验、方差分析、回归分析、结构方程模型等。因收集的数据量较少,实验数据要求必须真实可靠,实验对象也必须具有充分代表性。但收集数据过程中,研究人员的无意行为或环境变化都可能对结果产生干扰,从而导致外部效度下降,这一问题一直困扰着心理学研究。如今,机器学习的发展为此提供了解决方案,它不仅可以分析结构化数据,也可以分析非结构化数据,为研究提供了另一个视角。在机器学习的辅助下,心理学研究不仅分析实验结果,同时分析实验的过程数据,并以数据驱动的方式得到分析结果。结合机器分析结果与实验结果双向验证,排除无效实验样本,提高外部效度。结合机器学习,心理学研究可以从微观与宏观两个角度加以分析。微观上,使用传统心理学研究方法分析实验结果数据;宏观上,使用机器学习方法分析实验过程数据,也可对样本人口学变量分析。这样不仅可以保证数据的可靠性,还可以从多个角度判断结果。

机器学习自20世纪50年代发展至今,分类繁多。基于学习策略可分为模拟人脑的机器学习(符号学习与神经网络学习)与统计机器学习;基于学习方法可分为归纳学习(符号归纳与函数归纳)、演绎学习、类比学习与分析学习;基于学习方式可分为监督学习、无监督学习与强化学习;基于数据形式可分为结构化学习与非结构化学习;基于学习目标可分为概念学习、规则学习、函数学习、类别学习与贝叶斯网络学习。其中基于数据结构的非结构化学习尤其适用于对大量且无结构的数据进行分析,可以与心理学研究很好的结合,多方面多角度的对同一研究问题进行分析。

为了实现机器自我学习,还需要给机器赋予某些学习策略。主要可以分为三种:基于神经网络的学习、进化学习以及强化学习。基于神经网络(neuralnetwork)的学习是一种高度复杂的非线性动力学系统,单个神经元的结构十分简单,但当大量神经元相互连接成为一个复杂网络时,就会体现出强大的学习能力。神经网络的模型主要可分为四种,分别是神经元层次模型、组合式模型、网络层次模型、神经系统层次模型,根据神经元之间的连接方式又可分为前向网络、反馈网络、相互结合型网络与混合型网络,一些简单的神经元经过不同的模型、不同的连接方式可以生成不能性能的神经网络,这些神经网络就可以适用于各个不同的场景,解决不同的问题。

进化学习主要是模拟自然界“自然选择,物竞天演”的一类随机搜索型计算方法,主要包括遗传算法(geneticalgorithm)、进化策略(evolutionarystrategy)、进化规划(evolutionaryprogramming)以及分布估计算法(estimationofdistributionalgorithm)。遗传算法是建立在自然选择和群体遗传学基础上的,具有广泛适用性的搜索方法。它先将搜索结构编码为字符串形式,以每个字符串结构为个体,然后对一组群体进行循环操作,类似于自然进化;进化策略是一种效仿进化规律以解决参数优化问题的方法,其主要特点为,第一,以n维实数空间上的优化问题作为处理对象。第二,每个个体都含有随机扰动的因素。第三,每个个体的适应度就是个体对应目标的函数值。第四,以个体的变异运算为主要搜索技术,辅以个体间的交叉运算。第五,选择运算时,选择最优几个个体保留到下一个群体中;进化规划的基本思想也源于对生物进化中的一种模仿,它直接用搜索空间中的一个点来表示群体中个体的适应度,个体适应度由目标函数经过某种比例变换得到,即保证适应度为正值,又维持了个体之间的竞争,变异算子与选择算子也在其中发挥着必要的作用。分布估计算法与传统进化算法不同,其框架为,第一步,初始化种群,对每个个体估值。第二步,从种群中选取较优个体。第三步,根据这些个体生成一个概率分布模型。第四步,随机抽样出下一代个体,并进行估值。第五步,满足停止条件时停止,未满足跳至第二步。

强化学习(reinforcementlearning)主要是让一个能感知环境的自治智能体(Agent)在行为-评价的环境中获取知识,改进行动方案以适应环境。主要可以分为基于离散化方法的连续空间强化学习与基于函数逼近法的连续空间强化学习。两种方法各有优势,需要根据现有问题对应选择。

以上三种策略各有侧重,在心理学研究中,较多使用到基于神经网络的学习。无论是图形、声音、视频,还是实验数据,均可通过神经网络学习得出一个模型,该模型可以处理所有这类结构的数据,为心理学研究提供方便且可靠的结果。进化学习与强化学习同样在心理学研究中也可以得到应用。

在心理学研究中,以往都是简单的使用SPSS、excel亦或是amos等软件分析数据,传统的心理学研究较多的采用了问卷,数据量并不多,在这种情况下以往的方法,工具还可以得到有效使用。但现在,随着信息技术的发展,许多特定的工具被研发,比如脑研究中的数据,情绪研究中的情绪数据,以及在许多研究场景都需要使用到的图片处理数据,这些数据用以往的方法,工具很难充分利用其内部信息,大部分信息被虚化,而随着机器学习方法的引入,其强大的计算能力,可以有效的处理大批量的数据,并且对这些数据做出合理的处理。数据的大量涌现让我们不能一直站在原有的方法上,必须改变现有的方式,采用更为先进的技术。

当然机器学习目前也是一个正在发展中的学科,在不考虑特殊领域的情况下,若是想要找到一个一劳永逸的机器学习方法,用于解决所有我们面临的问题,这必然是徒劳的。不同的领域有适合的方法,机器学习的方法如此多种,每种下面又有许多细分,若可以对每一种都有所了解,在处理不同问题时自然就可以得心应手。如在处理心理学情绪研究时,就可以采用神经网络中的卷积神经网络对图片进行识别,识别出每一张图片中的情绪状态,以往这些最枯燥的实验步骤可以完美的让机器替代,并且其分类结果甚至会好于以往的分类方式。在处理问卷数据时,以往较多的会采用结构方程模型,得到问卷的分析结果,如果加入机器学习,我们使用数据的输入与输出对模型进行训练,我们可能无法得知模型内部具体的迭代过程,但我们可以得到一个预测性远远好于其他方法的模型,对于中间的这个黑箱想要深入理解可能比较困难,但是得到的模型却是远远好于以往的模型。还有心理学研究中的认知诊断领域,以往较为常用的是复杂的参数方法和简单的非参数方法,现在有了机器学习方法,将其应用于其中,以往碰到的许多问题都会迎刃而解。

总的来说,心理学作为一门研究人类心理活动及其规律的学科,必然有其复杂性。以往研究为便于分析必须对实验进行简化,而如今,机器学习的引入可以对复杂数据进行分析,研究数据不再仅限于传统的问卷、实验等方法,也可以通过网络、APP等渠道收集大量的心理过程数据。这不仅弥补了传统心理学研究依赖小样本的不足,同时还在更大的空间上为实验者提供参考,开拓了心理学研究视野并促进心理学研究的发展。