基于深度学习和随机森林的数据分析系统

(整期优先)网络出版时间:2022-08-15
/ 2

基于深度学习和随机森林的数据分析系统

肖梵,丁玉硕,马志帆,辛佳宝,胡学静,樊冬梅

(山东协和学院 山东济南250107)

摘要:为提高数据分析的准确度以及速度,引入卷积神经网络DL算法,开展对数据识别方法设计研究。分析对比实验结果得出,设计方法的识别结果相似度更高,识别误差更小,可以实现对数据识别准确度的提升。基于卷积结构的信号调制识别神经网络的识别性能受信号调制类型种类限制。

【关键词】深度调制识别;迁移学习;卷积神经网络;数据DL算法

一、数据分析现状

1.数据分析优化的重要性

数据分析在数据处理过程中占据十分重要的位置,随着时代的发展,数据分析也会逐渐成为大数据技术的核心。大数据的价值体现在对大规模数据集合的智能处理方面,进而在大规模的数据中获取有用的信息。要想逐步实现这个功能,就必须对数据进行分析和挖掘。而数据的采集、存储、和管理都是数据分析步骤的基础,通过进行数据分析得到的结果,将应用于大数据相关的各个领域。未来大数据技术的进一步发展,与数据分析是密切相关的。

二、数据分析优化需求分析

1.深度学习简介

深度学习(DL, Deep Learning)是机器学习(ML, Machine Learning)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(AI, Artificial Intelligence)。

深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。 深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。 

深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。

2.随机森林简介

随机森林指的是利用多棵决策树对样本进行训练并预测的一种分类器。它包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。随机森林是一种灵活且易于使用的机器学习算法,即便没有超参数调优,也可以在大多数情况下得到很好的结果。随机森林也是最常用的算法之一,因为它很简易,既可用于分类也能用于回归。
随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,这就是一种最简单的Bagging思想。

三、数据分析优化系统功能需求分析

在现如今人们的生活中,人们获取信息的速度较快。为了更好地满足人们的需求,大数据处理系统的处理方式也需要不断地与时俱进。大数据突出强调数据的实时性,因而对数据处理也要体现出实时性。如在线个性化推荐、股票交易处理、实时路况信息等数据处理时间要求在分钟甚至秒极。要求极高。在未来的发展过程中,实时性的数据处理方式将会成为主流,不断推动大数据技术的发展和进步。中科点击作为行业大数据应用专家,凭借多年大数据应用实战经验,形成了一套标准化的大数据平台开发模式,借助自主研发的采集系统和算法模型已经做到数据实时响应,保证数据应用的时效性。

四、数据分析优化的设计与实现

1. 系统总体设计方案

人工智能已经深入到了人们的日常生活和生产工作当中,应用人工智能识别数据又是重要的研究领域。当前识别技术已经逐步应用到了各个领域当中,数据分析识别作为计算机领域中重要的分支之一,主要是通过识别不同数据中的目标或对象,利用计算机对数据进行分析,得到判断结果,因此数据识别也有着十分广阔的应用前景。对于数据的识别已经成为较为成熟的处理流程,通过计算机的运算生成二值图像,再经过相应的处理,对当中的数据信息进行特征提取分析。

2.信号调制识别网络设计

卷积神经网络当中的DL算法是一种通过计算损失函数实现对神经网络迭代结果对应参数权重衡量的算法。将该算法应用到实际环境当中,可实现对具体问题在有效程度上的描述。通过分析损失函数的改变方向,实现对相关关键参数权重的获取,若得出的结果更加趋近于实际结果的梯度方向,则说明关键参数的权重更高,反之同理。将该算法应用到对文字图像的识别当中,可以进一步提高卷积神经网络在该方法当中的应用效果描述精度。基于此,本文开展对卷积神经网络DL算法在数据识别当中的设计研究。鉴于CNN网络出色的识别性能,本文将其作为信号调制识别性能的对比网络。该网络包括2个卷积层和3个全连接层,网络输入样本为1024点长度的原始I、Q数据。卷积层主要对输入数据进行特征提取,通过卷积操作生成特征图。每个卷积层中包含多个卷积核,卷积步幅设为1。网络中的激活函数采用ReLU函数,其函数表达式如式(1)所示。网络中的池化窗口大小设为1×2,采用最大池化方式,池化步长设为1,沿着同一维度对特征平面进行降维。

f(z)=max(0,z)            

其中z为激活函数的输入特征。 

五、展望

通过对数据分析使数据可以做到分类、预测、关联规则和推荐系统、预测分析、数据缩减和降维、数据探索和可视化、有监督学习和无监督学习并且对数据进行现状(过去发生了什么)、原因(为什么这些现状会发生)、预测的分析(未来会发生什么)。

参考文献

[1]张蕾,章毅.大数据分析的无限深度神经网络方法[J].计算机研究与发展,2016,53(1):68-79.

[2]周林腾.基于神经网络算法的大数据分析方法研究[J].电子设计工程,2018,26(9):19-22,27.

[3]张顺,龚怡宏,王进军.深度卷积神经网络的发展及其在计算机视觉领域的应用[J.计算机学报,2019,42(3):453-482.

作者简介:

肖梵,男,山东协和学院,网络工程20级

丁玉硕,男,山东协和学院,网络工程20级。

马志帆,男,山东协和学院,网络工程20级

辛佳宝,男,山东协和学院,网络工程20级

胡学静,女,山东协和学院,网络工程20级

樊冬梅,女,山东协和学院,讲师,研究方向:人工智能、物联网应用。