简介:介绍数据挖掘软件的发展和SQLServer2005数据挖掘功能,提出构建基于SQLServer2005的数据挖掘模型,并给出数据挖掘解决方案的具体步骤。
简介:传统针对文本数据的分析,往往基于词频、词频逆文本统计量作为文本的表示特征.这类方法往往只反映了文本的部分信息,忽略了文本的内在语义特征.本文研究了中文词语衔接的概率语言模型,其基本思想在于根据文本中词语出现的先后顺序进行建模分析,该模型在短文本数据挖掘中能够很好地针对文本语义进行量化分析.主要解决两类问题:一、如何合理地将中文词转化为数字向量,并且保证中文近义词在数字空间特征上的相似性;二、如何建立恰当的向量空间,将中文文本的语义和结构特征等信息保留在向量空间中.最后结合某城市房屋管理部门留言板的实际留言文本数据,利用BP神经网络和RNN网络两种算法,实现概率语言模型的求解.与传统文本处理方法的对比说明,本文的模型方法针对短文本语义挖掘问题具有一定的优势性.
简介:摘要在信息化时代的发展大环境之下,电力企业的良好稳定发展,对于信息化技术的应用能力有了越来越高的要求。电力企业在生产经营的过程中,需要针对业务范围中的信息化系统构建进行细致的研究和积极的应用。目前的发展阶段中,电力计量信息系统可以有效提升电力企业各项工作之间的联系紧密程度。设计公司可以通过构建信息系统模型,来规范电力企业的数据信息交流传递工作。本文将针对电力企业在经营管理中的以数据挖掘为核心的电力计量信息仓库模型进行分析,从体系结构的构建、功能性的设计以及模块化的实现等多个角度,对数据挖掘的可视化平台进行阐述,将CIM信息模型以及XML格式的文件作为数据挖掘平台的基层载体,可以适应越来越快的企业发展速度以及不断增长的用电量的查询管理的需求。