学科分类
/ 25
500 个结果
  • 简介:聚类分析是数理统计中研究“物以类聚”的一种方法。近十几年,随着数理统计的多元分析方法的迅速发展,多元分析的技术便被引进到分类学中来,并形成聚类分析这个新的分支。聚类分析目前已广泛应用于自然科学研究领域,比如考古、地质、化学、生物等等。实际上,对经济管理、社会统计等部门的社会经济问题,也都可以应用聚类分析的方法来进行研究。

  • 标签: 经济区域 聚类划分 应用 聚类分析 社会经济问题 数理统计
  • 简介:针对网络学习者及其对案例访问的模糊性提出采用模糊的方法对学习者和案例进行聚类分析。在算法中,以各学习者对案例的访问次数、时间、学习效率等刻画学习者对案例的关注程度建立模糊相似矩阵,再由平方法求出模糊等价矩阵,然后进行聚类分析。通过具体实例阐述算法的计算过程,证明算法实现的可行性和有效性。

  • 标签: WEB日志挖掘 模糊聚类 模糊集 模糊等价矩阵
  • 简介: 首先比较了数据流聚类分析与传统的聚类分析方法的一些不同点,对目前最新的一些数据流研究成果进行了分析,最后对数据流发展方向进行了展望。

  • 标签: 数据流模型 聚类分析 数据流聚类
  • 简介:聚类分析在数据挖掘领域中占有重要地位,到目前为止学者们提出了许多的算法.本文提出了一种基于kNN的算法k-NearestNeighborCluster(kNNC).该算法首先找到每个数据点的k个邻居点,然后设置匹配点数n,通过使用每个点的邻居点进行匹配进而达到效果.本文通过三个实验去验证该算法,并且与k-means算法进行比较.实验结果表明,该算法具有稳定的正确率,而其最大的优点是不需要预先设定聚簇数,它可以大致的找到的簇数.

  • 标签: KNN算法 K-MEANS算法 聚类分析 微博文本聚类
  • 简介:文本技术作为处理和组织大量文本数据的一项重要技术,能够在很大程度上解决由于信息爆炸所带来的问题。Sollin算法是构建最小生成树的典型算法,与Kruskal算法和Prim算法相比,具有容易实现并行运算的特点。因此,利用基于Sollin的快速层次算法在复旦语料和搜狗语料上进行实验,结果表明基于Sollin的快速层次算法在运行效率和质量上都优于传统层次算法。

  • 标签: 层次聚类 Sollin算法 运行效率 聚类质量
  • 简介:通过分析目前的算法,提出了多隶属的概念;提出了一种基于频繁项目集的多隶属算法,该算法能产生事务型数据的多隶属.

  • 标签: 聚类 多隶属聚类 频繁项目集
  • 简介:SSAS聚类分析是MicrosoftSQLServerAnalysisServices(SSAS)数据挖掘平台提供的一种重要的数据分析方法,该方法使用迭代技术将数据集中的事例分组为包含类似特征的分类。在方面,SSAS提供了K-means算法和ExpectationMaximization算法,其中这两种算法又分为可缩放和不可缩放两种类型。SSAS聚类分析方法在图书馆的读者行为分析中具有较强的可操作性和实用性。

  • 标签: 聚类分析法 SSAS 图书馆 读者
  • 简介:在传统白化权函数的基础上,进一步向两侧延伸指标的取值范围,构建一种改进的白化权函数,进而生成一种新的灰色评价方法.利用新的灰色评价方法对教辅人员工作情况进行分析、计算,得到教辅人员工作评价结果,为教辅人员的选拔、聘任和评价提供量化依据.

  • 标签: 灰色聚类 聚类系数 白化权函数 工作评价
  • 简介:学生管理是学校教育的重要组成部分,清晰认识学生自身特点是对学生实施有针对性管理的前提。可以运用系统法中的最短距离法,按学生的思想品德、学习成绩、身心健康三项指标将学生分成四,即优、良、中、一般,从而为学生管理工作者根据分类结果对不同类型的学生实施有针对性的管理提供科学依据。

  • 标签: 系统聚类法 最短距离法 学生管理
  • 简介:提出了一种基于郭涛算法的算法,在WEKA平台上通过使用Iris数据集和Glass数据集对基于郭涛算法的算法和K-means算法进行对比实验,验证了基于郭涛算法的算法的有效性。

  • 标签: 郭涛算法 K-MEANS 聚类 遗传算法
  • 简介:借助K-means算法等数据挖掘技术,从我国博士研究生招生实际状况入手,从博士招生的结构质量、生源质量和选拔质量等角度分析研究生招生质量,提出科学合理的优化选拔方式、提升生源质量的博士生招生方案,对博士研究生招生单位具有良好的借鉴意义。

  • 标签: 博士 招生 质量 聚类技术
  • 简介:云计算中的群集计算应用程序(例如MapReduce和面向用户的应用程序)具有应用程序级别的需求,因此需要有高级别的抽象来表示这些应用程序的需求.协流(coflow)是一个网络级别的抽象,用来表达数据并行编程范例的通信要求.协流使应用程序更容易地将其通信语义传达给网络,从而使网络能够优化常见的通信模式.然而,现有的协流识别方案依赖于修改应用程序,并不适用于多数实际场景.提出了基于增量的协流识别策略,采用增量算法来执行快速、透明的协流识别,实现了协流识别的自动化,同时无需对应用进行修改.仿真实验结果显示,本文的识别算法具有超过90%的准确率,具有一定的鲁棒性.

  • 标签: 数据中心网络 协流 增量聚类
  • 简介:以《中国期刊全文数据库》核心期刊中有关“大学文化”研究的论文作为原始数据源,使用CiteSpaceII软件绘制时间线图,以研究主题为标签词标示文献,析出凸显主题;在数据统计的基础上,参照引用频次、徒增性和高中心性等指标选择若干关键词,并对其阐释分析;阅读每一的所属文献,把析出的研究主题词通过逻辑图的形式加以呈现,并形象解读;进而加深对大学文化相关研究的理解,深刻反思大学所肩负的神圣使命。

  • 标签: 大学文化 大学使命 研究主题 可视化 反思
  • 简介:针对Hadoop存在的不足,提出了利用分布式数据库来模拟共享存储空间的解决方案。并对DBIK-means算法做了并行化设计和实验分析,验证了DBIK-means算法在处理大数据时,能够获得较好的加速比。

  • 标签: HADOOP DBIK-means聚类算法 并行化
  • 简介:摘要:德语是德国的官方语言,也是欧盟境内使用人数最多的母语,全世界约有2亿人使用德语进行交流,庞大的德语使用人群贡献了不计其数的德语数字化文本信息。与汉语、英语等语言相比,目前国内外对德语文本挖掘的研究较少,还远未成熟,准确性不令人满意。其中,德语文本研究仍处于起步阶段,目前尚未见国内外有系统的德语文本方法研究,而当前较为成熟的汉语和英语文本方法无法直接应用于德语文本

  • 标签: 特征词配对 德语 文本聚类方法
  • 简介:健康是人的第一追求,合理的营养摄入是健康的根本保障,蔬菜在日常饮食和营养健康方面占有重要地位。通过分析不同品种蔬菜的营养组成部分,以蔬菜营养组成成分为依据,对常见蔬菜品种进行聚类分析;同时,考虑到价格因素和居民营养需求,运用目标规划,确定比较适当的居民人均蔬菜消费参考量,为人们改善营养状况和身体健康提供依据。

  • 标签: 蔬菜 目标规划 人均消费
  • 简介:针对半监督算法易受噪点的影响,提出一种基于数据清洗的改进半监督算法DCSC。将噪点从数据集中提取出来另行分析。从数据清洗处理后的数据集中抽取若干正常与异常样本分别计算作为初始样本辅助K-Means算法进行。实验结果表明,与现有相关算法相比,该算法具有检测未知攻击的能力,且具有更高的攻击检测率以及更低的误报率。

  • 标签: 数据清洗 半监督聚类 入侵检测
  • 简介:针对传统算法无法有效处理高维混合属性数据集的问题,对原有的数据归一化方法进行改进。在kmeans和DBSCAN算法的基础之上,结合增量的思想和数据之间相异度的计算方法,提出了一种基于密度的增量k-means算法。该算法能有效处理具有高维混合属性的数据集,在准确度和效率方面都得到提高。

  • 标签: 基于密度 DBIK-means聚类算法 数据相异度
  • 简介:目前很多已知的算法对于异常点的处理存在不合理的问题,将模糊集和粗糙集的相关理论加人到支持向量算法中,可增加异常点处理的合理性,并得到一种新的改进算法,将其称为模糊一粗糙支持向量算法.当支持向量集作为一个特殊的,通过元素间的亲密程度,模糊边界的隶属度可以被计算出来.而下近似集包含的样本点建立在算法训练阶段获得的超球体内.在检测异常值和计算任意轮廓的方面,该算法具有较大的优势和潜力.

  • 标签: 粗糙集 模糊集 支持向量集 超球体 数据挖掘