学科分类
/ 1
3 个结果
  • 简介:网页去是提高网络检索效果的有效途径。针对现有网页去算法的不足和网页正文的结构特征,提出一个基于网页正文逻辑段落和长句提取的网页去算法。该方法通过用户检索关键词将网页正文物理段落结构表示成逻辑段落,在此基础上提取逻辑段落中的长句作为网页特征码实现相似网页判断。实验证明,该方法提高了篇幅短小的镜像网页和近似镜像网页的去效果。

  • 标签: 网页去重 逻辑段落 长句提取 句子相似度
  • 简介:在搜索引擎的检索结果页面中,用户经常会得到内容相似的重复页面,它们中大多是由于网站之间转载造成的。为提高检索效率和用户满意度,提出一种基于特征向量的大规模中文近似网页检测算法DDW(Detectnear—DuplicateWebPages)。试验证明,比起其他网页去算法(I—Match),DDW具有很好的抵抗噪声的能力及近似线性的时间和空间复杂度,在大规模实验中获得良好测试结果。

  • 标签: 网页去重算法 特征向量 近似网页 支持向量机
  • 简介:觉敷(1893—1993)原名卓,字觉敷,出生于浙江温洲市。他6岁丧父,家境贫寒,但自幼勤奋好学,发奋进取。1916年考入北京高等师范学校,1918年被选送到香港大学学习。1923年毕业后任教于上海真如暨南学校,1926年到商务印书馆工作。他还先后任职于四川大学、广东勷勤大学、中山大学、

  • 标签: 高等师范学校 高觉敷 香港大学 勷勤大学 商务印书馆 中山大学