网页分类专利技术发展与案例审查

(整期优先)网络出版时间:2023-11-16
/ 2

网页分类专利技术发展与案例审查

刘津

国家知识产权局专利局专利审查协作天津中心

摘要:网页分类在基于网页的网络信息搜索、组织、信息推荐中占据十分重要的地位。随着数字信息化的快速发展,网页数据量呈爆炸式增长,网页分类已成为人们研究的热点。本文首先对网页分类进行梳理总结,然后结合实际案例展开了专利技术分析在审查实践中的应用。

关键词:网页分类;自动分类;网页分类应用

一、研究背景

据中国互联网络信息中心(CNNIC)在京发布第38次《中国互联网络发展状况统计报告》显示,截至2016年6月,中国网民规模达7.10亿,互联网普及率达到51.7%,超过全球平均水平3.1个百分点。互联网的再度发展,使得网站数目再度爆发式增长。目前,通过百度搜索的日均请求达到60亿次[1]。由于网站数目的持续增加,网民获取信息的窗口也愈加多样化。不过,大量的网页也带来了管理上的难度。如何检索网页数据,并对信息进行甄别、分类成为一个很棘手的问题。

网页分类是组织和管理信息的有效手段,它可以在较大程度上解决信息杂乱无章的现象,并方便用户准确地定位所需要的信息。传统的操作模式是对其人工分类后进行组织和管理。这需要大量的人力资源。随着Internet上各种信息的迅猛增加,仅靠人工的方式来处理是不切实际的。因此,网页自动分类是一项具有较大实用价值的方法,也是组织和管理数据的有效手段。

网页分类是在文本分类技术上发展起来的,但网页分类相对文本分类来说,要考虑更多的因素,这也增加了对网页处理的复杂性,这主要是由网页的特征决定的。第一,万维网上的网页数量巨大。第二,网页的格式非常灵活,有html、asp、xml等多种格式并存;而且任何人、任何单位都可以把自己制作的网页发布到互联网上,网页的写作风格、网页的内容变化都很大。第三,一个网页内的内容并不单一,通常包含了许多与主题无关的内容,如版权信息、欢迎信息、广告信息等,这些对网页分类来说都构成了噪声。第四,网页的结构信息、万维网上的链接信息以及日益丰富的一些其他网络资源(如查询日志等)又为网页分类提供了有利的信息。

二、网页分类模型及常用分类算法

分类是一种重要的数据挖掘技术,网页分类技术是在文本分类的基础上发展起来的。网页自动分类可划分两类:一种是基于知识的;一种是基于统计的。本文研究是基于统计的网页自动分类技术,它忽略文档的语言学结构,从网页内容中抽取语言特征构成特征向量,形成向量空间,然后根据向量之间的相似性,使用各种算法实现网页的自动分类。

如图1所示,网页分类模型。网页分类一般被描述成文本表示、特征选择与特征提取、分类模型和评价方法几个步骤。

图1 网页分类模型

HTML网页输入系统后的基本流程:第一,预处理阶段,主要完成特征的抽取,从杂乱无章的网页中抽取文本信息和结构信息。经过分词后,构建一个全局词典。该词典在之后将用于指导分词。第二,文本特征表示,指的是关于网页文本的元数据。一般的研究中,均采用了BOW的思路,简化地表示文本,如向量空间表示模型(VSM)。第三,特征选择,指的是特征向量空间降维的策略。一般的特征选取方法有信息增益、互信息等统计方法。第四,分类器,指的是分类的算法选择。

分类算法是网页自动分类的关键所在,下面对几种常用的分类算法进行介绍:

(1)贝叶斯算法(NB):NB算法是一种简单而有效的传统分类算法,也是文本自动分类中应用较早的机器学习方法,该算法的基本思想是判断某文本属于该类别的概率,文本属于该类别的概率等于文本中每个词属于该类别的概率的综合表达式,所得概率最大的类别即为新文本最可能的所属类别。NB算法对语义丰富的语言文字信息往往过于简单,这在一定程度上限值了算法性能。

(2)K-近邻算法(KNN):KNN算法即k近邻法,是模式识别非参数法中最重要的方法之一也是模式识别中广泛使用的分类方法。该方法基于类比学习,是一种非参数的分类技术,它在基于统计的模式识别中非常有效,并对未知和非正态分布可取得较高的分类准确率,具有概念清晰等优点。KNN算法本身简单,被认为是VSM理论下最好的分类算法。但其也存在如下几方面的问题:首先,KNN是懒散的分类算法,对于分类所需的计算均推迟至分类进行,所以在其分类器中存储有大量的样本向量;其次,KNN算法是建立在VSM模型上的,若认定各维对于分类的贡献度相同,显然这不符合实际情况。

(3)支持向量机法(SVM):SVM法是近几年发展起来的新型的通用知识发现方法,在分类方面特别是对有限样本集的分类方面表现出了良好的性能。它主要采用结构风险最小化原则,通过适当选择函数子集及其该子集中的判别函数使学习机的实际风险达到最小,得到一个具有最优分类能力和推广能力的学习机。通过一定的学习过程,SVM可以自动地找出那些对类别有较好区分能力的支持向量,构造出可以使类与类之间的间隔最大化的分类器,因而具有较强的分类能力和扩展能力。

(4)决策树:决策树是以实例为基础的归纳学习算法。它是一种从一组无次序、无规则的事例中推理出决策树形式的分类规则。是一个类似于流程图的树结构,其中每个节点代表一个属性上的测试,每个分支代表一个测试输出,最后的叶结点代表类别。它采用自顶向下的递归方式,对决策树内部的节点进行属性值比较,并根据不同属性值来判断该节点向下的分支。

(5)神经网络是分类技术中的重要方法之一。它的学习结果为目标函数,根据这个目标函数的输出作为分类的依据。输入即为文本在各个特征上的各分量值。神经网络实际上是一组连接的输入/输出单元,其中每一个连接都具有一定的权值。通过训练集来训练的过程就是调整这些权值的过程,使得神经网络可以正确的预测类别。

三、审查实践

专利技术综述有助于审查员更加接近本领域技术人员的水平、快速理解发明并准确锁定发明构思、极大地缩短了检索时间,从而提高审查效率。以下结合本领域一个审查实例进行说明。

申请号:2013103919615

发明名称:一种识别网页类型的系统和方法

技术方案:一种识别网页类型的方法,识别网页类型的方法:对特定的网页类型预先定义启发式规则并生成列表;从训练网页中提取预定特征并形成标准化的特征向量,对其进行两次优化形成精简的特征集合,构建分类器和特征抽取器,分类器生成分类模型,特征抽取器设定了抽取的设定特征;基于待识别网页的统一资源定位符(URL)和源代码,在启发式规则列表中执行规则匹配,匹配成功则输出网页类型;不成功,则利用分类器根据抽取到的设定特征和分类模型,执行网页类型分类。

分析说明:在理解上述技术方案的基础上可以发现,本申请所要解决的问题是:如何自动、快速的识别网页类型。采用的技术手段是:预先定义启发式规则;从训练网页中提取预定特征并形成标准化的特征向量,进而形成精简的特征集合,构建分类器和特征抽取器;基于待识别网页的URL和源代码,在启发式规则列表中执行规则匹配。达到的技术效果是:解决了现有技术中基于启发式规则进行网页类型识别效果较差、分类器的特征选取不合适、尤其在对跨语言的网页进行识别时需要做较大改动且效率较低的问题。

根据前文分析的技术发展路线,可以判断出该技术方案属于对网页分类技术本身的改进。同时,该申请的技术方案的关键在于启发式规则匹配器和分类器相互配合使用,以达到速度快且识别精度高的目的。因此,我们可以缩小检索范围。根据“网页”、“类型”、“识别”、“提取”、“特征”、“匹配”、“分类器”等相关关键词,加上分类号“G06F17/30”获得相关对比文件;然后利用“启发式规则匹配器和分类器相互配合使用”进行筛选可以很快确定题为“判断网页类型的方法和装置”的专利CN101872347A为最近的现有技术,该文献公开了判断网页的网页类型的方法:基于待判断网页的统一资源定位符,在预先存储的规则列表中执行规则匹配,其中规则列表包括多条用于确定网页类型的规则记录;如果规则匹配成功,则依据成功匹配的规则得到待判断网页的网页类型;如果规则匹配失败,则从待判断网页的URL和超文本标记语言源代码中提取预定特征,并基于由从提取的预定特征中选择的特征构成的特征向量,使用分类器对待判断网页执行网页类型分类,以得到待判断网页的网页类型。经过进一步比对,该对比文件可以作为Y类对比文件。在实际审查中,申请人在答复一通时对权利要求进行修改,通过使用该对比文件使得本申请获得一个合理的保护范围,提高申请人专利权的稳定性。

四、总结

虽然互联网上的信息载体呈多样化趋势,但仍以文本为主,文字仍是互联网上信息的主要来源,这使得文本分类具有广泛的应用。但是网页不同于文本文件,它是用HTML语言写成,俗称HTML文件。要对其进行自动分类,首先就必须分析它的结构并提取所需的文本信息。

参考文献

[1]中国互联网络信息中心.第38次《中国互联网络发展状况统计报告》.北京.2016