/ 2

网页分类技术重点专利分析

国家知识产权局专利局专利审查协作天津中心 刘津

摘  要:网页分类在基于网页的网络信息搜索、组织、信息推荐中占据十分重要的地位。随着数字信息化的快速发展,网页数据量呈爆炸式增长,网页分类已成为人们研究的热点。本文从重要申请人技术分布、研究热点等角度对网页分类技术的中国专利申请情况进行分析。

关键词:网页分类;自动分类;网页分类应用

一、研究背景

据中国互联网络信息中心(CNNIC)在京发布第38次《中国互联网络发展状况统计报告》显示,截至2016年6月,中国网民规模达7.10亿,互联网普及率达到51.7%,超过全球平均水平3.1个百分点。互联网的再度发展,使得网站数目再度爆发式增长。目前,通过百度搜索的日均请求达到60亿次[1]。由于网站数目的持续增加,网民获取信息的窗口也愈加多样化。不过,大量的网页也带来了管理上的难度。如何检索网页数据,并对信息进行甄别、分类成为一个很棘手的问题。网页分类是组织和管理信息的有效手段,它可以在较大程度上解决信息杂乱无章的现象,并方便用户准确地定位所需要的信息。随着Internet上各种信息的迅猛增加,仅靠人工的方式来处理是不切实际的。因此,网页自动分类是一项具有较大实用价值的方法,也是组织和管理数据的有效手段。

二、网页分类技术专利申请现状

本文在中国专利文摘数据库(CNABS)中进行检索,在检索过程中采用了分类号与关键词相结合的方式进行检索。基于获得的检索数据,从专利申请量趋势、申请人的申请量排名、主要申请人技术分布等角度进行统计分析。

(一)主要申请人技术分布

通过上述主要申请人的中国专利申请量排名分析可知,国内近年来越来越多的互联网公司、科研院所致力于网页分类技术,提出了许多新算法和理论,网页分类技术在国内发展飞速。网页分类技术对搜索引擎、资源推荐、信息抽取等的有效辅助已引起互联网公司、科研院所的注意。下面分别对主要申请人涉及网页分类技术的申请进行剖析,以明确主要申请人的研究热点。

1. 腾讯公司技术分布

(1)对网页分类技术本身的改进是指对网页分类中的预处理阶段、文本特征表示、特征选择、分类器等步骤进行改进,其中涉及分类器的改进最为常见。如CN104809125A,其公开了一种网页类别的识别方法和装置,获取待识别网页的页面特征;根据预先生成的决策树模型加载页面特征,决策树模型由已经确定网页类别的多个样本网页训练生成。

(2)信息推荐是指在进行信息推荐时,利用网页分类技术对用户特征信息或待推荐信息进行加工处理。如CN102411587A,其公开了一种为移动终端浏览器提供推荐信息的方法及系统,移动终端浏览器对历史网址记录中的每个网址进行分类,为每个网址的分类词进行分值计算并进行加和,得到各分类词的相加结果;浏览器按照相加结果对各分类词进行排序,从分值最高的分类词开始,提取出设定个数的分类词,将提取的分类词发送给服务器;服务器生成与分类词关联的推荐信息,发送给浏览器进行展示。

(3)网页分块与展示是指依据网页分类相关信息对网页进行分块、渲染、显示等。如CN101320393A,其公开了一种网页分类显示方法,包括:分析用户指定的网页信息的步骤;根据分析结果,判断是否触发网页分类的步骤;对触发网页分类的,建立分类并显示属于同一分类的至少二网页;不触发网页分类的,直接显示网页的步骤。

(4)搜索是指在进行信息搜索时,利用网页分类技术对搜索结果进行筛选。如CN103678400A,其公开了一种基于群体搜索行为的网页分类方法,网页分类方法,根据搜索词分类库确定群体搜索行为所使用的搜索词的分类属性并建立搜索词分类库,根据搜索词的分类属性以及使用搜索词时每个被点击的网页对应的被点击次数确定被点击网页的分类属性。

2. 奇虎360公司技术分布

(1)对网页分类技术本身的改进是指对网页分类中的预处理阶段、文本特征表示、特征选择、分类器等步骤进行改进,其中涉及分类器的改进最为常见。如CN104008126A,其公开了一种基于网页内容分类进行分词处理的方法和装置,提取搜索资源中网页内容的文本信息;依据所述网页内容类别划分所述文本信息所属类别;按照所述文本信息所属类别对应的分词词典,对所述文本信息进行分词处理。

(2)信息抽取是指利用网页分类技术将网页分为几个大类,然后提取网页数据。如CN104331438A,其公开了一种对小说网页内容选择性抽取方法和装置,将目标小说网页解析成文本对象模型树结构;对所述文本对象模型树结构中的各结点进行分类,以确定网页的结构分块;根据所述结构分块选择性抽取网页相应的结构化数据。

(3)搜索是指在进行信息搜索时,利用网页分类技术对搜索结果进行筛选。如CN104537053A,其公开了一种分类站点挖掘方法和装置以及搜索方法和系统,对于一个待挖掘的站点分类,确定属于该分类的一个或多个基础站点;提取基础站点网页内容,并挖掘基础站点网页内容中的推荐和/或引用的其他站点链接;将所述其他站点链接中的一个或多个添加到该分类的站点集合中。

(4)信息推荐是指在进行信息推荐时,利用网页分类技术对用户特征信息或待推荐信息进行加工处理。如CN103942264A,其公开了一种推送包含新闻信息的网页的方法和装置,将查询词与预存的时效性关键词进行匹配;如查询词与时效性关键词匹配,则获取查询词的时效性;根据查询词的时效性强弱,确定在结果页中插入的与时效性关键词对应的包含新闻信息的网页的URL的位置。

3. 百度公司技术分布

(1)搜索是指在进行信息搜索时,利用网页分类技术对搜索结果进行筛选。如CN105243120A,其公开了一种检索方法,通过检索非结构化数据语料库,获得与查询语句的语义分析结果匹配的语料片段,对该片段进行分词和过滤处理后,采用抽取器进行抽取,以获得查询语句的答案。

(2)网页分块与展示是指依据网页分类相关信息对网页进行分块、渲染、显示等。如CN102339311A,其公开了一种用于确定目标页面所对应的页面描述信息的方法和设备,确定待处理的目标页面所对应的分类相关信息;根据所述分类相关信息,对所述目标页面所对应的候选描述信息进行相应调整处理,以相应的页面描述信息。

(3)信息抽取是指利用网页分类技术将网页分为几个大类,然后提取网页数据。如CN102681994A,其公开了一种网页信息抽取方法及系统,根据网页的页面布局,按照不同种类的模板对大类中的网页进行分类;提取各类中网页的网页特征,将网页特征映射到各类所对应的模板的网页关系集合中,使网页特征与网页关系集合的节点相对应。

(4)信息推荐是指在进行信息推荐时,利用网页分类技术对用户特征信息或待推荐信息进行加工处理。如CN103324720A,其公开利用网页分类技术对用户行为进行分类,得出用户的状态,基于用户的状态进行个性化推荐。

三、研究热点

分析主要申请人技术分布之后,可知腾讯公司、奇虎360公司、百度公司的专利申请主要集中在网页分类技术与搜索引擎结合,以及对网页分类技术本身的改进上。由于腾讯公司、奇虎360公司、百度公司均为国内知名的互联网公司,其主要研究方向往往代表着整个行业的研究热点。因此,下面对上述两大研究热点进行重点分析。

(一)网页分类技术与搜索引擎结合及应用

为了准确快速的从互联网上获取需要的信息,人们开发了搜索引擎系统,以帮助我们从互联网的海量信息中自动查找相关信息。针对目前搜索引擎不能适应多粒度查询要求及查询准确率较低的现状,提出一种网页分类技术与搜索引擎相结合的设计方案,最为常见的是综合利用网页文本信息和结构信息进行分类的网页分类器,作为搜索引擎中网页分类的模块。在考虑了分类的准确性的同时,又兼顾了运算效率。

(二)网页分类技术改进

现有的网页分类技术存在分类质量低、系统资源消耗严重、网页内容杂乱等问题,针对这些问题,提出许多中网页分类技术改进的技术方案。由于网页分类模型常常包括预处理阶段、文本特征表示、特征选择、分类器等步骤,其改进往往是针对某个步骤的算法进行改进,涉及分类器的改进最为常见。

(1)对网页分类技术中预处理做改进。

(2)对网页分类技术中文本特征表示做改进。

(3)对网页分类技术中特征选择做改进。

(4)对网页分类技术中分类器做改进。

参考文献

[1]中国互联网络信息中心.第38次《中国互联网络发展状况统计报告》.北京.2016