Web挖掘在当今社会中的发展和前景

(整期优先)网络出版时间:2010-03-13
/ 2

Web挖掘在当今社会中的发展和前景

刘平①②,曹云③

刘平①②;曹云③

①湘南学院,郴州423000;

②湖南大学计算机与通信学院,长沙410082;

③郴州工业交通学校,郴州423000

摘要:作为从浩瀚的Web信息资源中发现潜在的、有价值知识的一种有效技术,Web挖掘正悄然兴起,倍受关注。目前,Web挖掘的研究正处于发展阶段,尚无统一的结论,需要国内外学者在理论上开展更多的讨论,使Web挖掘开发对其生活发展起到推进作用,以及它所面临的挑战。

关键词:Web挖掘;分类;模式分析;可视化;网络通信

中图分类号:TP393文献标识码:A文章编号:1006-4311(2010)08-0133-01

0引言

由于互联网在传播与交换信息方面的快捷与便利,互联网以惊人的速度作为商务和信息发布的平台持续发展。Internet用户群体表现出多样性的特点,全球互连网大约有数千万个Web网站,其访问用户具有不同的背景,不同的兴趣和目的,他们在访问过程中留下大量的Web访问和使用信息。分析这些数据能够发现有意义的隐藏访问模式规则,这对于分析和改善站点的使用情况及资源配置具有重要的意义。

1国内外的研究现状

目前为止,国外的挖掘研究己经从最初的可行性基础研究经历了试验性研究,文本挖掘应用在商业领域得到了应用。政府机构,通过Web挖掘进行数据评估和分析,同时完成其他的搜索任务。国内对Web挖掘的研究起步较晚,国内互联网业是从1997年开始迅速蓬勃地发展起来的。直到1999年,国内互联网用户达到一定数量后,国内学者才开始关注Web数据挖掘。

2Web数据挖掘概述

Web挖掘是将数据挖掘技术与互联网相结合的一项综合技术,简单地说,"Web挖掘就是从Web文档、Web活动中抽取感兴趣的、潜在的有用模式和隐藏信息怎样对这些数据进行复杂的应用成了现今研究热点,它面对的信息常常为文本、图形、图像数据等。

3Web挖掘的分类

web挖掘的研究主要有3种,即Web结构挖掘、Web使用挖掘和Web内容挖掘。①Web结构挖掘。Web结构挖掘主要是指挖掘Web上的链接结构,它有广泛的应用价值。②Web使用挖掘。Web使用挖掘主要是指对日志记录的挖掘。访问信息进行分析和发现找到日志中蕴藏的规律以识别潜在的客户、跟踪及侦探非法访问的隐患等。③Web内容挖掘。Web的内容主要是包含文本、声音、图片等的文档信息,以及Web的链接结构的链接信息。

4Web挖掘的处理流程

数据进行数据挖掘,必须经过如下处理流程。①查找资源。其任务是从目标文档中得到数据,包括电子邮件、文档、新闻组、或者网站的日志形成数据。②信息选择和预处理。其任务是从取得的Web资源中剔除无用信息将有用信息进行必要的整理。组成规整的逻辑形式甚至是关系表。③模式发现。自动进行模式发现。在同一个站点内部或在多个站点之间进行。④模式分析验证、解释产生的模式。这个过程可以是机器自动完成,也可以是与分析人员进行交互来完成。

5Web挖掘应用的成功案例分析

数据挖掘已经在许多领域得到了应用。①Web挖掘应用到NBA竞技中。IBM公司开发的数据挖掘应用软件被美国NBA大约20个队教练广泛使用。②Web挖掘应用到商业银行中。数据挖掘技术在银行和金融领域应用广泛。③Web挖掘应用到电信中。数据挖掘技术在电信行业也得到广泛应用。④Web挖掘应用到科学探索中。数据挖掘开始应用到尖端科学的探索中。

6Web挖掘存在的问题

Web数据挖掘方面还有很多工作要做,我们在探讨过程中看到需要进一步研究和完善的工作主要有以下几个方面:①错误数据的处理与过滤。在现实数据库中,往往存在一些明显的错误数据,这必然影响挖掘的精度。②数据格式的转换。虽然此方面的东西已经应用了不少,由于服务器的日志文件格式的复杂性,现在还没有一个能使多数人接受的转换工具。③用户访问事务的确定。这是一个Web数据挖掘中基本的也是最重要的,确定方法的好坏直接影响着以后的工作。④传统的数据挖掘技术应用到Web数据挖掘。数据挖掘技术在传统数据库上的应用应该说比较完善了,如何将其核心技术应用到各种新型数据库或Web结构上还需要继续研究。⑤数据挖掘的评估与可视化。挖掘得到的各种规则不仅需要证明其正确性,更需要证明其有用性和可理解性。合适的评估方法可以提高有用性,而可视化的研究可以提高可理解性,使挖掘结果更易为用户接受。⑥高度综合的网络信息。Web挖掘的研究对象是网络信息,由于网络信息涉及各个学科门类,因而内容具有较大的综合性,要在丰富的内容中挖掘有规律的知识,其难度相当大。⑦模糊、多样的用户目标。基于网络信息Web挖掘的用户类型较多,许多用户往往对所要挖掘的主题模糊的、粗浅的认识,不能提出明确的目标。这就需要基于Web挖掘的知识发现系统具有一定的智能性和学习机制,不断地发现和跟踪用户的兴趣,并且清晰地表示知识发现的结果,从而提高知识发现的可用性。

总之,Web挖掘已经引起了世界各国计算机科学界、信息产业界以及许多著名高科技跨国公司的高度关注,具有充分潜力和挑战性。

参考文献:

[1]韩家炜,孟小峰,王静,李盛恩.Web挖掘研究.计算机研究与发展,2001(4):405-414.

[2]杜文华.Web使用挖掘综述[J].电脑开发与应用,2003,4:59-61.

[3]陈健,印鉴.Web使用挖掘技术研究综述[J].计算机工程,2005,9:4-6.

[4]曼丽春,朱宏,杨全胜.Web数据挖掘研究与探讨[J].现代电子技术,2005,8:10-13.