面向大数据的智能数据分析技术研究

(整期优先)网络出版时间:2023-10-14
/ 2

面向大数据的智能数据分析技术研究

王若枫 王永明 杜明

青海省地理空间和自然资源大数据中心(青海省地理空间信息技术与应用重点实验室),青海省西宁市,810000

摘要:目前,在互联网、web等技术不断发展的过程中,各行业领域的数据采集、处理能力大幅提升,这也使得数据总量大体呈现快速增长的趋势,可以看出当前社会已经进入互联互动的大数据时代,数据存储量以及需要处理的信息量十分庞大,难以从数量上做出准确衡量,只能通过应用智能数据技术,在极具创造力的网络空间中有效应用智能数据分析技术。通过这种方式,可以对类型多样、增长快速以及内容真实的数据进行分析,并在其中找到有利于决策的模型或者有用的信息。这可以将问题转化为数据,将数据转化为知识,最终将知识再次转化为数据。目前,智能数据分析技术已经在天气预测、金融分析等领域中取得了一定的成效,但同时也出现了很多新的问题。在未来,要利用大数据的可视化分析、数据处理以及数据挖掘等功能来对智能数据分析技术进行创新,将其运用到更多的领域。

关键词:大数据;智能数据分析;技术

1智能数据分析技术的概念

智能数据分析技术是指利用人工智能、机器学习、数据挖掘等技术手段,对大量的数据进行综合分析和挖掘,从中挖掘出有价值的信息和知识的过程。智能数据分析技术可以帮助企业或组织更好地理解和利用数据,提高决策质量、降低风险和成本,推动业务发展。

2智能数据分析技术

2.1粗糙集

粗糙集智能数据分析,属于粗糙集理论中延伸出的一项应用技术,其属于一种以规则为基础的数据分析技术。粗糙集智能数据分析技术的思想,主要来自机器学习与统计学领域,不过并非二者的随意应用,而是建立在粗糙集理论的基础上,将数据表中表示的信息系统当成载体,通过对给定数据集的性质进行分析,并进行粗糙分类,在经过一些操作中从中获取潜在、隐含且有用的知识。基于粗糙集理论的智能数据分析技术有着显著应用优势,可以不需要对数据或知识进行主观评价,可以只通过观测户数就能及时提出冗余的信息,有利于进行计算,还可以直接对结果进行解释。

2.2关键规则

关键规则常应用于事物数据库当中,在数据库中所有事物都是由某一记录集合构成,这种数据库一般都蕴含着庞大数据,所以目前针对关联规则发现技巧正致力于基于一定考虑的记录支持度实现对搜索空间的削减,关联规则的常见算法主要包括基于划分的算法、Apriori算法、FP-树频集算法等。

2.3决策树

决策树表示在已知各种情况发生概率的前提下,通过绘制决策树求取净现值的期望值大于等于零的概率,有助于项目风险展开评价,可以对项目可行性展开判断。属于一种直接采用概率开展分析的图解法,主要是以信息论为基础对数据进行分类的手段。利用已知训练数据建立决策树,并利用决策树围绕数据展开预测。建立决策树的过程就是生成数据规则的过程,采用这种数据分析方式,能够保证数据规则可视化,降低数据输出结果的理解难度,在数据分析中具有较高效率和精度,不过无法处理具有较复杂关系的数据。常用的方法主要包括分类及回归树法、双方自动交互探测法等,尤其是应用分类树可详细对数据进行标记与归类。

2.4人工神经网络

人工神经网络属于一种与人体大脑相类似专门对信息进行处理的数学模型,主要由大量神经元的相互连接组成,不同节点都代表了一种特定的输出函数,这些输出函数又被称为激励函数。两个节点之间的连接都代表了一个对通过该连接信号的加权值,又被称为权重,这与人工神经网络的记忆相当。网络的输出主要依靠网络的连接方式,激励函数与权重值的不同网络连接方式存在一定差异,网络本身通常属于自然界某一算法或函数的必经,也可以当成一种逻辑策略的表达。人工神经网络过包括了前馈式、反馈式以及自组织映射式这三种类型,在实际应用的过程中表现出了非线性、非局限性等特征。人工神经网络的优点有三个,第一是具有自主学习;第二是联想存储;第三是高速寻找最优解。

2.5模糊数学分析

在智能数据分析的时候,还可以运用模糊数学理论。在现实世界中,所有的客观事物之间都存在某种不确定性。复杂性越强的系统精准性就越低,同时模糊性就越强。在对数据进行分析的时候,需要通过模糊集的方法来对相关问题进行模糊判断、模糊决策、模糊预测、模糊识别以及模糊聚类分析,这样可以取得客观的效果。但与此同时,模糊数学分析也表现出了不足之处。第一,这种方法属于用户驱动,参与用户的数量是比较多的;第二,处理变量比较单一,在面对定性变量和复杂数据的时候难以有效处理,比如在处理非线性数据和多媒体数据的时候都会表现出不足;第三,发现的事实和规则都是以查询为目的的,无论是对预测还是对决策的影响都不大,同时对主观经验比较依赖。

3面向大数据的智能数据分析技术

大数据具有十分独特的优势,其在进行数据智能分析的过程中,需要有新的进展才可以在庞大的数据中具备智能分析的能力。部分学者认为面向大数据的智能数据分析技术可能成为人工智能发展的解决路径,当前国内外许多企业、科研机构提出了许多新的智能数据分析技术方案,如普惠推出的基于HACEn大数据分析平台、Teradata天睿公司推出的Tsrdadta Aster Discover Platform等,在这些方案当中都涉及了Hadoop这一大数据分析平台。Hadoop主要涉及分布文件系统(HDFS)与分布计算系统(MapReduce)两个部分,其中HDFS属于一种分布文件管理系统,呈现主/从结构,一个主节点被称为名字节点,其他计算机属于从节点,称为数据节点。主节点主要负责对元数据的管理,从节点主要作用是存放和管理应用数据。HDFS系统可支持巨大分布文件系统,包括上万计算节点和上亿文件,因此对大数据具有强大支撑作用。同时为进一步发挥最大数据的支持作用,还需要在HDFS的基础上建立一个NoSQL系统,即Hbase,它属于一种列存储的数据库,Pig是其接口语言,此外在HBase的Haoop上还提供了一个数据仓库,面向机器学习提供一个机器学习软件包,有利于满足大数据管理与分析的要求。相比于传统数据分析,面向大数据的智能数据分析技术,拥有更为庞大的数据量,并且数据查询分析十分复杂,因此需要得到全新大数据分析理论及方法的支撑。目前,单一的智能数据分析技术已经无法高效且全面地做好数据分析这项工作,而融合了多种智能数据分析技术的手段具有更强的适应性,包括粗糙集、决策树、关键规则等智能数据分析技术的综合应用、相互渗透。面向大数据的智能数据分析技术的发展,依赖于新型组织技术以及数据存储的支持,同时对全新且具有较高效率的计算方法也有较高依赖性,数据存储与组织结束的应用,应采取具有更好分布式数据的存储策略,尽量提高数据吞吐效率,降低故障率。

4结语

综上所述,面向大数据的各项智能数据分析技术的优势非常明显,在时代不断进步的过程中有着强大的应用潜能。传统数据智能分析中,常用的几种方法均有其优劣势,在大数据中倘若只采用单一的方法技术,难以取得比较理想的效果,不过要凭借当前的技术水平还无法找到一种通用的智能数据分析技术,这就需要综合采用各种传统智能数据分析方法,尝试找到一条有效的解决路径,这样就可以有效对自身缺陷进行弥补,并且还可以充分发挥自身优势,这是大数据时代下智能数据分析技术的主要研究方向。

参考文献

[1]夏盛海,金宇,杨攀,等.基于大数据分析技术的电网智能调控分析方法[J].电力大数据,2022,25(3):51-58.

[2]王路,周轩,林希佳,等.智能制造背景下大数据分析技术及趋势研究[J].科学技术创新,2021(35):171-175.