基于云计算技术的海量信息分布式存储研究

(整期优先)网络出版时间:2023-02-14
/ 2

基于云计算技术的海量信息分布式存储研究

吕思琦 ,张文慧 ,陈福越

山东英才学院  山东省济南市  250000

摘要:云计算技术是一种密集型数据计算技术,其在数据存储、数据管理以及虚拟化技术等方面,均具备显著的技术优势。其关键技术包括分布式存储技术、虚拟化技术以及可扩展性并行技术等。传统的海量信息存储是以集中的存储服务器作为数据存储,但是其存在海量信息存储限制和瓶颈。基于压缩感知的数据存储方法和基于SWIFT的海量数据存储方法为例:前者以压缩感知理论与数字模型相结合,完成数据存储,但是其在存储信息实行抽取使用时,信噪比较低;后者则是采用哈希过程以及优化步骤后,完成数据存储,但是该方法在对存储信息实行查询时效率较低。基于此,本文提出基于云计算技术的海量信息分布式存储方法,具备可扩展性是分布式存储的显著优势,其可将海量信息分散存储于多台服务器中,以此降低存储限制和瓶颈,同时,通过位置服务器的定位完成海量信息的存储,极大地提高了存储系统的存储效率和可靠性。

关键词:云计算技术海量信息分布式存储

引言

当前时代背景下,互联网和信息技术的迅猛发展拉近了时空距离,人与人、人与世界之间的距离被不断缩小,随着社会信息的“大爆炸”,人类社会进入了大数据时代,各种数据都产生了巨大的价值。通过这些数据的使用,我们不仅可以提高生产效率,还可以让信息技术更好地服务于人们的生活。随着数据量的不断增加,对计算机的计算能力提出了更高的要求,在使用和投资过程中都需要增加更多的成本。而基于计算机和信息技术的云计算出现,则缓解了这样的问题,并且广泛地应用于各个行业之中,逐渐成为研究和发展的热点课题。

1云计算技术

云计算技术主要以互联网的平台,对信息数据进行集中处理及使用,在含量数据中提取具有较高应用价值的数据,获得虚拟化资源。云计算技术具有较强的计量能力,将云计算技术应用在互联网商品流通中,能够加强虚拟化资源动态配置及管理水平。云计算属于分布式计算方式,可以将海量数据处理程序划分成若干个小程序,并借助多部服务装置组成的系统对此些小程序内的数据进行处理,并将处理结果集中反馈给用户。现有云计算已经突破了单一的分布式计算,而是将分布计算、效用计算、并行计算、网络存储等融为一体,形成一个人人都可以使用的网络计算资源与数据中心。

2云计算技术在网络存储上的优势

目前,云计算技术的快速发展,不仅使计算机的应用更为便捷,也同样改变了人们的生活和工作方式。目前,人们进行信息储存时一般采用两种方式,一种是用U盘或者移动设备将电脑上的信息拷贝下来,从而实现数据的备份存储;另一种则是直接使用自己的电脑硬盘保存信息,从而能够及时的调取信息进行使用。无论哪一种方式,都存在安全风险,无论是电脑硬盘损坏或是U盘、移动设备损坏,都会对储存的数据信息造成破坏,影响数据信息的使用和安全。而通过云计算技术,可以为用户创造一个较为安全的储存环境,方便用户及时进行数据的存储和使用。

3基于云计算技术的海量信息分布式存储

3.1海量信息存储技术

基于云计算技术的海量信息分布式存储可解决单一服务器计算和存储模式,可使信息的利用率极大提高,在实现海量信息有效存储的同时,可完成海量信息的聚集、抽取以及查询。分布式存储技术是当下解决海量信息存储的主要方法。当下Google设计的GFS(googlefilesystem)和Ha-doop开发团队开发的GFS的开源实现HDFS(hadoopdis-ributedfilesystem)是信息数据存储的主要技术。GFS作为分布式文件系统,数据的存储、管理、定位等多层面的数据处理均是其主要功能。具备控制节点和存储节点构成的庞大存储处理能力,计算机集群是其主要框架,并且该架构是由大量安装有Linux操作系统的普通PC组成。HDFS采用管理节点/存储节点架构。一个管理节点和一定数目的存储节点可构成一个HDFS集群。为提升系统性能以及信息利用率,采用GFS与HDFS技术完成异地计算机资源整合,形成极大存储容量的计算机群,并且对信息数据实行并行处理,打破信息存储瓶颈。

3.2善云计算数据中心系统

想要进一步完善云计算数据中心的相关功能,首先需要对云计算安全性进行有效提升,通过多方位的技术处理,解决云计算数据中心运行过程中存在的问题,不断提高技术能力,以便解决各种突发情况。同时做好备案工作,记录有效的信息和处理方式,让信息系统的运行更加高效和完善,确保云计算技术的安全性得到提升,从而实现计算机网络安全存储能力的提升,为用户提供更加专业化、安全化的服务。

3.3云计算技术改进

ETL处理算法的海量信息抽取考虑ETL算法针对信息的处理和任务调度方面存在的不足之处,为改善上述问题,采用基于云计算技术对其改进。改进主要从两个方面完成,分别是信息抽取和任务调度。信息抽取的改进是将Map/Reduce原理引入ETL的抽取过程中,以此提升信息处理效率[11];任务调度改进的是将任务的优先级和任务处理时间作为主要参考内容。基于云计算技术改进ETL处理算法的海量信息抽取,将原来的多次抽取的信息转化为一次性抽取信息,将信息划分成多个目标文件,该划分采用Map/Reduce原理完成,以此实现信息抽取和优化,该过程称为SMB-DP算法;将划分后的目标文件实行分配调度和处理,并且以任务优先级和运行时间为主要参考,以此完成任务调度优化,该过程称为AGB-ETL算法。  

结束语

本文针对传统海量信息的存储方法展开分析,研究基于云计算技术的海量信息分布存储方法。通过分布式存储方式,保证信息的高效存储的同时,亦可保证信息的可靠性,并满足用户低成本地完成海量信息存储的目的。测试结果表明,本文方法可高效完成信息的插入、抽取和查询。

参考文献

[1]蒋楠.基于Spark大数据处理框架的逆时偏移成像技术研究[J].石油物探,2020,59(4):564-571.

[2]孙学波,石飞达.基于Hadoop的Apriori算法研究与优化[J].计算机工程与设计,2018,39(1):126-133.

[3]宇超群,邓勇,王天鹏.基于NoSQL的机载LiDAR海量点云数据分布式存储[J].测绘科学技术学报,2018,35(5):472-476.