大数据与分布式云存储技术

(整期优先)网络出版时间:2022-05-10
/ 2

大数据与分布式云存储技术

李栋

武汉地震科学仪器研究院有限公司 湖北省咸宁市 437000


摘要:在互联网技术蓬勃发展的时代背景下,尤其是移动互联网的推广和普及以及无数新应用的诞生和变化,互联网中产生的数据量呈现爆炸式的增长,人们意识到海量的数据中存在着巨大的价值,大数据作为一个描述数据量的名词如今已经被广泛地使用,人工智能,机器学习,用户画像等新领域都离不开大数据的支撑。存储和管理大数据的技术同时也在不断发展,配合着云计算技术的发展,云存储技术也在不断地优化迭代。过去的云存储技术通常基于集群应用。在分布式文件和网格技术的前提下,分布式云存储技术能够通过软件将网络中链接的各种存储设备建立联系,将用户数据分别存放于这些设备中,大大提升了用户访问数据的效率和便利性。

关键词:大数据;分布式云存储;人工智能

  1大数据的定义

“大数据”本质上是指量级大、复杂度高的数据信息,采用原有的处理方法难以对其进行分析或计算。步入二十一世纪后,由道格·莱尼提出了当前大数据的具体定义:

1.1体积

从不同渠道获取数据信息,主要有商业贸易数据、智能设备运行数据、工控装置数据以及音视频等。

1.2速度

伴随物联网技术的逐步完善,企业运行过程中产生的数据流体量不断扩增,应当及时进行分析处理。标签、传感模块和智能设备的应用推动着用户需求朝着实时分析数据的方向发展。

1.3种类

数据信息类别和格式不尽相同,从基本数据库中存放的结构化数据资源到文本信息、邮件、音视频等,不断扩增着数据种类。

2分布式云存储技术

2.1分布式云存储的诞生  

有一个十分重大的转变将重塑IT企业。由于AI和IoT等关键趋势,封装在其支持基础设施中的应用程序和数据正越来越多地分布在多个数据中心(一些在本地,一些在多个云中)和边缘站点。  

这与当今的IT环境有着明显的区别,在IT环境中,企业主要依赖于传统的数据中心和单独的云。根据Gartner的数据,到2022年,超过一半的企业生成数据将在传统数据中心或单一集中云之外生产和处理,而目前这一比例仅为10%。他们预测,到2025年,这一数字将攀升至75%至90%。  

这种演变将产生两种截然不同的现象:边缘的云化和真正的多云的崛起。而这些趋势最终将催生更为激进的东西:分布式云。  

如上所述,一些工作负载开始向边缘移动,而不是传统的云。AI、ML和物联网是目前推动这一变化的关键技术。这些技术越来越多地利用更大的本地数据集,这使得有必要在创建数据的地方对数据进行处理,而不是将数据发送到云端再发送回来。  

2.2分布式云存储技术概述  

在分布式模型中,数据不是存储在一个位置,而是在多个称为节点的物理服务器之间反复存储。这些节点可以位于同一区域,甚至跨大陆。这种类型的网络被正式称为“分布式数据存储”。分布式数据存储系统不同于传统的数据存储,因为您的数据被复制(全部或部分)到存储网络中的多个服务器。这会为数据可用性创建冗余。如果单个服务器出现故障或丢失,则备份整个数据并将其分布到其他几个节点。  

唯一的算法用于在节点网络中分发和存储用户的数据。此方法创建两种不同类型的数据——主数据和辅助数据。主数据是当节点被赋予原始的、完整的数据集时。辅助数据是指仅将主数据集的一部分作为备份分配给不同的节点时。哪些节点接收辅助数据集取决于平台的算法和方法。  

没有一个节点保存平台的所有主数据,因此保存数据的风险分布在更广泛的存储系统中。如果任何节点与主数据一起丢失,则可以使用具有辅助数据的节点快速恢复整个数据集。分布式存储系统,如AmazonS3、GoogleCloud和Microsoft Azure提供的存储系统,与RAID存储相比有多种好处。这些好处围绕着它们的高可访问性、持久性和通用性。然而,这个平台并不完美,因为它仍然经常关注隐私问题,而且代价高昂。

2.3分布式云存储的特性和限制

大多数分布式存储系统具有以下部分或全部功能:

1)分区:在群集节点之间分发数据并使客户端能够无缝地从多个节点检索数据的能力。

2)复制;跨多个群集节点复制同一数据项并在客户端更新数据时保持数据一致性的能力。

3)容错:即使分布式存储群集中的一个或多个节点宕机,也能保持数据可用性的能力。  

4)弹性与可扩展性:使数据用户能够在需要时接收更多的存储空间,并使存储系统运营商能够通过向集群中添加或删除存储单元来上下扩展存储系统。  CAP定理定义了分布式存储系统固有的局限性。该定理指出,分布式系统不能保持一致性、可用性和分区容限(从包含部分数据的分区的故障中恢复的能力)。它必须至少放弃这三个属性中的一个。许多分布式存储系统在保证可用性和分区容限的同时放弃了一致性。

2.4分布式存储应用案例  

AmazonS3是一个分布式对象存储系统。在S3中,对象由数据和元数据组成。元数据是一组名称-值对,提供有关对象的信息,例如上次修改的日期。S3支持标准元数据字段和用户定义的自定义元数据。  

对象被组织成桶。AmazonS3用户需要创建bucket并指定存储对象或从中检索对象的bucket。bucket是允许用户组织数据的逻辑结构。在幕后,实际数据可能分布在同一区域内多个Amazon可用性区域(AZ)的大量存储节点上。AmazonS3存储桶总是绑定到特定的地理区域(例如,useast1(北弗吉尼亚州)),对象不能离开该区域。  

S3中的每个对象都由一个bucket、一个key和一个版本ID标识。key是其bucket中每个对象的唯一标识符。S3跟踪每个对象的多个版本,由版本ID表示。  

由于CAP定理,AmazonS3提供了高可用性和分区容限,但不能保证一致性。相反,它提供了一个最终的一致性模型:  

当用户在S3中放置或删除数据时,数据会被安全地存储,但要在AmazonS3中复制更改可能需要一些时间。  

当发生更改时,在传播更改之前,立即读取数据的客户端仍将看到数据的旧版本。S3保证原子性,当客户机读取对象时,他们可能会查看对象的旧版本或新版本,但不会查看损坏或部分版本。


3结语

目前,计算机系统发展已经为用户提供实时交互和大体量数据解析等功能,从速度、性能和灵活性方面不断满足用户需求。除去访问功能的稳定以外,研发企业还在数据集成、质量控制、存储方式和解析算法等方面不断深入研究。部分数据可以通过原有的数据库进行存放,但随着云存储技术的不断完善,其低成本、高灵活性的特点吸引着越来越多的用户。



参考文献:

[1]吴燕波, 薛琴, 向大为,等. 云平台下的NoSQL分布式大数据存储技术与应用[J]. 现代电子技术, 2016, (09):52-55+60.

[2]汤朝波. 面向电力大数据分布式云存储的性能研究与优化分析[J]. 电子世界, 2015(24):2.

[3]王曙霞, 陈茂辉. 面向电力大数据分布式云存储的性能分析与优化[J]. 电气应用, 2015(6):5.