简介:摘要:随着互联网技术的迅猛发展,各类信息每天以井喷式状态产生、传输和应用。为了适应信息时代信息管理的需求,分布式数据库应运而生。在传统的集中式数据库时代,信息存储和信息用户较少,集中式存储库只能够满足基本的数据管理需求。而随着信息用户增多,对于信息存储、传输管理的要求不断提高,在信息管理方面更需要大容量和高效率的数据库技术来确保信息高品质、高效率的应用。分布式数据库与集中式数据库相反,它将多个数据存储单元组合为同一个数据库,然后分存到不同的数据存储节点上,实现海量数据的超大容量存储和访问。研究分布式存储数据技术在大数据中的应用对于解决现阶段数据库存储问题有着重要意义。
简介:摘要:本文将探讨基于分布式数据库MongoDB的数据存储研究。首先介绍了本文的研究背景,接着阐述了分布式数据库的概念和优点,然后重点介绍了MongoDB数据库的存储原理、与传统数据库的比较以及适合应用的各种场景。
简介:摘要:在互联网技术蓬勃发展的时代背景下,尤其是移动互联网的推广和普及以及无数新应用的诞生和变化,互联网中产生的数据量呈现爆炸式的增长,人们意识到海量的数据中存在着巨大的价值,大数据作为一个描述数据量的名词如今已经被广泛地使用,人工智能,机器学习,用户画像等新领域都离不开大数据的支撑。存储和管理大数据的技术同时也在不断发展,配合着云计算技术的发展,云存储技术也在不断地优化迭代。过去的云存储技术通常基于集群应用。在分布式文件和网格技术的前提下,分布式云存储技术能够通过软件将网络中链接的各种存储设备建立联系,将用户数据分别存放于这些设备中,大大提升了用户访问数据的效率和便利性。
简介:降雨数值模拟是延长水文预报预见期的重要方法,但由于降雨数值模拟中驱动数据所提供的初始场和边界场条件和大气的实际状态并不是完全吻合,导致模拟结果存在误差。减小降雨数值模拟的误差是提高水文预报精度的关键问题,特别是在大气数值模式和分布式水文模型耦合模拟过程中,高精度的降雨信息是准确模拟的关键。本文基于WRF模式和三维变分数据同化方法,选取雷达反射率和GTS(GlobalTelecommunicationSystem)数据作为同化资料,开展基于数据同化的降雨数值空间分布模拟研究,从降雨的空间展布和指标评价两方面对同化前后的模拟结果进行对比。结果表明:同化后的模拟数据在CSI指标和RMSE指标上都优于同化前的模拟数据,说明同化后模拟数据的误差小于同化前的误差;将同化前后的数据展布在网格图中,发现同化后的数据可以更加准确地刻画降雨的空间分布规律,说明通过数据同化方法提高了模拟降雨和实际降雨空间分布的一致性,改善了WRF模式模拟降雨空间分布的能力。
简介:不确定性是数据的固有属性,在实验过程中由于仪器的限制或者收集过程中的误差都会造成数据的不确定性。数据挖掘算法在处理不确定数据的相关研究尚处于初级阶段,不确定数据聚类是不确定数据研究中的典型问题,已有一些聚类算法被应用到处理不确定数据,如UK-means等。无论是UK-means还是FDBSCAN都仅仅考虑了不确定数据之间的几何距离,而没有考虑到不确定数据之间的概率分布差异。然而,概率分布特征是不确定数据的本质特征,考虑不确定数据的概率分布能够更准确度量不确定数据间的距离,从而提高聚类算法的性能,本文使用核函数度量不确定数据与类中心的距离,然后使用UK-means算法聚类不确定数据,通过大量实验验证了本文提出的距离函数优于使用欧式距离期望的UK-means方法。