简介:不确定性是数据的固有属性,在实验过程中由于仪器的限制或者收集过程中的误差都会造成数据的不确定性。数据挖掘算法在处理不确定数据的相关研究尚处于初级阶段,不确定数据聚类是不确定数据研究中的典型问题,已有一些聚类算法被应用到处理不确定数据,如UK-means等。无论是UK-means还是FDBSCAN都仅仅考虑了不确定数据之间的几何距离,而没有考虑到不确定数据之间的概率分布差异。然而,概率分布特征是不确定数据的本质特征,考虑不确定数据的概率分布能够更准确度量不确定数据间的距离,从而提高聚类算法的性能,本文使用核函数度量不确定数据与类中心的距离,然后使用UK-means算法聚类不确定数据,通过大量实验验证了本文提出的距离函数优于使用欧式距离期望的UK-means方法。
简介:为了更好地管理和应用数据网格中大量分布异构的数据,在对网格技术发展现状进行深入研究基础上,提出基于数据空间概念的网格数据的管理架构.在此基础上,实现了一个网格数据空间管理原型系统,系统中将现有的一些数据空间技术如数据模型iDM、查询语言iTrails等与网格数据访问中间件OGSA-DAI相结合,使用OGSA-DAI工作流来完成数据空间管理系统的数据访问、抽取、数据索引、服务管理和查询回复等一系列工作.实验表明数据空间管理机制在网格环境下是可行的,数据空间管理系统屏蔽了网格数据的分布性和异构性,且能够适应网格数据动态特性,因此满足了对网格数据的管理要求.所提出的网格数据空间架构为网格数据管理提出了新的方法.