学科分类
/ 25
500 个结果
  • 简介:基于数据分布密度划分的算法是数据挖掘算法中的主要方法之一。针对传统密度划分算法存在运算复杂、运行效率不高等缺陷,设计出高分步投影的多重分区算法;以高分布投影密度为依据,对数据集进行多重分区产生数据集的子簇空间,并进行子簇合并形成了理想的结果;依据算法进行实验,结果证明该算法具有运算简单和运行效率高等优良性。

  • 标签: 聚类算法 密度分布 分步投影 多重分区
  • 简介:针对网络学习者及其对案例访问的模糊性提出采用模糊的方法对学习者和案例进行聚类分析。在算法中,以各学习者对案例的访问次数、时间、学习效率等刻画学习者对案例的关注程度建立模糊相似矩阵,再由平方法求出模糊等价矩阵,然后进行聚类分析。通过具体实例阐述算法的计算过程,证明算法实现的可行性和有效性。

  • 标签: WEB日志挖掘 模糊聚类 模糊集 模糊等价矩阵
  • 简介:摘要双(Biclustering)算法在数据挖掘中是一个新兴的算法,对于矩阵类型的数据,其效果很好。本文浅述了双算法的基本特点,并提出了用迭代的双算法对未知的数据进行分类,并对一组数据进行了测试,其分类表现不错。

  • 标签: 双聚类 数据挖掘 迭代 分类
  • 简介:摘要本文分析了汽车行业基于不同思想的各类大数据算法,用户应该根据实际应用中的具体问题具体分析,选择恰当的算法算法具有非常广泛的应用,改进算法或者开发新的算法是一件非常有意义工作,相信在不久的将来,算法将随着新技术的出现和应用的需求而在汽车行业得到蓬勃的发展。

  • 标签: 汽车 大数据 聚类算法 划分
  • 简介: 首先比较了数据流聚类分析与传统的聚类分析方法的一些不同点,对目前最新的一些数据流研究成果进行了分析,最后对数据流发展方向进行了展望。

  • 标签: 数据流模型 聚类分析 数据流聚类
  • 简介:聚类分析在数据挖掘领域中占有重要地位,到目前为止学者们提出了许多的算法.本文提出了一种基于kNN的算法k-NearestNeighborCluster(kNNC).该算法首先找到每个数据点的k个邻居点,然后设置匹配点数n,通过使用每个点的邻居点进行匹配进而达到效果.本文通过三个实验去验证该算法,并且与k-means算法进行比较.实验结果表明,该算法具有稳定的正确率,而其最大的优点是不需要预先设定聚簇数,它可以大致的找到的簇数.

  • 标签: KNN算法 K-MEANS算法 聚类分析 微博文本聚类
  • 简介:提出了一种基于郭涛算法算法,在WEKA平台上通过使用Iris数据集和Glass数据集对基于郭涛算法算法和K-means算法进行对比实验,验证了基于郭涛算法算法的有效性。

  • 标签: 郭涛算法 K-MEANS 聚类 遗传算法
  • 简介:摘要本文在将数值型数据标准化的基础上,将分类数据细分为二元数据和类型数据,并用相异度系数距离计算分类数据之间的距离,并且赋予二元和类型数据相应的权重,来改进k-prototypes算法,使该算法满足不同要求的混合属性数据,最后通过C#语言,在ArcEngine2010版本上实现。

  • 标签: K-prototypes算法 混合属性 类型数据 相异度系数 加权属性
  • 简介:是数据挖掘中重要组成部分,为了提高的处理效率,将并行处理技术运用于k-means和PAM算法中,对k-means与PAM算法进行了改进。实验结果表明:并行k-means算法相对串行k-means算法有更好的执行效率;且k-means算法有比PAM算法更好的并行性和可扩展性。最后,该文提出和介绍了将并行技术引入谱算法

  • 标签: 聚类算法 并行 K-MEANS PAM
  • 简介:文本技术作为处理和组织大量文本数据的一项重要技术,能够在很大程度上解决由于信息爆炸所带来的问题。Sollin算法是构建最小生成树的典型算法,与Kruskal算法和Prim算法相比,具有容易实现并行运算的特点。因此,利用基于Sollin的快速层次算法在复旦语料和搜狗语料上进行实验,结果表明基于Sollin的快速层次算法在运行效率和质量上都优于传统层次算法

  • 标签: 层次聚类 Sollin算法 运行效率 聚类质量
  • 简介:定义了一种称为四"复数"的概念来表示彩色图像象素,并由此定义彩色图像的"亮度矩".它以原图像的"亮度矩"与二值化后的图像"亮度矩"保持不变为基础,用于彩色图像的二值分割中.这种称为矩-四的两级阈值化算法不仅简单实用,而且效果较好.是彩色图像的二值分割的一种有效方法.

  • 标签: 图像分割 四维"复数" 亮度矩 四维聚类 两级阈值化
  • 简介:K-均值算法(K-means)是基于划分的算法中的典型算法,针对K-means算法初始中心存在对K依赖的缺陷,提出一种新的选取K-means算法初始中心的方法,该方法提高结果的有效性和稳定性;还提出一种极值选择法,将最大距离法和最小距离法相结合,进一步提高初始中心选择的准确性。

  • 标签: K均值 聚类分析 初始聚类中心
  • 简介:摘要:“拍照赚钱”是互联网下的一种自助式服务模式,这种基于移动互联网的自助式劳务众包平台,为企业提供了各种商业检查和信息搜集,相比传统的市场调查方式能大大节约成本,并有效地保证了调查数据真实性,缩短了调查周期,于是APP任务定价的合理性变的很重要,定价与任务不合理的完成任务就少或信息不准确,影响市场调查结果。本文通过对项目任务定价规律的研究,利用Matlab绘制了任务经纬度坐标与定价数据三拟合图并对城市内会员分布进行聚类分析,得到任务定价规律。

  • 标签: 聚类算法 任务定价
  • 简介:关系数据的算法对于传播研究意义重大,首先运用迭代系统隐喻个体结构的变化,用输出与状态的包含距离表示关系的非对称同时也确定拥有最高结构等级序列的节点来代表簇;再将Hausdorff距离引入DBSCAN算法,使得同结构节点进行合并的加和算子和层次上卷的并算子变得可压缩。运用复杂网络研究人员的数据对算法的有效性进行了评估,分层后的人员合作网具有不同的网络结构特征;关键词在层次2网络中的传播效率高;互惠关系在知识传播中的作用最大。新的发现证明算法通过引入Hutchinson算子的可压缩测度Hausdorff距离使得网络结构对传播效果的影响得以体现,该算法的设计思路是正确的。

  • 标签: 关系的非对称性 HAUSDORFF距离 并算子 凝聚层次聚类
  • 简介:摘要:以当前航迹数据应用现状及未来对平均航迹的需求作为研究背景,通过对雷达数据的航迹特征分析,采用FastDTW算法以及平均距离度量方法对航迹距离进行计算,建立航迹相似性度量模型,并运用改进的经典层次算法对航迹进行,最后提出平均航迹构造算法,完成平均航迹的构造。

  • 标签: 航迹数据 FastDTW算法 层次聚类 平均航迹
  • 简介:摘要:为了克服Chameleon算法无法有效的处理混合属性数据的缺点,本文提出一种改进的Chameleon算法。该算法首先采用一种新的两阶段整合算法,适用于处理大规模数据集;其次对聚类分析中计算相似性的欧式距离进行拓广,使新算法能够处理混合属性数据。通过实例验证该算法可以很好的解决含有混合属性的大规模数据集问题。

  • 标签: Chameleon 大规模数据集 混合属性数据
  • 简介:摘要:随着我国基础建设的持续推进,隧道工程的重心逐渐由建设转为运,客观且高效地诊断衬砌健康状态是隧道安全运的关键。本研究提出了一种基于算法的隧道衬砌健康诊断方法。首先以固定长度的衬砌为单位,通过裂缝的最大宽度、总长度构建病害空间样本;利用K-means++实现样本的客观与分级;通过偏最小二乘法量化样本的相对欧氏距离,提出了客观的隧道风险指标TRI。结果表明该方法能有效诊断隧道运营状态,有助于隧道健康的智能分析和客观诊断,对既有隧道的安全维护具有重要的参考价值。

  • 标签: 隧道衬砌健康评估 K-means++ 聚类 病害诊断
  • 简介:与分类一直是机器学习的研究热点,在很多领域有着成功的应用.针对基因数据分类存在特征数过高、冗余数据和高噪声等问题,现提出一种基于ReliefF和自适应粒子群(APSO)优化的混合算法.即先通过ReliefF和APSO算法选择特征子集,然后使用超限学习机作为评价函数对基因数据进行分类,最后通过循环迭代得到最优的分类精度.实验证明,混合算法与已有的算法相比分类精度更高、更稳定,它适用于基因表达数据

  • 标签: RELIEFF算法 APSO算法 降维 基因表达数据