简介:k均值算法是一个常用的局部搜索算法,它的主要缺陷是容易陷入局部极小,并且该局部极小解与全局最优解往往有很大的偏差.本文提出一个基于K-均值的迭代局部搜索文档聚类算法.该算法以k均值算法所得到的解作为初始解,从该初始解开始作局部搜索,在搜索过程中接受部分劣解.当解无法改进时,算法对所得到的局部极小解做适当强度的扰动后进行下一次的迭代,以跳出局部极小,从而拓展了搜索的范围.实验结果表明该算法对文档数据集聚类的正确性达99%以上.
简介:摘要本文在将数值型数据标准化的基础上,将分类数据细分为二元数据和类型数据,并用相异度系数距离计算分类数据之间的距离,并且赋予二元和类型数据相应的权重,来改进k-prototypes聚类算法,使该算法满足不同要求的混合属性数据聚类,最后通过C#语言,在ArcEngine2010版本上实现。