学科分类
/ 25
500 个结果
  • 简介:数据挖掘是近年来计算机科学领域非常热门的研究方向之一,是由数据仓库技术和机器学习发展而来.数据挖掘是指从海量的数据中找出隐藏的关系,是数据分析的高级阶段.在对数据挖掘算法研究中,涌现出了很多优秀的算法.本文选择了IEEE评选出的十大经典算法,对其中的每个算法的原理、背景、发展、优缺点、应用领域等做了深入浅出的介绍,为相关专业领域的学习及研究提供参考.

  • 标签: 数据挖掘 大数据 聚类 分类 预测 关联规则
  • 简介:目前,随着各领域的信息量暴涨,致使数据挖掘方面既存在机遇又存在挑战,并且这种爆破式的增长导致用户数据挖掘与储存的安全隐私产生了极大的隐患。因此,对数据挖掘隐私保护成为了当前亟待解决的问题。本文主要对数据挖掘隐私保护的算法进行研究,通过扰动算法以及关联规则隐藏算法两种算法进行对数据挖掘隐私保护算法进行研究,以期使问题得到解决。

  • 标签: 数据挖掘 隐私保护 算法研究 关联规则隐藏算法
  • 简介:近几年,随着通信、网络等技术的飞速发展,在各个领域经常都会产生大量的信息数据。因此,如何使用有限存储空间进行快速准确地挖掘数据流近似的频繁项成为具有挑战的问题。本文介绍了一种新的挖掘算法——EC算法,使其空间复杂性为O(ε^-1),每个数据的平均处理时间为O(1)。

  • 标签: 数据流 频繁项 空间复杂性 平均处理时间
  • 简介:摘要当今信息化发展速度惊人,大数据、云计算、人工智能技术应用于各行各业,给社会的发展带来了很多便利,也为我国经济的快速发展注入了新的血液。因此,根据实际情况研发出科学而有效的数据挖掘算法,对于整个信息行业来说都有不可估量的意义,在进行大规模数据信息处理的时候,在关联规则下的数据挖掘算法就体现出了它本身重要的优势。因此,本文将对关联规则下的数据挖掘算法进行详细的分析,以供参考。

  • 标签: 数据挖掘算法 关联规则 分析
  • 简介:介绍了一种一般情况下的C4.5数据挖掘算法的优化方法。原来的C4.5算法在计算属性信息增益率时需要大量用到对数运算,而优化后的C4.5算法计算属性信息增益率时只需用到加减乘除运算,在实现时不用频繁调用时数函数,优化后的算法不会改变属性信息增益率的排序,不改变生成的决策树。改进后的算法能做到在不改变准确率和不增加空间复杂度的情况下,减少时间复杂度,提高了决策树生成效率。

  • 标签: 数据挖掘 算法 优化
  • 简介:随着数据库应用的不断深化,数据库的规模急剧膨胀,人们需要对这些数据进行分析,从中发现有价值的信息。但是数据库管理系统本身却没有提供有效的工具和方法来利用这些数据,因此数据挖掘成为当今研究的热点。本文即以混合遗传算法为基础对数据挖掘中的算法问题进行系统研究。

  • 标签: 数据挖掘 遗传算法 模拟退火算法 混合遗传算法
  • 简介:以我们在现实生活当中处理数据库的经验来看,为了从数据库中使用限制性的信息抽取方法得到有用的数据和信息,我们有必要使用"特点子集选择"的方法(FeatureSubsetSelection).而这种方法需要从多个相关的属性当中进行多次的试验从而找到某种特定的子集.在这种情况下,如何能够找到快速的、准确的同时又是简便的选择算法变得越来越关键.这篇文章对由Dr.RobertHoltes提出的"One-R"算法进行了适当的改进,通过"Chi"氏独立性检验和拜亚(BayesDecisionTheory)公式推导出的新方法,在试验的基础上表明,这种新的算法在某种程度上比原来的"One-R"算法要准确.

  • 标签: 数据挖掘技术 “One-R”算法 独立性检验 贝叶斯公式 数据表
  • 简介:摘要:电力系统与人们的生活、工业的生产息息相关 , 电力系统的稳定运行关系到了国家工业领域的正常生产 , 国民的正常生活 , 随着信息化、数字化时代的到来 , 电力系统中各种智能终端设备的投入 , 智能电网、智能能源系统的建设 , 使得电力系统涌现出了大量电力数据 , 这些大量电力数据的背后隐藏着许多电力系统运行的宝贵信息 , 如何挖掘出这些宝贵的信息成为了电力系统亟待解决的问题。数据挖掘是利用数学的方法挖掘出隐藏在信息背后的价值 , 完成从知识到价值的转变 , 因此使用数据挖掘的方法来分析电力数据

  • 标签: 数据挖掘 云计算 算法 云数据分析平台
  • 简介:电力系统与人们的生活、工业的生产息息相关,电力系统的稳定运行关系到了国家工业领域的正常生产,国民的正常生活,随着信息化、数字化时代的到来,电力系统中各种智能终端设备的投入,智能电网、智能能源系统的建设,使得电力系统涌现出了大量电力数据,这些大量电力数据的背后隐藏着许多电力系统运行的宝贵信息,如何挖掘出这些宝贵的信息成为了电力系统亟待解决的问题。数据挖掘是利用数学的方法挖掘出隐藏在信息背后的价值,完成从知识到价值的转变,因此使用数据挖掘的方法来分析电力数据

  • 标签: 数据挖掘 云计算 算法 云数据分析平台
  • 作者: 申世红
  • 学科:
  • 创建时间:2020-06-01
  • 机构:国网山西省电力公司晋城供电公司 山西省晋城市
  • 简介:摘要:近年来,社会 的发展迅速,我国的电力行业的发展也有了很大的改善。 中国已进入经济新常态时代,电力公司需要回归企业经营的本质。中国电力企业联合会发布的《 2015年 1-6月份电力工业运行简况》中指出,今年上半年,全国全社会用电量同比增长 1.3%,创 35年来新低。公司售电量增幅下降,电费回收难度增大,当前公司面临的经营风险和压力加大。未来,电力公司需要更进一步回归企业经营的本质,电力营销在强化市场拓展、维系大客户关系、提升自身竞争力等方面的工作将成为当前及未来的重点任务之一。因此在互联网时代,客户对服务的质量、服务的便捷性、服务的效率、信息的透明、服务的精准等均提出了更高的要求。因此本文主要从营销大数据客户服务监控这个角度出发,针对客户的所需所求所关心的要点,通过大数据进行分析,从而为客户提供精准的需求,避免资源重叠浪费。

  • 标签: 电力营销聚类分析 数据挖掘算法 研究
  • 简介:聚类分析是数据挖掘的一个重要的研究方向。本文在介绍了数据挖掘的基本概念之后,详细分析了常用的聚类算法。最后,使用weka数据挖掘软件对K—means算法进行了实践,实验结果证明了K—means算法的有效性。

  • 标签: K-均值 聚类 有效性
  • 简介:以基于其拟合直线中的斜率来识别异常客户的性质,  [关键词]最小二乘法拟合直线斜率异常客户性质    一、引言  异常客户是在一段考察时期内与客户的一般行为模式不一致的对象,它反映了用直线y=ax+b来描述(xi

  • 标签: 企业异常 实现企业 客户分析
  • 简介:摘要:近年来,社会 的发展迅速,我国的电力行业的发展也有了很大的改善。 中国已进入经济新常态时代,电力公司需要回归企业经营的本质。中国电力企业联合会发布的《 2015年 1-6月份电力工业运行简况》中指出,今年上半年,全国全社会用电量同比增长 1.3%,创 35年来新低。公司售电量增幅下降,电费回收难度增大,当前公司面临的经营风险和压力加大。未来,电力公司需要更进一步回归企业经营的本质,电力营销在强化市场拓展、维系大客户关系、提升自身竞争力等方面的工作将成为当前及未来的重点任务之一。因此在互联网时代,客户对服务的质量、服务的便捷性、服务的效率、信息的透明、服务的精准等均提出了更高的要求。因此本文主要从营销大数据客户服务监控这个角度出发,针对客户的所需所求所关心的要点,通过大数据进行分析,从而为客户提供精准的需求,避免资源重叠浪费。

  • 标签: 电力营销聚类分析 数据挖掘算法 研究
  • 简介:随着信息技术的发展,大量的数据不断被收集和存储,对数据挖掘规模越来越大,传统的数据挖掘已经无法解决海量数据挖掘问题。网格技术的发展,使得广域分布的海量数据挖掘问题得到解决。文章根据现实中海量数据挖掘的需求和网格的本质,把并行关联规则挖掘算法应用于网格数据挖掘中,并建立了一个并行数据挖掘模型,验证了并行数据挖掘系统在网格环境的可行性与合理性。

  • 标签: 网格 数据挖掘 并行算法
  • 简介:弧圈球在乒乓球技术中是比较关键的技术之一,正确使用弧圈球技术能够让运动员在比赛过程中获得最佳战绩,能够充分地发挥出弧圈球的威力.在分析弧圈球技术层面以及战术方面特点的基础上,综合数据挖掘技术基本理论分析了关联规则的数学模型和算法流程;最后对某省乒乓球运动员的弧圈球技术使用情况进行了数据挖掘,剖析了使用不同弧圈球技术后的得分和失分情况,从而为教练员在训练和比赛中提出决策提供了理论依据.

  • 标签: 弧圈球 乒乓球 数据挖掘 关联规则
  • 简介:为了实现电梯安全事故的预警预报,研究了电梯安全大数据挖掘方法.以电梯安全远程监管系统数据库中的电梯状态数据、基础数据、日常维保数据、故障数据以及违章数据作为数据源构建电梯安全大数据平台,包括数据采集模块、预处理模块、数据挖掘模块和数据展示模块.着重研究了改进的K-Means聚类算法和Apriori关联算法.实验表明:两种改进算法的加速比与可扩展性更好.利用聚类算法分析了各小区、不同品牌电梯的电梯故障情况以及各维保公司的故障修复率,利用关联算法分析了各小区及不同品牌电梯的特定频发故障,对电梯安全管理具有指导意义.

  • 标签: 电梯安全 数据挖掘 HADOOP平台 K-MEANS算法 APRIORI算法
  • 简介:本文作者从实际应用出发,对现存数据挖掘决策树分类方法进行了研究,并应用到系统当中,实现了决策支持模块。关键词数掘挖掘;决策树算法;改进;实现中图分类号TP301.6文献标识码A文章编号1007-9599(2010)04-0000-02DataMiningDecisionTreeImprovement&ImplementationXiaYan,ZhouXiaohong,WangDong(ChangchunTechnologyCollege,Changchun130033,China)AbstractTheauthorstudiedonexistingDataMiningdecisiontreeclassificationmethodbasedonthepracticalapplication,andappliedtothesystem,achievedadecisionsupportmodule.KeywordsDataMining;Decisiontreealgorithm;Improve;Achieve随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,在大量的数据背后隐藏着许多重要的信息,如果能把这些信息从数据库中抽取出来,将会产生重要的作用。因此,数据挖掘涉及的学科领域逐渐扩大,数据挖掘的方法也在不断地改进和提高。分类在数据挖掘中是一项非常重要的任务,分类算法可以分为决策树分类算法、遗传算法、神经网络方法、K-最近邻分类算法等。这里,以疾病防控与儿童免疫管理系统中决策支持子系统的开发过程为例,对决策树分类算法的改进及在实际中的应用进行阐述。一、数据选取和数据预处理在本系统中,以预防接种中遇到异常反应后记录的“异常反应调查表”中的数据为例进行说明。具体实现过程详细说明首先输入训练集,由于在真实的SQLServer数据库当中,为了降低存储要求和减少存储时间,并非真正存储每个数据项的属性值,而是用存储数字来对应相应的意义,如在数据库的数据表中,“性别”字段中“1”代表“男”、“2”代表“女”,反应到程序页面时再映射回原来的值,为了说理清晰又限于篇幅,这里只将所有数据集中有代表性的十几组数据作为分类模型创建的输入训练集。表1判断是否需要计划外加强免疫的属性表儿童编号月龄出生状态常住地上次注射后反应是否需要计划外加强免疫0405102<=2正常产城市无不良反应否0405495<=2正常产农村无不良反应否0401342>5正常产城市无不良反应是04054352…5正常产城市轻度反应是04065342…5非正常产城市重度反应是04072342…5非正常产农村重度反应否0401544>5非正常产农村重度反应是0408519<=2正常产城市轻度反应否0404566<=2非正常产城市重度反应是04035472…5非正常产城市轻度反应是0401534<=2非正常产农村轻度反应是0405856>5正常产农村轻度反应是0409533>5非正常产城市无不良反应是04053442…5正常产农村轻度反应否二、生成决策树对训练集的每一个属性,计算其信息增益。以“月龄”属性为例,每个结点中的正反例的个数分别为[2,3]、3,2、4,0,分别计算如下info2,3==0.971;info3,2==0.971;info4,0=0;计算信息熵E(月龄)==0.693;计算该属性的信息增益量,选取信息增益最大的属性为节点,按该属性的值划分数据集合Gain(月龄)=Info(9,5)-E(月龄)=0.940-0.693=0.247;同理,对“注射反应”属性、“出生状态”属性、“常住地”属性都可计算每个结点的正反例的个数(由于篇幅有限,不作计算)。通过对各属性信息增益的计算结果,选择“月龄”属性作为根节点,然后划分“月龄<=2”的所有可能性。计算当“月龄<=2”时,“注射反应”、“出生状态”、“常住地”的信息增益值Gain(注射反应)=Info(2,3)-E(注射反应)=0.971-0.4=0.571;Gain(出生状态)=Info(2,3)-E(出生状态)=0.971-0=0.971;Gain(常住地)=Info(2,3)-E(常住地)=0.972-0.951=0.020;同理考虑“月龄>5”的情况,由于“月龄>5”时,各个节点都是纯节点,所以不再划分。三、产生决策规则遍历决策树,输出叶结点类属性值,用IF—THEN形式表达为IF(月龄2…5AND注射反应=无)THEN(类别=是)IF(月龄2…5AND注射反应=轻)THEN(类别=是)IF(月龄2…5AND注射反应=重AND出生状态=正常产)THEN(类别=是)IF(月龄2…5AND注射反应=重AND出生状态=非正常产AND常住地=城市)THEN(类别=否)IF(月龄2…5AND注射反应=重AND出生状态=非正常产AND常住地=农村)THEN(类别=是)……依此类推,共可产生十三条规则。四、决策支持子系统的分析用上述基于决策树的分类算法所得到的模型生成的规则来预测测试集中的未知数据属于哪一类,并通过该模型的测试结果与实际情况相吻合的准确率来判断该决策树是否有效。首先,用整个数据集中2/3的数据作为训练集按照基于决策树的分类算法来建立模型,生成一棵决策树。然后,用余下的1/3的数据作为测试集,通过创建的模型进行预测,并将预测结果和实际值进行比较。如果准确率达到或超过事先确定的阈值,则可以认定该模型对于数据分类是有效的,能够在实际中应用;反之,则认定该模型的分类效果不好,需要按以上步骤来重新判断,直到分类准确率达到预定的阈值为止。在本系统中,经过测试预测准确率已达到87%,在可以接受的范围内,所以算法是有效、可行的。参考文献1陈文伟,黄金才.数据仓库与数据挖掘.人民邮电出版社,20042王万森.人工智能原理及应用.电子工业出版社,20003范明,孟小峰.数据挖掘——概念与技术.机械工业出版社,2001作者简介夏琰(1980-),女,吉林长春人。长春职业技术学院信息技术分院,教师,讲师,硕士,研究方向为计算机应用。

  • 标签:
  • 简介:随着“互联网+”技术的不断发展,人们在大数据时代所产生的数据量也呈现出急速发展的趋势,面对如此复杂的、海量的数据,如何进行有用信息和数据的提取成为重要的问题,数据挖掘便成为关键,而关联规则则是数据挖掘中的重要组成部分,主要用于对数据集中项等之间联系的发现,对于从大数据中通过关联规则来进行挖掘已是最成熟且最活跃的研究方向之一。

  • 标签: 数据挖掘 关联规则 算法研究
  • 简介:摘要:信息技术的快速发展使我们进入了大数据时代,而知识、技术、人才和资金等的时空交换加速,使得城市生产与居民活动范围持续扩大,类型更加复杂,并促进了产业重构和空间重组,进而改变着区域和城市的空间格局。在此背景下,大数据在城市规划实践和研究中也得到越来越多的应用。

  • 标签: 云计算IaaS 大数据技术 机器学习