学科分类
/ 25
500 个结果
  • 简介:摘要:随机森林是当前一种常用的机器学习算法,其是Bagging算法和决策树算法的一种结合。本文就基于随机森林的相关性质及其原理,对它的改进发展过程给予了讨论。

  • 标签:
  • 简介:综合Adaboost算法的自适应再加权和随机森林算法的未修剪随机变量划分树基模型,文章提出了用于自适应随机森林算法。通过实验数据发现,在训练集较大、贝叶斯误差较小时,模拟自适应再加权会起作用,从而,拟自适应随机森林算法会优于随机森林算法。

  • 标签: 模拟自适应再加权 随机森林 务实研究
  • 简介:针对TLD算法中采用的随机森林分类器的决策树阈值固定,不能根据目标特征随时调整,影响分类精度和时间开销的问题,引入极端随机森林的思想,提出了基于改进的随机森林TLD目标跟踪方法。该方法用Gini系数度量样本集合的混乱程度,通过比较Gini系数是否超过了给定阈值,判断叶节点何时转变成决策节点进行分裂;再结合TLD算法中的P—N学习框架和在线模型训练更新样本;最终基于改进的TLD算法完成目标跟踪。将本文方法应用于多个视频集进行目标跟踪实验,验证了算法的有效性和稳定性。

  • 标签: 目标跟踪 随机森林 TLD 分裂阈值 在线学习
  • 简介:摘要:森林是地球生态系统的重要组成部分,具有维持生态平衡的重要功能。因此,森林生态系统的健康非常重要,必须进行可靠地、正确地评价。本论文利用随机森林对云南省森林生态系统健康进行评价,实验结果显示,基于随机森林森林健康评价具有较高的准确性,符合实际,结果可靠,可以为政府和林业管理者提供数据依据和评价量化工具。

  • 标签:
  • 简介:针对现有页岩气储集层总有机碳含量预测模型存在的模型泛化能力弱、稳定性差的问题,提出了一种利用随机森林回归算法预测储集层总有机碳含量的方法。该方法使用地球物理测井提供的密度、铀含量、钍含量、自然伽马及光电吸收截面吸收指数等测井响应值作为输入,岩芯实验总有机碳含量作为输出,通过学习输入曲线与总有机碳含量的函数关系,动态预测整口井的总有机碳含量曲线。通过对焦石坝地区两口页岩气探井建模及预测可知,当随机森林中树的数量达到500时,建立的模型即可对训练样本中输入与输出的函数关系进行完全学习。通过训练结果及预测结果可知,随机森林回归方法不易发生过拟合现象,泛化能力极强,同时预测得到的曲线更为平滑,预测总有机碳含量较其他方法更为准确,有效地提高测井信息预测总有机碳含量模型的精度,对页岩气储集层评价提供帮助。

  • 标签: 页岩气 总有机碳含量 随机森林回归 机器学习
  • 简介:摘要目的探讨基于随机森林模型分析内脏脂肪等级的相关指标。方法本研究为横断面研究,选取2021年3—9月在黑龙江省医院健康管理中心进行体检的医院职工(包括在职职工和退休职工)共617例的各项实验室指标以及体成分分析各项指标,按照2∶1的比例将样本分为训练集(411例)和测试集(206例),模型共纳入预测变量110个,使用训练集数据进行随机森林模型构建,测试集数据进行模型验证,选择最优节点数和决策树数目,对构建模型的预测性能进行评价,同时选取重要性在前10位的相对重要因子进行下一步的研究。按内脏脂肪等级,对617名研究对象再次进行分组:内脏脂肪等级正常组和内脏脂肪等级偏高组,进一步分析前10位相对重要因子在组间的差异。结果随机森林模型的最优节点数为39、决策树数目为300。模型在测试集上的准确率为83.3%、精确率为73.9%、灵敏度为89.4%、特异度为78.7%,其受试者工作特征曲线下面积为0.881(95%CI:0.832~0.931)。模型中前10位相对重要因子依次为:体重指数、性别、年龄、尿酸、红细胞计数、单核细胞计数、C肽、癌胚抗原、糖化血红蛋白、谷氨酰转肽酶。内脏脂肪等级偏高组的体重指数、年龄、尿酸、红细胞计数、单核细胞计数、C肽、癌胚抗原、糖化血红蛋白、谷氨酰转肽酶水平均高于内脏脂肪等级正常组(均P<0.05);内脏脂肪等级偏高的发生率男性大于女性(P<0.05)。结论本研究构建的内脏脂肪等级的随机森林预测模型表现良好,内脏脂肪与机体肝功能、胰岛功能、免疫功能的改变均有关系。

  • 标签: 内脏脂肪等级 体重指数 随机森林预测模型 机器学习模型
  • 简介:为提高基于随机森林算法重复拨打投诉预警模型的效果,文章从数据、指标、参数3个方面对模型进行优化。在数据处理方面,利用SMOTE算法平衡投诉与非投诉比例,一方面防止了模型出现过拟合;另一方面消除了非平衡数据对模型效果的影响。在特征选择方面,使用基尼系数进行特征选择,从而减少数据的噪声,提高模型预测的准确度。在参数调整方面,使用R语言软件对模型决策树数量参数和最大特征参数进行调整,模型最终的OOB误差率为5.03%,准确率和召回率均超过70%。目前投诉预警模型已经进行试点应用,实现了投诉业务的提前识别,通过采用相应服务策略,减少了服务升级事件,降低了客户投诉率,有效提升了客户感知。

  • 标签: 参数优化 随机森林 重复拨打 SMOTE算法 投诉预警
  • 简介:精确的网络流量分类是实现互联网可控可管的关键,传统的单一分类算法需要构建基于特定假设的某种模型,算法对于待分类数据的分布要求高,不能满足复杂多变的网络流量的分类要求。基于此,采用多决策树组合的随机森林算法实现网络流量分类。通过实际网络流量数据实验表明,在各种情况下,随机森林算法都能显著改善网络流量特别是小比例样本的分类效果,算法降低了单一算法过于依赖特定假设模型的要求,对于待分类样本的分布要求低,随机森林算法具有良好的分类效果和鲁棒性。

  • 标签: 流量分类 流量特征选择 组合分类器 随机森林算法
  • 简介:摘要:随机森林算法以其稳定性强、运行速度快等优点在遥感分类中广泛运用。为提高复杂地物环境下水体提取精度,引入随机森林算法,利用Landsat8 OLI多光谱遥感影像通过有放回的随机选择训练数据子集构建决策树,使得Gini指数最小的属性作为分裂节点的属性,通过绝对多数投票法获得最终分类结果。结果表明该方法能较准确的识别提取图像中的水体目标,在复杂背景、细小河流等不利条件下分类结果较为理想。

  • 标签: 随机森林 水体提取 遥感影像
  • 简介:以高校助学金等级评定工作为研究对象,采集忻州师范学院学生相关数据,初步制定助学金评定指标体系,通过可视化分析法对数据特征之间、数据特征与标签数据间的关系进行探索性分析,形成修正的助学金评定指标体系。将采用装袋(Bagging)集成方法的随机森林模型应用于助学金等级预测中,并与分类回归树(CART)算法进行比较。预测结果表明,随机森林模型在助学金等级预测中预测能力较强,具有一定的实用价值。

  • 标签: 助学金等级评定 随机森林 探索性数据分析
  • 简介:随机森林是21世纪提出的基于分类树的算法,在处理大数据集中具有明显优势,首度将其应用在降水长期预报中。以长江中下游地区1月份降水预报为例,运用随机森林模型构建原则,在74项大气环流因子以及前期月降水中筛选模型预报因子,进行长期降水量预报,并将其与神经网络模型预报效果进行对比,发现随机森林的泛化误差为13%,预报准确率达到75%,而神经网络的预报准确率仅为67%。此外,本研究还对长江中下游地区的汛期降水量进行了长期预报,结果表明,随机森林模型进行降水量长期预报中模拟和预报的效果令人满意,值得进一步研究和应用。

  • 标签: 随机森林 长期降水预报 等级预报 泛化误差 重要性因子评价 决策树
  • 简介:摘要传统的生存分析方法虽在生物医学领域已有广泛应用,但需满足一些前提假设。随机生存森林方法可克服这一弱点。本文以美国梅奥诊所的肝脏原发性胆汁肝硬化的数据为例,从随机生存森林的原理、建模步骤、实例演示和适用性讨论等方面进行阐述,以期为读者进行生存分析提供新的思路和方法。

  • 标签: 模型,统计学 人工智能 随机生存森林
  • 简介:摘 要:企业用电量与企业经济状况息息相关,利用企业历史用电量数据对企业未来用电量进行预测具有重要意义。传统的企业用电量预测方法具有预测精度低、预测误差大、运算速度慢等缺点。为此,本文提出一种可提高企业用电量预测精度和提高运算效率方法,以随机森林预测企业用电量为基本建模方法,对数据采用多历元平滑的方法进行建模,针对机器建模速度慢和调参速度慢问题,本文采用 spark技术对数据进行并行计算。

  • 标签: 多历元平滑 随机森林 用电量预测 Spark
  • 简介:摘要:本文研究是基于随机森林算法,结合GIS平台(地理信息系统)分析太阳能资源、土地资源、市政设施、电力系统等空间地理信息,以研究太阳能光伏发电及供需系统预测,以基于人工智能技术解决太阳能光伏发电站发电规模的数据支撑和电网接入资源分配问题。

  • 标签: 光伏设施规划电网接入随机森林算法
  • 简介:摘要:为提高数据分析的准确度以及速度,引入卷积神经网络DL算法,开展对数据识别方法设计研究。分析对比实验结果得出,设计方法的识别结果相似度更高,识别误差更小,可以实现对数据识别准确度的提升。基于卷积结构的信号调制识别神经网络的识别性能受信号调制类型种类限制。

  • 标签:  深度调制识别 迁移学习 卷积神经网络 数据 DL算法
  • 简介:摘要:为提高数据分析的准确度以及速度,引入卷积神经网络DL算法,开展对数据识别方法设计研究。分析对比实验结果得出,设计方法的识别结果相似度更高,识别误差更小,可以实现对数据识别准确度的提升。基于卷积结构的信号调制识别神经网络的识别性能受信号调制类型种类限制。

  • 标签:  深度调制识别 迁移学习 卷积神经网络 数据 DL算法
  • 简介:

  • 标签:
  • 简介:摘要目的建立随机森林模型预测急性心肌梗死(acute myocardial infarction,AMI)患者并发急性肾损伤(acute kidney injury, AKI)。方法使用温州医科大学附属东阳医院大数据平台,筛选出1 363例患AMI的病例,确定30个变量后,统计分析样本临床特点,将样本划分为75%的训练集建立随机森林模型,以及25%的测试集进行验证,使用R语言进行数据的筛选及模型的建立。最后根据特异性、敏感性、准确性、受试者特征工作特征曲线(relative operating characteristic curve, ROC曲线)等来评估模型性能,同时与其他三种常用的机器学习算法(神经网络,朴素贝叶斯,支持向量机)的模型性能进行比较。结果AMI合并AKI的患者的人口学信息、心血管疾病的危险因素、入院时的生命体征、实验室检查等与未合并急性肾损伤的患者存在差异性。模型评估后得出测试集的ROC曲线下面积为0.893,特异度为0.791,灵敏度为0.866,其中入院首次肌酐、首次尿素、D-二聚体、年龄、机械通气是其最重要的影响因素。在本研究中,多种机器学习算法比较后,随机森林模型较有优势。结论建立的随机森林模型具有帮助预测AMI并发AKI的潜力。

  • 标签: 急性心肌梗死 急性肾损伤 随机森林 预测模型
  • 简介:为了进一步提高决策树模型的交通事件检测性能,且避免噪音和过拟合现象,提出了基于随机森林的交通事件检测方法.从分类强度和相关性2个角度进行分析,并构建了3组实验:与不同数目决策树的对比、与不同决策树的对比及与神经网络的对比.实验数据采用实测的高速公路交通参数数据库(1-880数据库);实验的评价指标采用检测率、误警率、平均检测时间、分类率和ROC曲线下的面积.实验结果表明,基于随机森林的交通事件检测模型可以提高检测率、减少检测时间、提高分类正确率,和多层前馈神经网络相比具有很好的竞争力.

  • 标签: 智能交通系统 随机森林 交通事件检测
  • 简介:摘要配网抢修是电力系统运行环节中十分重要的一环,精益化的配网抢修管理不仅能提高电力系统的供电服务质量,也能减少电力公司的经济损失。本文提出一种新的配网抢修故障数量预测的方法。首先,基于历史数据,以气温、风力、前一天的故障量、最大最小负荷等作为因变量,对数据做了特征映射等预处理。然后,应用随机森林算法建立配网抢修故障量预测模型,并预测不同区域、不同电网故障及非电网故障、不同电压维度下未来一天故障量。在真实电力数据上进行了对比验证,实验结果表明提出的方法具有较好的预测效率和准确性。

  • 标签: 配网抢修 电力系统 精益化管理 故障量预测 随机森林算法