学科分类
/ 25
500 个结果
  • 简介:摘要目的探讨基于随机森林模型分析内脏脂肪等级的相关指标。方法本研究为横断面研究,选取2021年3—9月在黑龙江省医院健康管理中心进行体检的医院职工(包括在职职工和退休职工)共617例的各项实验室指标以及体成分分析各项指标,按照2∶1的比例将样本分为训练集(411例)和测试集(206例),模型共纳入预测变量110个,使用训练集数据进行随机森林模型构建,测试集数据进行模型验证,选择最优节点数和决策树数目,对构建模型的预测性能进行评价,同时选取重要性在前10位的相对重要因子进行下一步的研究。按内脏脂肪等级,对617名研究对象再次进行分组:内脏脂肪等级正常组和内脏脂肪等级偏高组,进一步分析前10位相对重要因子在组间的差异。结果随机森林模型的最优节点数为39、决策树数目为300。模型在测试集上的准确率为83.3%、精确率为73.9%、灵敏度为89.4%、特异度为78.7%,其受试者工作特征曲线下面积为0.881(95%CI:0.832~0.931)。模型中前10位相对重要因子依次为:体重指数、性别、年龄、尿酸、红细胞计数、单核细胞计数、C肽、癌胚抗原、糖化血红蛋白、谷氨酰转肽酶。内脏脂肪等级偏高组的体重指数、年龄、尿酸、红细胞计数、单核细胞计数、C肽、癌胚抗原、糖化血红蛋白、谷氨酰转肽酶水平均高于内脏脂肪等级正常组(均P<0.05);内脏脂肪等级偏高的发生率男性大于女性(P<0.05)。结论本研究构建的内脏脂肪等级的随机森林预测模型表现良好,内脏脂肪与机体肝功能、胰岛功能、免疫功能的改变均有关系。

  • 标签: 内脏脂肪等级 体重指数 随机森林预测模型 机器学习模型
  • 简介:为提高基于随机森林算法重复拨打投诉预警模型的效果,文章从数据、指标、参数3个方面对模型进行优化。在数据处理方面,利用SMOTE算法平衡投诉与非投诉比例,一方面防止了模型出现过拟合;另一方面消除了非平衡数据对模型效果的影响。在特征选择方面,使用基尼系数进行特征选择,从而减少数据的噪声,提高模型预测的准确度。在参数调整方面,使用R语言软件对模型决策树数量参数和最大特征参数进行调整,模型最终的OOB误差率为5.03%,准确率和召回率均超过70%。目前投诉预警模型已经进行试点应用,实现了投诉业务的提前识别,通过采用相应服务策略,减少了服务升级事件,降低了客户投诉率,有效提升了客户感知。

  • 标签: 参数优化 随机森林 重复拨打 SMOTE算法 投诉预警
  • 简介:以高校助学金等级评定工作为研究对象,采集忻州师范学院学生相关数据,初步制定助学金评定指标体系,通过可视化分析法对数据特征之间、数据特征与标签数据间的关系进行探索性分析,形成修正的助学金评定指标体系。将采用装袋(Bagging)集成方法的随机森林模型应用于助学金等级预测中,并与分类回归树(CART)算法进行比较。预测结果表明,随机森林模型在助学金等级预测中预测能力较强,具有一定的实用价值。

  • 标签: 助学金等级评定 随机森林 探索性数据分析
  • 简介:摘要传统的生存分析方法虽在生物医学领域已有广泛应用,但需满足一些前提假设。随机生存森林方法可克服这一弱点。本文以美国梅奥诊所的肝脏原发性胆汁肝硬化的数据为例,从随机生存森林的原理、建模步骤、实例演示和适用性讨论等方面进行阐述,以期为读者进行生存分析提供新的思路和方法。

  • 标签: 模型,统计学 人工智能 随机生存森林
  • 简介:摘要目的建立随机森林模型预测急性心肌梗死(acute myocardial infarction,AMI)患者并发急性肾损伤(acute kidney injury, AKI)。方法使用温州医科大学附属东阳医院大数据平台,筛选出1 363例患AMI的病例,确定30个变量后,统计分析样本临床特点,将样本划分为75%的训练集建立随机森林模型,以及25%的测试集进行验证,使用R语言进行数据的筛选及模型的建立。最后根据特异性、敏感性、准确性、受试者特征工作特征曲线(relative operating characteristic curve, ROC曲线)等来评估模型性能,同时与其他三种常用的机器学习算法(神经网络,朴素贝叶斯,支持向量机)的模型性能进行比较。结果AMI合并AKI的患者的人口学信息、心血管疾病的危险因素、入院时的生命体征、实验室检查等与未合并急性肾损伤的患者存在差异性。模型评估后得出测试集的ROC曲线下面积为0.893,特异度为0.791,灵敏度为0.866,其中入院首次肌酐、首次尿素、D-二聚体、年龄、机械通气是其最重要的影响因素。在本研究中,多种机器学习算法比较后,随机森林模型较有优势。结论建立的随机森林模型具有帮助预测AMI并发AKI的潜力。

  • 标签: 急性心肌梗死 急性肾损伤 随机森林 预测模型
  • 简介:摘要:驾驶人分心状态判别是分心驾驶预警系统的重要基础。为了探寻驾驶人分心判别方法,本文通过设计模拟驾驶实验,采集正常驾驶状态和执行语音短信次任务时的驾驶绩效指标和驾驶人视觉特征指标,通过ReliefF算法筛选出重要度较大的10个指标作为驾驶人分心状态判别指标,将这些指标作为随机森林组合模型的输入,建立基于随机森林组合模型的驾驶人分心状态判别模型。结果表明,本文建立的模型可以准确判别驾驶人分心状态,判别准确率为82.69%。与决策树C4.5和BP神经网络算法相比,随机森林组合算法在准确率、精准率、召回率、F1值和ROC曲线等模型性能方面均优于其他两种方法。本文所建模型能够有效地判别驾驶人分心状态,可为驾驶人分心预警系统和分心控制策略提供依据。

  • 标签: 交通工程 分心状态判别 ReliefF算法 随机森林算法
  • 简介:摘要:根据白酒酿造的工艺特点及质量控制的要求,围绕白酒馏酒时长在进行特征因素筛选的基础上,采用随机森林的机器学习算法建立回归预测模型。经仿真实验,该算法在预测的精度及预测的效率方面均取得较好的效果,从而为白酒酿造过程的质量管控提供参考和依据。

  • 标签: 随机森林 MES 白酒
  • 简介:摘要:随机森林是当前一种常用的机器学习算法,其是Bagging算法和决策树算法的一种结合。本文就基于随机森林的相关性质及其原理,对它的改进发展过程给予了讨论。

  • 标签:
  • 简介:摘要目的基于随机森林算法构建儿童重症腺病毒肺炎(severe adenovirus pneumonia,SAP)的临床预测模型,并对其进行验证。方法采用观察性研究设计,回顾性分析2019年1月至2021年1月天津市儿童医院收治的542例腺病毒肺炎患儿的临床、实验室及影像学资料。将研究对象随机分为训练集和验证集(8∶2)。训练集通过随机森林算法筛选SAP的预测因子建立预测模型,并通过列线图将预测模型可视化表达。在验证集中利用受试者工作特征(ROC)曲线和敏感性、特异性、误判率、混淆矩阵对其进行验证。结果训练集患儿439例,其中重症型187例(42.60%),验证集患儿103例,其中重症型44例(42.71%)。训练集中单核细胞百分比(M%)、PLT、AST、IL-6、热峰、肺部大片炎性实变、肺部斑片状阴影是影响SAP的独立预测因子。模型区分度验证发现训练集和验证集的ROC曲线下面积分别为0.95(95%CI:0.92~0.98)和0.92(95%CI:0.82~0.99)。训练集的准确度、灵敏度、特异性、阳性预测值和阴性预测值分别为0.994、1.000、0.987、0.998、1.000;验证集的分别为0.752、0.990、0.514、0.945、0.857。结论该预测模型具有较好的判别能力,早期的临床及血液学指标有助于提高儿童SAP的识别和筛选,具有一定的临床价值。

  • 标签: 儿童 腺病毒 重症肺炎 预测模型 随机森林
  • 简介:以2016年8月26日Landsat-8OLI影像为数据源,针对特征变量数目可影响分类精度和运算速率问题,采用一种基于特征优选的随机森林模型,提取了黄河口滨海湿地高精度信息。首先,采用Relief(relevantfeatures)-F算法,对全部特征变量进行权重排序,剔除不相关变量;然后,分别采用基于特征优选的随机森林模型、最大似然方法和神经网络分类算法,提取黄河口滨海湿地信息,比较基于特征优选的随机森林模型与其它两种分类方法在滨海湿地信息提取应用中的精度和效率。研究结果表明,基于特征优选的随机森林模型滨海湿地分类效果最佳,总精度为86.39%,Kappa系数为0.81,明显高于最大似然和神经网络分类方法;其中,河流湿地分类精度最高,为95.83%,盐田分类精度最低,主要原因在于盐田与养殖池、水库/坑塘的光谱和几何特征极为相似,易于混淆;但与最大似然分类和神经网络分类方法相比,该方法提取效果明显改善,分类精度分别提高了16.84%和4.44%。本研究结果证明,采用Relief-F算法特征优选的随机森林模型提取滨海湿地信息的方法,具有分类精度高、运算速率快的优势,适用于滨海地区不同类型湿地高精度信息提取。

  • 标签: 黄河口 滨海湿地 Relief-F算法 随机森林模型 信息提取
  • 简介:文献[1][2][3]解决了无风情况下的森林救火问题。当刮风时势必会加大火势,那么消防队如何根据风力做出判断,派出多少人救援会使得森林烧毁损失费和救援费总费用最小。考虑风力n级情况下,风力越大火势越大。文章把文献[1][2][3]中的图形建模转化为微分方程模型,用微分法对燃烧速度建立了新的模型,最后建立总费用模型,得出结论:风力越大,需要派出的救援人数越多,这一结论符合常理。

  • 标签: 微分法建模 燃烧速度 函数极值
  • 简介:综合Adaboost算法的自适应再加权和随机森林算法的未修剪随机变量划分树基模型,文章提出了用于自适应随机森林算法。通过实验数据发现,在训练集较大、贝叶斯误差较小时,模拟自适应再加权会起作用,从而,拟自适应随机森林算法会优于随机森林算法。

  • 标签: 模拟自适应再加权 随机森林 务实研究
  • 简介:摘要目的探讨基于随机森林的参数响应图(PRM)定量参数对肺功能的预测价值。方法回顾分析2018年8月至2019年12月在上海长征医院接受胸部三大疾病筛查的受试者615例。根据肺功能指标[第1秒用力呼气容积与用力肺活量的比值(FEV1/FVC)及第1秒用力呼气容积占预计值的百分比(FEV1%)]分为正常组、高危组及慢性阻塞性肺疾病(COPD)组。小气道CT定量参数主要为PRM参数,包括全肺、左肺、右肺及5个肺叶的肺体积、功能小气道疾病体积(PRMVfSAD)、肺气肿体积(PRMVEmph)、正常部分肺体积(PRMVNormal)、未分类部分肺体积(PRMVUncategorized)及后四者体积占全肺的百分比(%)。采用单因素方差分析或Kruskal-Wallis H检验3组间基本临床特征(年龄、性别、身高、体质量)、肺功能参数和小气道CT定量参数的差异;采用Spearman检验评价PRM参数与肺功能参数的相关性。最后构建基于PRM联合4个基本临床特征的随机森林回归模型,预测肺功能。结果3组间全肺PRM参数差异均有统计学意义(P<0.001)。CT定量参数PRMVEmph、PRMVEmph%、PRMVNormal%与FEV1/FVC呈中度相关(P<0.001),全肺体积、PRMVNormal、PRMVUncategorized及PRMVUncategorized%与FVC呈强或中度正相关(P<0.001),余PRM参数与肺功能参数呈弱或极弱相关。基于以上参数建立预测FEV1/FVC的随机森林模型和预测FEV1%的随机森林模型。预测FEV1/FVC的随机森林模型预测FEV1/FVC与实际值在训练集中R2=0.864,验证集中R2=0.749;预测FEV1%的随机森林模型预测FEV1%与实际值在训练集中R2=0.888,验证集中R2=0.792。验证集中,随机森林FEV1%预测模型对正常组及高危组分类的灵敏度为0.85(34/40),特异度为0.90(65/72),准确度为0.88(99/112);随机森林FEV1/FVC预测模型对非COPD患者及COPD患者分类的灵敏度0.89(8/9),特异度1.00(112/112),准确度0.99(120/121);两个模型联合对COPD组内[慢性阻塞性肺疾病全球倡议(GOLD)Ⅰ、GOLD Ⅱ、GOLD Ⅲ+Ⅳ]分类的准确度为0.44。结论小气道CT定量参数PRM可区分正常人群、高危及COPD人群;基于PRM参数结合临床特征的联合回归预测模型,对正常组及高危组、非COPD及COPD组的预测效果良好,进而实现一次CT扫描能够完成对功能小气道和肺功能的一次性评估。

  • 标签: 肺疾病,慢性阻塞性 体层摄影术,X线计算机 肺功能检测 随机森林
  • 简介:摘要目的构建预测电离辐射诱导DNA双链断裂(DSB)水平的随机森林分类模型,初步研究DSB在基因组中的分布规律。方法将GRCh38参考基因组分为50 kb的片段,根据MCF-7细胞的测序数据把片段分为电离辐射诱导的DSB低水平和高水平区域,以8种表观遗传学特征作为输入,随机将数据集的2/3列为训练集,1/3列为测试集,构建含100棵决策树的随机森林分类模型。分析分类模型中表观遗传学的特征重要性,展示这些标记在不同DSB水平区域的富集差异。结果随机森林分类模型在测试集上预测的准确率为99.4%,精准率为98.9%,召回率为99.9%,受试者操作特征曲线下面积为0.994。8个特征中H3K36me3和DNase标记的重要性最高,富集分析表明DSB高水平区域的这两类标记明显高于DSB低水平区域。结论以表观遗传学数据作为特征输入,随机森林分类模型可在50 kb基因组区域上准确预测电离辐射诱导的DSB水平,分析表明这些DSB可能主要分布在基因组中转录活跃的部位。

  • 标签: 电离辐射 DNA双链断裂 随机森林 分类模型 表观遗传学
  • 简介:二、建立模型1.根据需求量和提前订货随机变化情况确定安全库存量安全库存量一般只是在需求量和提前订货时间有随机变化的情况下,Q)存储控制系统安全库存量在需求量和提前订货时间随机变化情况下的模型分析,2.应用分析文章案例是根据需求量和提前订货随机变化情况确定安全库存量

  • 标签: 型存储 存储模型 应用研究
  • 简介:二、建立模型1.根据需求量和提前订货随机变化情况确定安全库存量安全库存量一般只是在需求量和提前订货时间有随机变化的情况下,Q)存储控制系统安全库存量在需求量和提前订货时间随机变化情况下的模型分析,2.应用分析文章案例是根据需求量和提前订货随机变化情况确定安全库存量

  • 标签: 型存储 存储模型 应用研究
  • 简介:本文提出了一个项目参与者数T是随机变量的广义合作网络模型,新节点与随机选择的节点合作,通过节点度演化所满足的马尔可夫性,利用马.尔可夫链的方法和技巧得到了度分布的精确解析表达式.并说,明了此广义合作网络不是无标度网络.

  • 标签: 广义合作网络 马尔可夫链 度分布 无标度网络
  • 简介:针对TLD算法中采用的随机森林分类器的决策树阈值固定,不能根据目标特征随时调整,影响分类精度和时间开销的问题,引入极端随机森林的思想,提出了基于改进的随机森林TLD目标跟踪方法。该方法用Gini系数度量样本集合的混乱程度,通过比较Gini系数是否超过了给定阈值,判断叶节点何时转变成决策节点进行分裂;再结合TLD算法中的P—N学习框架和在线模型训练更新样本;最终基于改进的TLD算法完成目标跟踪。将本文方法应用于多个视频集进行目标跟踪实验,验证了算法的有效性和稳定性。

  • 标签: 目标跟踪 随机森林 TLD 分裂阈值 在线学习
  • 简介:本文对Suijs和Borm等所建立的模型稍作引伸.并将之应用于保险交易过程中有关各方面的风险分担,在所建立的带有随机支付的保险合作博弈模型框架下.讨论了保险博弈问题可能的结盟方式及其解的概念,并给出了保险风险分配、可行保险风险分配和帕累托最优保险风险分配的定义与形式,最后以实例说明其合理性.研究表明。带有随机支付的保险合作博弈模型能够较好的刻画保险机制的本质。

  • 标签: 金融学 保险风险分配 随机合作博弈 帕累托最优风险分配 确定性等价