基于应用数据特征的智慧医疗大数据可信性研究

(整期优先)网络出版时间:2023-04-15
/ 3

基于应用数据特征的智慧医疗大数据可信性研究

胡海峰,王冠,樊爱宛

河南 平顶山 平顶山学院 467000

摘要:智慧医疗大数据在辅助医生进行医疗诊断方面发挥着积极的作用,不可靠的医疗数据将严重干扰医生做出正确的诊断,甚至会造成极大的生命损失。本文针对可靠医疗设备产生数据可信性不确定问题,从两个方面鉴别数据的可信性。首先获取设备附近具有相同聚簇的设备,通过采集这些设备的数据信息进行比较,如果同期环比吻合,则认为该数据可信。然后获取时间阈值范围内的历史数据,获取的数据和历史数据相吻合,则鉴定本次数据可信。基于医疗数据时域与邻域特征的可信鉴定方法,能够对可靠设备产生的数据进行可信性鉴别,提高了智慧医疗来源数据的可信性。

关键字:智慧医疗,应用数据,可信性

1 引言

智慧医疗大数据在辅助医生进行病变检测、提高诊断准确率与效率、提升医疗服务水平、缓解医疗资源紧张等方面发挥着积极的作用[1]。医疗领域科学、严谨的特性决定人们对医疗大数据的准确性和可靠性具有非常严苛的要求,但大数据本身具有一定的欺骗性[2]。智慧医疗大数据分析处理输出结果的可信性直接依赖于海量来源数据的可信性。但产生来源数据的采集设备在数据采集和传输过程中经常会受到各种因素的影响,使来源数据集的可信性不确定。在进行智慧医疗大数据分析处理前,如果不验证来源数据的可信性,将大大降低大数据分析处理输入数据集的质量,为之后的数据分析和挖掘工作带来极大的障碍,严重影响大数据分析结果的准确性。在当前越来越依赖智慧医疗大数据分析处理输出结果进行各种诊断治疗的形势下,以上现象将严重干扰用户做出正确的战略决策,甚至会造成极大的经济损失。针对以上问题,通过开展基于应用数据时域和邻域特征鉴定数据的可信化研究,过滤掉可信设备生成的不可信数据,解决可信智慧医疗设备受使用环境影响或攻击降低来源数据集可信性的问题,可以显著提高智慧医疗大数据来源数据集的可信性,提高智慧医疗大数据分析与挖掘结果的真实性,为智慧医疗应用提供强有力的安全保障。

2 研究现状

文献[3]研究了基于历史数据的可信性判断,利用意见和信誉、行为和历史、证书和位置等历史数据预测当前时刻数据,与实际测量值进行比对从而检测异常数据;文献[4]研究了基于上下文的可信性判断,根据所选择的一组空间内多个设备根据上下文内容判断数据可信性;文献[5]研究了基于数据来源的可信性判断,要求确信大数据是由可信源发布的,需要验证数据属主的身份。文献[6]通过信息熵计算所测数据属性的权值,以此对数据的信任值进行量化。文献[7]通过数据的交叉集、历史数据和区域数据量化可信度指标,并设置可信度指标动态变化,保证了数据可信性判断的有效性。文献[8]研究了基于信任度的访问控制模型,将信任相关属性应用到访问控制模型中,更好的实现了基于信任的自动授权。

通过以上分析可知,对数据可信性研究采用的属性较为单一。研究表明,通过多属性对数据的可信性进行鉴别要比单一属性准确的多,因此,许多学者对基于单一属性的可信性研究进行了改进和拓展,但并没有完全解决不可信数据的产生。因此,本文从历史数据和区域数据两个方面,通过聚类算法对被鉴别数据进行分析,以此对数据的可信性进行鉴别。

3 基于密度聚类算法的医疗数据可信性研究

3.1 基于密度聚类的异常点检测方法

(1)密度聚类算法的选择

密度聚类方法从空间内容乃样本数据的数量从发,当单位空间内容样本点的数量大于设定的阈值时,将样本点收纳到附近的区域聚簇中。密度聚类算法的优点在于不需要事先确定聚簇的数量,能够很好的对噪声数据进行处理。智慧医疗大数据中的异常数据并不都是噪声数据,所以选择DBSCAN密度聚类算法对智慧医疗异常数据进行鉴别。DBSCAN算法的相关概念的定义如下:

邻域:以鉴别对象为圆心,给定半径为r内的空间。

中心点:在一个给定鉴别点Xi的r半径区域内包含了样本点集合Xj,j的区间为[1,n],则Xi为核心点。

直接到达点:样本点Xj在核心点Xi的r邻接区域内,则样本点Xj为Xi的密度直接到达点。

间接到达点:样本点Xj到核心点Xi之间存在多个直接到达点,即存在[Xj,Xj1,Xj2,…,Xji…,Xi],Xji是Xji-1的直接到达点。则样本点Xj是样本点Xi的间接到达点。

边界点:非样本核心点Xj在多个核心点Xi的区域内,则Xj为样本的边界点。

噪声:在被测点邻域以外的点是样本的噪声。

(2)改进型DBSCAN聚类算法的研究

快速的鉴别医疗数据的可信性是智慧医疗大数据分析应用的关键因素。BSCAN算法在对医疗大数据进行聚类计算时,由于医疗数据规模较大,如果将所有异常数据作为样本数据进行处理,将大大增加计算的时间,消耗大量的计算资源,影响大数据分析的效率和应用效果。因此,本文研究了一种改进型的BSCAN聚类算法,具体实现步骤如下:

①首选通过时间和空间特征值筛选样本数据。

②根据特征值的个数n,对样本空间中的数据构建k-d树。

③在样本空间中选择样本点Xi,设置半径r建立Xi的邻域。

④从样本点Xi开始查询其他每一个样本点Xi1,如果Xi1到Xi的距离小于半径r,Xi1放在Xi邻域区域内。

⑤查询完每一个样本点为止,如果Xi邻域内样本点的个数大于MinPts,那么Xi为核心点,核心点表示合理异常数据,为Xi分配簇号。否则,Xi为不可信数据。

⑥以Xi邻域内的样本点为起始点按照 ③~⑤ 步进行计算,确定每一个簇内的样本点和簇外样本点。

⑦以新的样本点起始,按照第 ③~⑥步寻找新的簇。直到所有节点鉴别为合理异常数据或不可信数据为止。

(3)改进型聚类算法的时间复杂度仿真实验

为了验证改进型算法搜索时的时间优势,本文选择了十种不同规模的数据集,如表1所示。

表1 时间复杂度仿真实验数据集

序号

1

2

3

4

5

6

7

8

9

10

数据记录

9000

18000

27000

36000

45000

54000

63000

72000

81000

90000

将改进型算法与传统算法的运行时间和分簇个数进行了对比。半径r设置为90,MinPts设置为50,实验结果如图1所示。

无标题

图1 改进算法仿真实验结果

图1.a显示了改进型算法随着数据集中记录数量的增大,算法的运行时间几乎呈直线,增长幅度不大;而传统算法随着数据量的增加,运行时间急剧增加。且两种算法的时间差距越来越大。从实验结果可以看出,改进型算法具有明显的时间优势。图1.b显示了传统算法和改进型算法随着样本数据的增多,产生的聚簇个数也在增加。但在同一数据样本中,改进型算法产生聚簇个数略微少于传统型算法,总体来说,两种算法产生聚簇个数相差不大。

3.2 基于密度聚类算法的医疗数据可信性研究

智慧医疗设备采集体征数据时,由于医护人员操作的熟练性,操作的规范性,设备电压、电流的稳定性等原因,都会影响体征数据的可靠性。因此,本文在保证医疗设备可信的前提下,研究了能够有效鉴别体征数据可信性方法,首先鉴别原始体征数据,在参数范围内的数据直接鉴别为可信数据,其他数据又分为异常数据和不可信数据。然后以异常数据为鉴别对象,通过密度聚类算法对体征数据的非空间特征值进行分类,在聚类半径之外的数据鉴别为不可信数据。体征数据可信性鉴别流程如图2所示。

图2 应用数据可信性鉴定流程图

(1)可信性鉴别标准

① 当采集到的数据位于医疗检测设备正常数值范围内,且根据相应的特征值判别与其他同类设备的采集数据值相同或相近,即符合该设备数据的主流取值,则认为该数据为可信且正常的数据。

② 当采集到的数据位于采集设备对该类型数据所设定的允许数值范围内,但其数据值与其它同类设备的数据值存在明显差异,或者数据数值与历史数据、同一地域数据存在明显差异时,则认为数据异常。异常数据存在两种情况:该数据异常,但是反映了外界真实事件,其出现可能表明外围环境存在或即将出现需要关注的突变事件,则认为该异常数据为合理数据;数据异常是由于设备故障、网络原因或者人为恶意更改等因素所造成,则认为该异常数据为不可信数据。

(2)可信性鉴别过程

数据聚簇分类是数据特征检测的必要步骤,本文在使用聚类分析算法时的步骤如下:

一是设定合理聚簇边界,以发现潜在的不可信数据。不可信数据为孤立点,且数据的非时空属性的描述与属性值存在明显不匹配。

二是对样本数据进行聚类分簇,同一簇中的数据类型相同,且数据量较多,符合聚簇特征。

在传统的DBSCAN算法基础上,采用K-D树结构对样本空间进行重新构建,然后通过K-D树来搜索指定半径r内的时间与空间邻域。改进DBSCAN算法需要二个输入参数r和MinPts。其中r是距离参数,MinPts表示r距离内数据点的个数。

(3)检测空间邻近区域

根据本文提出的改进型DBSCAN算法,从设备提交的数据中提取数据特征值,查询其所在的数据聚簇。并根据预先设定的查询半径r,在本次采集数据设备的临近地域选择与该设备同聚簇并位于查找半径的设备采集到的数据,如果比较后匹配,则认为该数据可信。如果数据与其他数据特征存在明显差异,根据预先设定的不同数据聚簇的检查策略,判断其为异常数据或者不可信数据。

(4)检测时间邻近区域

在智慧医疗平台中提取该设备在本次提交数据的临近地域所采集到的历史数据(地域范围为影响采集数据特征值的地区确定),如果本次获取到的数据在设备取值范围内并且和历史数据相吻合,则鉴别为可信数据。如果数据与其他数据存在明显差异,则应用改进型DBSCAN算法对数据的聚类分簇,然后根据预先设定的不同数据聚簇的检查策略,判断其为异常数据或者不可信数据。

4 实例分析

4.1 血糖测量数据集

选一段时间内某一无糖尿病史的血糖采集信息作为数据集,对本文所提出的方法进行实例验证和分析。采集血糖信息如表2所示。

表2 血糖测量数据集

时间

空腹

餐后小时

餐后小时

地点

2021-6-7

5.5

7.5

6.5

郑州

2021-6-8

5.3

7.3

6.2

郑州

2021-6-9

5.3

7.4

6.2

郑州

2021-6-10

5.4

7.3

6.2

郑州

2021-6-11

5.4

7.3

6.4

郑州

2021-6-12

5.5

9.2

6.7

郑州

2021-6-13

5.5

E-1

6.2

郑州

2021-6-14

5.8

8.6

7.2

广州

2021-6-15

5.7

8.6

7.3

广州

2021-6-16

6.0

8.8

7.3

广州

2021-6-17

6.0

8.7

7.3

广州

2021-6-18

5.9

8.6

7.4

广州

2021-6-19

6.0

8.5

7.3

广州

2021-6-20

6.0

8.5

33.0

广州

4.2 筛选样本数据

首先,根据血糖测量仪设置血糖采集数据的取值范围,血糖值大于32时,超过血糖仪最大取值范围,所以2021-6-20的餐后二小时的数据为不可信数据;2021-6-13餐后一小时的数据为设备错误信息,所以这次数据也鉴别为不可信数据,不可信数据直接丢弃。2021-6-12餐后一小时的数据较高,在2021-6-14至2021-6-20时间段,采集的血糖数据突然升高,但仍然在正常值范围内,因此,鉴别为异常数据。

4.3聚簇分类结果

以异常数据建立样本数据,半径r设置为0.4,MinPts设置为1,通过改进型密度聚类算法对异常数据进行分类,分类结果如图3所示。

图3 应用数据分簇结果

图3.a显示了12次的餐后一小时和餐后二小时的血糖数据,通过图3.a可以直观发现二个簇,右边孤立点估计为异常点。在图3.b中,黄色点与红色点表示改进聚类算法分成的二个簇,黑色点表示异常点。图3.b与图3.a比较可知,聚类算法分类后的效果与分类前高度一致。

5 结束语

本文从智慧医疗大数据的可信性出发,通过改进型DBSCAN聚类算法,对可靠设备产生的大数据进行了可信性鉴别。改进型DBSCAN聚类算法首选通过时间和空间特征值筛选样本数据,然后根据所选择的特征值对样本空间中的数据构建k-d树。通过仿真实验验证了算法的可行性和有效性,大大提高了分簇的速度。最后,通过血糖仪采集数据进行了实例分析,能够对血糖数据集中的不可信数据进行鉴别。

参考文献:

[1]王庆. 天津市智慧医院建设问题研究[D].天津师范大学,2022.

[2]姜会珍, 马琏, 朱卫国. 医疗大数据的“欺骗性”及其对策[J]. 协和医学杂志, 2020(5): 542-546.

[3]Rao N, Brooks R, Wu C. Proceedings of International Symposium on Sensor Networks, Systems and Security: Advances in Computing and Networking with Applications[M]. 2018.

[4]裴培. 基于可信计算技术的医疗文件隐私保护方案[D]. 北京交通大学, 2011.

[5]任正伟. 基于简单随机抽样的大数据可信性验证方法[J]. 电子学报, 2018, (10): 2484-2490.

[6] 赵斌, 何泾沙等. 基于信息熵隶属度的决策属性权重确定方法[J]. 山东大学学报, 2016. 51(3): 86-90.

[7]陈彦竹, 郝天曙. 基于角色信任度动态监控的访问控制研究[J]. 计算机技术与发展, 2017. 27(10): 106-110.

[8]余波, 台宪清, 马治杰. 云计算环境下基于属性和信任的RBAC模型研究[J]. 计算机工程与应用, 2019. 4:1-11.

基金资助:2022年河南省科学计划项目,222102210160。

2019 年度河南省高等学校青年骨干教师培养计划,2019GGJS235。

作者:胡海峰

单位:平顶山学院

研究方向:数据挖掘、复杂网络