沈阳工学院 辽宁沈阳 113122
摘 要:针对定型试飞阶段或新机初始部署阶段保障性评估过程中,有时会出现某些保障性参数收集不全、或难于短时间内收集的情况,本文应用粗糙集理论来对保障性进行分类评估。介绍了粗糙集理论的相关知识,建立了分类评估模型。为上述阶段的保障性评估提供了一种较实用的方法。
关键词:粗糙集;保障性;分类评估
中图分类号:
Classification Evaluation Method of Supportability under Complete Information
Based on Rough Set
SU Chang,, SONG Ya-bing,, ZHANG Bai-shu
(zhiyu.huang Shenyang institute of technology)
Abstract:To the evaluation of supportability in the course of flight test, sometimes we can not collect indexes completely or collect them in a short time. Therefore, this paper put forward a new method by using rough set to solve the problem. The base knowledge is introduced and a model of classification evaluation is set up.
Key words:rough set; supportability; classification evaluation
在定型试飞阶段或新机初始部署阶段的保障性评估过程中,有时会出现某些保障性参数收集不全、或难于短时间内收集的情况,给保障性的综合评估带来了困难。那么这种情况下,一般方法都不能够解决问题。基于此,本文应用粗糙集理论来对保障性进行分类评估。它允许作为输入的保障性参数值不全,仍能得到一定可能性下的分类结果,从而满足特定情况下保障性综合评估的需要。
1. 粗糙集理论的相关知识
粗糙集(Rough Set)[1]理论是波兰数学家Z.Pawlak于1982年提出的,是一种新的处理含糊性和不确定性问题的数学工具。相对于概率统计、模糊集等处理含糊性和不确定性的数学工具而言,粗糙集理论有这些理论不具备的优越性。统计学需要概率分布,模糊集理论需要隶属函数,而粗糙集理论的主要优势就在于它不需要关于数据的任何预备的或额外的信息。因此粗糙集理论可以克服传统不确定处理方法的不足,为处理不精确、不完全数据的决策问题提供了更接近人类认知的数学工具[2-4]。下面介绍一下相关基本概念。
1.1 近似空间与不可区分关系
粗糙集理论是建立在分类机制的基础上的,它将分类理解为在特定空间上的等价关系,而等价关系构成了对该空间的划分。
定义:设为所讨论对象的非空有限集合,称为论域;为建立在上的一个等价关系,称二元有序组为近似空间(Approximate Space)。
近似空间构成论域的一个划分;若是上的一个等价关系,以表示的等价类,表示的所有等价类构成的集合,即商集;的所有等价类构成的一个划分,划分块与等价类相对应。等价关系组成的集合为等价关系族。
定义:令为等价关系族,设,且,则中所有等价关系的交集称为上的不可区分关系,记作IND(),且有:
(1)
不可区分关系是Pawlak粗糙集理论中最基本的概念。若IND(),则称对象与是不可区分的,即,存在于不可区分关系IND()的同一个等价类中。我们称U/IND()中的各等价类称为基本集。
1.2 知识与知识库的定义
粗糙集理论将分类方法看成知识,分类方法的族集看成知识库。等价关系对应论域的一个划分,即关于论域中对象的一个分类,所以通过一个等价关系可以形成与之对应的论域知识(即等价类的集合—商集)。
定义:称论域的子集为上的概念,约定也是一个概念,概念的族集称为上的知识;上知识的族集构成关于的知识库。
近似空间对应的一个划分,因此近似空间形成关于论域的知识。
定义:设为论域,为等价关系族,,且,则不可区分关系IND()的所有等价类的集合,即商集U/IND()称为的的基本知识,相应等价类称为知识的基本概念。特别地,若等价关系,则称为的初等知识,相应等价类称为初等概念。
给定知识库K=(,),知识库的知识粒度由不可区分关系IND()的等价类反应。可以证明,对所有,有IND()IND(),也就是说任给一个基本概念(等价类),都可以找到一个基本概念,包含给定的基本概念。
1.3 粗糙集的定义
定义:设集合,是一个等价关系,称=为集合
的下近似集;称为集合的上近似集。称集合=-为的边界域;称=为的正域;称=-为的负域。
1.4 粗糙集的数字特征
定义:由等价关系定义的集合的近似精度为:
(2)
其中,表示集合的基数,显然有01。
粗糙隶属函数定义为:
(3)
显然,的值可以理解为隶属于集合的不确定程度。
1.5 信息系统与决策表
信息系统是一种知识表达方式,有时也称为知识表示系统。
形式上,四元组是一个信息系统,其中:
:对象的非空有限集合,即论域;
:属性的非空有限集合;
=,是属性的值域;
:是一个信息函数,它为每个对象的每个属性赋予一个信息值,即,,。
信息系统可以用数据表格来表示,表格的行对应论域中的对象,列对应对象的属性。一个对象的全部信息由表中一行属性的值来反映。
设,定义由属性子集导出的二元关系如下:
IND(L)=,可以证明IND(L)是等价关系,称其为由属性集导出的不可区分关系。
若IND(L),则称和是不可区分的,即依据中所含各属性无法区分和。
若定义由属性导出的等价关系为:
则导出的不可区分关系亦可定义为:IND(L)=。
给定一个信息系统,的每个属性对应一个等价关系,而属性子集对应不可区分关系。信息系统与一个知识库相对应,因此一个数据表格可以看成一个知识库。
决策表是信息系统的一个特例,它是信息系统中最为常用的一个决策系统。多数决策问题都可以用决策表形式来表达。
设是一个信息系统(知识表达系统),,=,称为条件属性集合,称为决策属性集。具有条件属性和决策属性的信息系统称为决策表。
决策表分成两类:
①决策表是一致的当且仅当依赖于,即;
②决策表是不一致的当且仅当。
1.6 完备决策表下最小决策规则约简集获取算法
决策规则可视为反映决策属性与条件属性之间关系的数据模式。粗糙集处理输入数据集的数据如果发现输入数据集存在不一致,那么将计算对应决策的决策类的上近似与下近似。由于粗糙集理论采用上下近似这种特殊的方法来处理数据的不一致性,决策规则也相应地分为确定性决策规则与可能性(非确定性或不确定性)决策规则两种。文献[5]介绍了一种粗糙集中求取所有最小属性约简快速算法。
1.7 规则价值的衡量
客观地评价一条规则,主要依据可信度、覆盖度、支持度等指标来衡量。
对于决策表,是属性集合,子集和分别为条件属性集和决策属性集,决策规则的可信度、覆盖度、支持度分别定义如下:
可信度(精度): (4)
支持度: (5)
规则适用的对象数,由于是不变的,因此也可用support(r)表示支持量。
覆盖度(适用度): (6)
其中,。表示实例条件属性值满足规则前件,表示实例决策属性值满足规则后件,即集合是条件属性值满足公式的实例集合,集合是决策属性值满足公式的实例集合,为集合的基。
1.8 决策分析
分类新对象的时候,可采用如下的策略[6,7]:(1)在规则集中寻找可应用于待分类对象的规则,即前件和待分类对象相匹配的规则;(2)如果和待分类对象相匹配的规则只有一个或者多个但都属于同一个决策类,则待分类对象属于与其匹配的规则所在的决策类;(3)如果没有和待分类对象相匹配的规则,可将训练集上出现最频繁的决策类作为待分类对象的分类,或者根据待分类对象和规则的匹配程度以及规则的权重来决定待分类对象的分类;(4)如果和待分类对象相匹配的规则不止一个且不属于同一个决策类,则可以将选举过程运用于这些规则,以便解决冲突和将这些被预测的分类进行排序。选举过程指的是根据规则分类的专门技术[8,9]。过程如下:
令RUL表示决策规则集,投票过程是利用RUL为对象的每一个可能决策类赋予一个表示可信度的数量值。对象被分类到该值最大的类中。
设需要分类的对象为x,扫描规则集RUL,找出规则前件匹配x的所有规则,即激活规则集RUL(x)。每一规则为其后件所指的决策类指定一个数量作为r的得票数votes(r)。votes(r)取规则r的支持量support(r)。令norm(x)表示所有激活规则得票数的总和。将结论为决策类的所有规则的累计得票数除以标准化因素norm(x),得到每一决策类的可信度certainty(x,β),即
(7)
其中:,
2 基于粗糙集理论的完备信息下保障性分类评估模型
根据上面一节介绍的粗糙集的相关知识,粗糙集利用提取出的规则对新对象进行分类时,不要求新对象的全部条件属性,只要存在的条件属性有与之相对应的规则即可进行一定可信度下的分类。这一点非常适合一些改进改型飞机定型试飞阶段和初期部署阶段的保障性评估。在这两个阶段,有一些保障性参数有时可能短时间内很难获得,利用已有的一般方法就不能进行保障性综合评估
[9]。可以在积累的历史数据前提下,利用粗糙集方法进行综合评估。
2.1 完备信息系统下保障性分类评估的基本步骤
第一步,建立保障性评估决策问题的完备决策数据表模型;
第二步,属性值识别、连续属性离散化;
第三步,应用最小决策规则约简集获取算法,提取规则,生成决策规则集;
第四步,输入需要决策的新信息,并对其进行属性值识别、连续属性离散化;
第五步,决策分析,判断保障性分类结果。
2.2 具体建模
(1)采用粗糙集构建保障性评估模型时,保障性方案的集合就构成了论域。需要考虑的保障性评估类别就是决策属性,选取的各种保障指标就是条件属性。
需要考虑的保障性评估类别,这里分为4类(即四个等级:保障性好、保障性较好、保障性一般和保障性差)。我们要分的4个类别就是决策属性值,用字母A,B,C,D表示。或者说是决策集中的元素。
(2)确定保障性参数指标集合,也就是决策表的条件属性集X。还是选取10个指标。即,使用可用度(x1)、归一化的平均故障件修理时间MFJ(x2)、归一化的平均故障间隔飞行小时RFJ(x3)、保障装备综合指标(x4)、人力人员的综合指标(x5)、技术资料配套率(x6)、备件保障率(x7)、训练与训练保障综合指标(x8)、保障设施水平(x9),包装、装卸、储存和运输的完备程度(x10)。xi(i=1~10)就构成了条件属性集X。
运用粗糙集理论处理决策表时,要求决策表中各值用离散值表达。如果某些条件属性或决策属性的值域为连续值(如浮点型),则在处理前必须经过离散化。可以采用等距离划分法,就是将连续属性的值域等分成4个区间,用等级来表示这4个区间。这样,每个条件属性的取值都可用1,2,3,4表示,表示每个指标的由高到低的4个等级。则根据领域专家知识得到的离散化后的保障性分类评估决策表如下:
表1 离散化后的保障性分类评估决策表
指标 序号 | x1 | x2 | x 3 | x 4 | x 5 | x 6 | x 7 | x 8 | x 9 | x 10 | 决策属性 (类别) |
1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | A |
2 | 1 | 2 | 1 | 1 | 2 | 1 | 1 | 2 | 2 | 2 | B |
3 | 2 | 3 | 3 | 2 | 3 | 2 | 3 | 3 | 3 | 3 | C |
4 | 3 | 4 | 3 | 3 | 4 | 3 | 4 | 4 | 4 | 4 | D |
5 | 2 | 1 | 2 | 2 | 1 | 1 | 1 | 2 | 2 | 1 | B |
6 | 2 | 3 | 3 | 2 | 3 | 3 | 3 | 3 | 3 | 1 | C |
7 | 1 | 2 | 2 | 1 | 1 | 1 | 2 | 2 | 2 | 1 | B |
8 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | A |
9 | 4 | 3 | 3 | 3 | 4 | 3 | 4 | 4 | 2 | 3 | D |
指标 序号 | x1 | x2 | x 3 | x 4 | x 5 | x 6 | x 7 | x 8 | x 9 | x 10 | 决策属性 (类别) |
10 | 4 | 4 | 3 | 3 | 4 | 4 | 4 | 4 | 4 | 3 | D |
11 | 1 | 2 | 1 | 1 | 2 | 2 | 1 | 2 | 2 | 1 | B |
12 | 4 | 3 | 4 | 3 | 4 | 3 | 4 | 4 | 4 | 3 | D |
13 | 4 | 3 | 3 | 3 | 4 | 4 | 4 | 4 | 4 | 3 | D |
14 | 1 | 1 | 1 | 2 | 1 | 2 | 1 | 1 | 1 | 1 | A |
15 | 2 | 2 | 3 | 3 | 3 | 2 | 3 | 3 | 3 | 3 | C |
16 | 3 | 3 | 4 | 4 | 4 | 2 | 4 | 3 | 3 | 2 | D |
17 | 2 | 3 | 1 | 2 | 2 | 2 | 1 | 2 | 2 | 2 | B |
18 | 3 | 3 | 3 | 4 | 4 | 3 | 4 | 4 | 4 | 3 | D |
19 | 4 | 2 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 2 | D |
20 | 3 | 3 | 4 | 3 | 3 | 3 | 3 | 3 | 3 | 2 | C |
(3)应用最小规则约简集生成算法,生成所有的规则
可以根据上述信息产生1-4阶规则[10,11],限于篇幅这里只列出一阶规则。
一阶确定性规则(规则后数字为支持量support(r))
(c8,1)→(d, A)3(c9,1)→(d, A)3(c5,2)→(d, B)3(c8,2)→(d, B)5
(c5,3)→(d, C)4(c7,3)→(d, C)4(c2,4)→(d, D)2(c5,4)→(d, D)8
(c7,4)→(d, D)8(c8,4)→(d, D)7(c9,4)→(d, D)6(c3,2)→(d, B)2
(c7,2)→(d, B)1(c1,4)→(d, D)5(c6,4)→(d, D)3(c4,4)→(d, D)3
(c10,4)→(d, D)1
(4)对于新的待分类的新型作战飞机保障性方案的保障性数据,利用得到的规则对其进行分类判别。待分类的保障性方案数据见表2。
表2 待分类的离散化后的保障性方案数据
指标 序号 | x1 | x2 | x 3 | x 4 | x 5 | x 6 | x 7 | x 8 | x 9 | x 10 | 决策属性 (类别) |
1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | A |
2 | 3 | 2 | 3 | * | * | * | * | * | * | * | D |
对于待分类的第1个保障性方案,在规则集中共搜索到11条相匹配的确定性规则(规则后数字为支持量support(r))。其中,一阶规则2条,二阶规则4条,三阶规则3条,四阶规则2条。通过其中任何1条规则即可确定其分类结果为A类。
(x8,1)→(d, A) 3 (x9,1)→(d, A) 3
(x1,1)∧(x2,1)→(d, A) 3 (x2,1)∧(x3,1)→(d, A)3
(x2,1)∧(x4,1)→(d, A) 2 (x3,1)∧(x5,1)→(d, A)3
(x1,1)∧(x5,1)∧(x7,1)→(d, A)3
(x3,1)∧(x6,1)∧(x10,1)→(d, A)2
(x4,1)∧(x5,1)∧(x7,1)→(d, A)2
(x1,1)∧(x6,1)∧(x7,1)∧(x10,1)→(d, A)2
(x4,1)∧(x6,1)∧(x7,1)∧(x10,1)→(d, A)2
其实从第1个方案来看,由于它的各个条件属性值都是最好的,我们从直觉上就可以分出它的类别,属于A类。粗糙集的分类结果和我们直觉上的分类结果相一致,从而可以一定程度上验证应用粗糙集进行保障性分类评估的有效性。
对于待分类的第2个保障性方案,由于种种原因,只收集到3个条件属性值(3个指标值),在规则集中共搜索到2条相匹配的确定性规则。
(x1,3)∧(x3,3)→(d, D)2
(x2,2)∧(x3,3)→(d, C)1
由于这两个规则所分类别不一致,计算它们后件所指决策类的可信度,
certainty(x, D)=0.6667 certainty(x, C)=0.3333
因此,第2个保障性方案的分类结果是D类。
各个待评估保障性方案的分类结果列于表2最后一列。
从上面的例子可以看出,应用粗糙集理论进行保障性分类评估,不仅可以满足一般情况下的评估需要,在保障指标不全的情况下,也能进行一定程度上的评估,这一点,是其它方法不能做到的。不过可以看出,当属性过少时,分类结果可能和直观感觉有一定差距,结论的正确性也很难验证。因此,应用时应尽可能多地增加训练集对象数目,也就是尽可能多的利用历史数据,以便能有确定性规则与新对象匹配,增加分类评估结果的可信性。
参考文献
[1] Pawlak, Z. (1982) Rough Sets. International Journal of Computer and Information Science, 11, 341-356
[2]庞继芳,宋鹏,梁吉业.面向决策分析的多粒度计算模型与方法综述[J].模式识别与人工智能,2021,34(12):1120-1130.DOI:10.16451/j.cnki.issn1003-6059.202112005.
[3]孟科.基于粗糙集的智能决策方法及应用[D].西安:空军工程大学,2006
[4]王珏,苗夺谦,周育健.关于Rough Set理论与应用的综述[J].模式识别与人工智能,1996,9(04):337-344.
[5]刘银山,吴孟达,王丹.粗糙集中求取所有最小属性约简快速算法[J].计算机工程与科学,2007(01):97-100.
[6]安利平,吴育华,仝凌云.一种基于粗糙集理论的规则获取算法[J].管理科学学报,2001,4(5):74~78
[7]J.Stefanowski. Classification Support Based on the Rough sets[J]. Foundations of Computing and Decision Sciences, 1993,18(3-4),pp.371~380
[8]J.Stefanowski. Using Valued Closeness Relation in Classification Support of New Objects[A]. In T.Y.Lin,A.Wildberger(eds.),Soft Computing: Rough sets,Fuzzy Logic, Neural Networks, Uncertainty Management, Knowledge Discovery[C].San Diego CA:Simulation Councils Inc, 1995.pp.324~327,
[9]张晋.飞机保障性综合评估方法研究[D].西安:空军工程大学,2007
[10]J.Bazan, A. Skowron, P. Synak. Discovery of Decision Rules from Experimental Data[R]. Technical report, Warzaw University of Technology, 1994
[11]S.K.M. Wong, W.Ziarko, R.L. Ye. On Learning and Evaluation of Decision Rules in Context of Rough Sets[A]. In Proceedings of the First ACM SIGART International Symposium on Methodologies for Intelligent Systems[C],Knoxville, TN, 1986.pp.308~324
【作者简介】黄志宇,男,汉族,1974.6—,辽宁新民人,博士学位,讲师,研究方向:计算机算法,人工智能