基于形式概念的治痹用药规律挖掘

更新时间:2024-03-26 作者:用户投稿原创标记本站原创 点赞:23741 浏览:107512

摘 要 : 本文将形式概念分析理论应用于新安医籍中的治痹用药规律挖掘,借助概念格构建工具LatticeMiner软件对新安医籍治痹资料表进行形式背景和概念格的构建.通过构建方剂-证型、方剂-症状以及方剂-药材概念格直观地展示出痹病证型、症状、药材和对应的方剂的层次结构,便于挖掘痹病证型、症状的分布情况以及组方用药情况,并通过嵌入式形式背景构建对证型、症状和药材之间的关系更加结构化地展示,最后通过基于FCA的关联规则挖掘方法对证型、症状和药材三者的关联规则进行挖掘,为中医方面的数据挖掘研究提供了一种新的思路.

Abstract: This paper applies the theory of Formal Concept Analysis(FCA) to mine the medication rule of rheumati in Xin’an medical documents, with the tools of concept lattice constructing software LatticeMiner to build the formal contexts and concept lattices. The prescription-type, prescription-symptoms and prescription-medicine concept lattice intuitively show the hierarchical structure of syndromes, symptoms, medicinal herbs and the corresponding formulas of Rheumati disease and are helpful to dig the distribution of syndrome, symptoms and Medication Rule. In addition through the construction of the nested formal context, the relationship among the syndromes, symptoms and medicine bees more structured. Finally using association rules mining method based on the FCA to mine the association rules about syndromes, symptoms and medicine. This research provides a new train of thought in research field of the data mining of traditional Chinese medicine.

关 键 词 : 形式概念分析;概念格;新安医学;痹病;关联规则

Key words: Formal Concept Analysis;concept lattice;Xin'an medicine;treatment of rhemumati;association rules

中图分类号:TP391 文献标识码:A 文章编号:1006-4311(2014)11-0227-04

0 引言

形式概念分析理论是由德国教授Wille在1982年提出的[1],它通过形式背景构造概念格,从而进行数据的分析和规则的提取.在形式概念分析理论中最核心的数据结构是概念格,它反映了对象和属性之间的联系,表明概念之间的泛化和例化关系,通过Hasse图的建立实现了对数据结构的可视化.随着研究的深入,形式概念分析越来越多地被应用到数据挖掘、信息检索和知识发现等领域.

由于形式概念分析通过对概念格的构造使得数据能够有机地组织起来,概念格的节点体现了概念内涵和外延的统一,所以形式概念分析非常适合用来发现规则型知识.通过将概念格的外延和内涵分别于事务数据库中的事物和特征相对应,可以从概念格上产生频繁项集,进而挖掘关联规则.国内外基于概念格的关联规则挖掘方法的研究也很多[3-10].研究表明形式概念分析可以被用作蕴含规则和关联规则发现的形式框架,并且能够提高规则挖掘的响应效率.

新安医学作为一个具有地方特色的中医群体,在痹病诊疗上进行了长期的研究并积累了丰富的经验,并著有大量的医籍.本文在安徽中医学院新安医家治痹资料挖掘计划的基础上,将形式概念分析应用到新安医籍治痹用药规律挖掘,借助概念格构造工具Lattice Miner对治痹数据进行形式背景和概念格的构造,通过构建方剂-证型、方剂-症状以及方剂-药材概念格直观地展示出痹病证型、症状、药材和对应的方剂的层次结构,便于挖掘痹病证型、症状的分布情况以及组方用药情况,并通过嵌入式形式背景和子概念格的构建对证型、症状和药材之间的关系做更加结构化地展示.最后通过基于FCA的关联规则挖掘方法对证型-症状、症状-药材以及药材-药材之间的关联规则进行挖掘,为中医方面的数据挖掘研究提供了一种新的思路.

1.形式概念分析的基本概念

Wille提出的形式概念分析理论借鉴了哲学上把概念理解为由内涵和外延两部分组成的思想,它把概念的外延被理解为属于这个概念的所有对象的集合,内涵则是所有这些对象所共同具有的特征或属性集,所有概念连同他们之间的泛化/例化关系构成了一个概念格.下面给出形式概念分析中的基本概念.

定义1 形式背景K是一个三元组K等于(G,M,I),其中G是所有对象的集合,M为所有属性的集合,I?哿G×M为G和M元素之间的关系集合.对于g∈G,m∈M,(g,m)∈I表示“对象g具有属性m”.一个简单的形式背景如表1所示,表中行代表对象,列代表属性,当第i个对象具有第j个属性的时候用“×”表示.设K等于(G,M,I)为形式背景,对于集合A∈G,记A*等于{m∈M│(g,m)∈I,?坌g∈A},表示A中全体对象所共有的属性集合.相应的,对于集合B∈M,记B*等于{g∈G|(g,m)∈I,?坌m∈B},表示所有B中属性的全体对象的集合. 定义2 设K等于(G,M,I)为形式背景,A∈G,B∈M,称(A,B)为K的一个概念.如果满足A*等于B且B*等于A,则A称为概念(A,B)的外延,B称为概念(A,B)的内涵.

定义3 设K等于(G,M,I)为一个形式背景,(A1,B1),(A2,B2)是K中的两个概念,规定:(A1,B1)?燮(A2,B2)?圳A1?哿A2(?圳(B1?勐B2),此时C2等于(A2,B2)称为(A1,B1)的超概念,(A1,B1)称为(A2,B2)的子概念.这种超概念-子概念的偏序关系所诱导出的格称为概念格,概念格中的每个结点都是一个形式概念.表1所对应的概念格的Hasse图如图1所示.

定义4 对概念C1等于(A,B),称C2等于(|A|,B)为C1的量化概念,其中|A|是外延A的基数.引入内涵B的支持度Support(B)等于|A|/N,其中,N是整个形式背景中的对象总数.如果Support(B)大于支持度阈值,则称C是频繁概念,其中B的基本内涵是基本频繁项目集.对于概念格中的两个概念C1等于(A1,B1)和C2等于(A2,B2),C2∈sup(C1)(其中

sup(C1)是C1的超概念集),则可以得到关联规则B2?圯B1-B2,其可信度等于|A1|/|A2|.其中|A1|,|A2|分别是概念C1,C2的外延基数.

2.形式概念分析在新安医学治痹用药规律挖掘中的应用

新安医学是新安地区产生的一个医学群体,历史悠久,在祖国医学的发展中起到了重要作用.痹病是人体正气不足或者脏腑功能失调,风寒湿热燥等外邪乘虚侵袭,造成经脉气血不荣,出现肢体关节肌肉疼痛、重着、麻木、肿胀、屈伸不利,甚至关节,或累及脏腑为特殊的一类疾病[10].新安医籍是历代新安医家智慧的结晶,对于新安医学的临床诊断和发展具有重要意义.本文根据安徽中医学院“新安医家治痹资料挖掘计划”,借助形式概念分析理论对新安医籍治痹用药规律进行了挖掘.

2.1 数据源及应用软件 本文的数据源为安徽中医学院收集和整理的新安医籍治痹资料表,主要内容包括方剂名、书籍、作者、卷次、规范证型粗、规范证型细、症状、规范症状、药材等.其中规范证型是安徽中医学院根据《中医内科学》整理的,其将痹症证型分为风寒湿痹、风热湿痹、痰瘀痹阻、肝肾两虚证等.同时在症状上也做了规范症状,分为肢体疼痛、肿胀、周身痛、恶寒发热、灼痛等.

实验借助概念格构造软件Lattice Miner 1.4进行概念格的构造和基于概念格的关联规则挖掘.该软件由加拿大魁北克大学渥太华分校多媒体研究实验室开发的,其在复杂问题处理、关联规则提取和支持语义网络方面都有较强的优势[11].

2.2 形式背景构建与概念格的形式化表示 本文中将方剂名作为对象,将证型、症状、药材分别作为属性构建形式背景,即构建方剂-证型、方剂-症状、方剂-药材三个形式背景.为了更清楚的说明,在此只选了7个方剂构建了3个形式背景,如表2-表4所示.由于LatticeMiner不支持中文,所以在构建形式背景的时候用序号1,2,3代表资料表中对于序号方剂的名字,用拼音大写字母缩写代替证型,用拼音小写字母缩写症状名字,用拼音表示药材.

通过LatticeMiner软件构建方剂-证型概念格和方剂-症状概念格,如图2和图3所示.从方剂-证型概念格中,由于FHSB(风寒湿痹)下有三个子概念,其分别具有的属性均为FHSB(风寒湿痹)和TB(痛痹)、XB(行痹)、ZB(着痹)的组合,所以可以很容易的推断出FHSB(风寒湿痹)下包含的三个子证型即TB(痛痹)、XB(行痹)、ZB(着痹),而TYBZ(痰瘀痹阻)、FRSB(风热湿痹)没有子证型.

为了获得证型、症状和药材之间的关系,这里利用LatticeMiner构造嵌入式背景的功能,将三个形式背景组合成一个嵌入形式背景.由于中医诊断首先根据症状判断证型,然后再根据证型和症状组方配药,所以这里第一层为证型形式背景,第二层是症状形式背景,第三层为药材形式背景,即构成子形式背景关系.根据文献[3]所述,通过嵌入式形式背景构成出的概念格与直接通过合并形式背景中的属性构造出的概念格在结构上是一致的,但是嵌入式形式背景构造出的概念格能更清晰地展示数据的层次结构,从而有利于进行数据分析.该嵌入式形式背景的概念格Hasse图如图4所示,其中每个节点里面都包含一个子格结构.以FSRB(风湿热痹)节点为例,可以看到风湿热痹中可能出现症状有zz(肿胀)、ehfr(恶寒发热)、zttt(肢体疼痛)、zt(胀痛),在zz(肿胀)节点中又包含对应“肿胀”症状的方剂中的药材节点,这里只含有一个节点,即表示对应“肿胀”症状的方剂中含有的药材fangji(防己)、gancao(甘草),huangbai(黄柏)huanglian(黄连).

2.3 基于FCA的关联规则挖掘 为了得到更准确的数据结果,本文借助LatticeMiner软件的关联规则功能,对上述嵌入式形式背景进行了关联规则提取,其中支持度设为20%,置信度设为50%,实验结果如表5所示.

通过对构建的方剂-证型、方剂-症状、方剂-药材构建的嵌入式形式背景进行关联规则挖掘,可以便于进一步分析新安医家治痹用药组合规律.如从包含风湿热痹证型的关联规则有5条(包含FSRB的关联规则已被用黑色字体标出),根据关联规则可以推断出风湿热痹证且伴有肿胀(zz)症状的情况下,常采用防己、黄柏和黄连进行组方,与上述概念格得出结论一致.

从上述实验中可以看出,概念格的构建对于证型与症状的分布关系、核心处方挖掘、药物加减情况等方面的挖掘提供了良好的分析基础,形式概念分析理论对于中医医籍数据挖掘具有一定的意义.

3.结束语

本文应用形式概念分析理论对新安医学治痹用药规律进行挖掘,通过对方剂-证型、方剂-症状、方剂-药材概念格的构建将数据的层次结构展示出来,从而能够更好地挖掘证型、症状与用药组方上的规律.借助嵌入式形式背景和子概念格构建使得具有多种属性的数据以一种更清晰更层次地方式展示,降低了概念格的复杂程度,更有利于对证型、症状和药材之间关系的挖掘.本文最后对实验数据进行基于形式概念分析的关联规则挖掘,从而可以进一步定量分析新安医家治痹用药组合规律.总的来说,形式概念分析理论的引入有助于探寻新安历代医家治痹用药规律,为中医方面的数据挖掘研究提供了一种新的思路,为中医临床诊断用药规律的探究也提供了一种新的模式. 参考文献:


[1]R.Wille. Restructuring lattice theory: an approach based on hierarchies of concepts[J]. Formal Concept Analysis, 2009, 5548: 314-339.

[2]L Lakhal, G Stumme. Efficient Mining of Association Rules Based on Formal Concept Analysis[J]. Formal Concept Analysis,2005,3626:180-195.

[3]G Stumme,R Taouil,Y Bastide, et al. Computing iceberg concept lattices with TITANIC[J]. Data&Knowledge Engineering,2002,42:189-222.

[4]Y Bastide, N Pasquier, R Taouil, G Stumme. Mining minimal non-redundant association rules using frequent closed itemsets[J]. Computational Logic,2000,1861:972-986.

[5]Hereth J, Stumme G, Wille R, et a.l Conceptual Knowledge Discovery and Data Analysis[J]. Conceptual Structures: Logical, Linguistic, and Computational Issues,2000,1867:421-437.

[6]G Stumme, R Taouil, Y Bastide, et al. Intelligent Structuring and Reducing of Association Rules with Formal Concept Analysis[J].Advances in Artificial Intelligence,2001,2174:335-350.

[7]王德兴,胡学钢,刘晓平,王浩.基于概念格和Apriori的关联规则挖掘算法分析[J].合肥工业大学学报(自然科学版),2006,29(6):699-702.

[8]王菁,陈震.一种基于概念格的关联规则挖掘算法[J].计算机工程与应用,2007,43(28):157-161.

[9]王月行,马桓,胡志宇.基于概念格的关联规则挖掘方法[J].计算机工程与设计,2009,30(22):5062-5064.

[10]薛安荣,王富强,李明.基于Iceberg概念格的最大频繁项集挖掘[J].计算机工程,2011,37(7):35-37.

[11]刘磊,刘健.孙一奎治痹特色探析[J].中医药临床杂志, 2011,23(6):481-482.

[12]滕广青,毕强.概念格构建工具ConExp与LatticeMiner的比较研究[J].数字图书馆,2010,10:17-22.