十佳医生候选人简要事迹

更新时间:2024-03-19 作者:用户投稿原创标记本站原创 点赞:28111 浏览:131274

绪论

1.本论文的研究内容

本文是广西壮族自治区教育厅科研项目(桂科自0339037)"建立基于头发微量元素分析的可用于辅助诊断的模式分类器"项目的一部分.计算机辅助诊断是模式识别的一个重要的应用,目的是帮助医生做诊断决定,当然最终的诊断由医生来完成.计算机辅助诊断已经应用于实际,主要研究各种医疗数据,如超声波图,脑电图等.计算机辅助诊断的需求源于医疗数据较难解释,并且解释结果多依赖于医生的经验这一事实.本项目旨在利用统计模式识别的方法来建立基于头发微量元素分析的可用于辅助诊断的模式分类器,以揭示头发中的多个微量元素含量水平与某种疾病的发生之间的定量关系.即通过获取样品容量足够大的头发样品,和在目前的技术条件下与当前设备的检测限制的情况下,获取头发样品中尽可能多的元素水平,在此基础上探求稳健可靠的模式分类器,从而建立某一种(如鼻咽癌)或几种疾病的基于头发元素水平的辅助诊断指标.

本论文(Independentponentanalysis,ICA)[][2][3][4][5][6].从数学的角度来说,用ICA方法进行特征提取就是为多维数据寻找一种变换,使得数据的特征尽可能相互独立.ICA在特征提取中的应用主要是对图像进行特征提取,尝试用ICA方法对项目中的鼻咽癌病人的头发中微量元素含量水平数据进行了特征提取.

本论文的研究内容:

本文主要的工作围绕着ICA的理论,算法及对鼻咽癌病人头发微量元素含量水平数据进行特征提取中的应用而展开,具体内容如下:独立分量分析可以有效地提取非线性可分的分类问题中的高维数据的最有效的特征.1.2模式分类概述

模式识别是一门以应用为基础的学科,目的是将对象进行分类,这些对象与应用领域有关,它们可以是图像,信号波形或者任何可测量且需要分类的对象.因此它的核心问题是有关分类的问题,许多传统学科都牵涉到分类问题.模式识别本质上是根据经验数据导出问题域系统的模型,再根据所导出的系统模型对系统的未来输入做出响应预测.因此,要建立模式识别系统对问题域系统行为进行预测,首先必须获取某种程度的经验数据.根据问题域的不同,所获取的经验数据中可能含有二值数据(0-1),类属数据(枚举,字符等),实数数据(任何实数)等.经验数据一般可用矩阵表示,如:

矩阵的每一列表示一可观测量(可称为特征,在此特征个数为),每一行表示一次观测(可称为样品,在此样品个数为,在统计学中,样品亦指所获取的经验数据中的全部观测值,我们所称样品可指获取的经验数据中的单次观测值或全部观测值,文中确切含义可由上下文推定),特征可表示为,样品可表示为.

样品矩阵的每一样品分别来自个不同的类别,获取时,可能已知每一样品所属的可能类别,这时,可采用有监督(亦称有导师,有教师)方法进行学习,形成模式分类算法,根据所得模式分类算法可对同一过程未知类别样品进行类属划分,有监督方法可采用句法,统计,神经网络,进化途径进行学习,具体方法有:贝叶斯方法,费歇尔方法,多重判别分析法,隐马尔可夫模型法,Parzen窗法,近邻法,二次分类器,多峰识别分类器,神经网络中的认知机,神经网络中的自适应分类器,模拟退火,Boltzmann机,遗传算法,支持向量机等.获取样品时,若样品所属的可能类别未知,这时,只可采用无监督聚类方法进行学习,具体方法有:迭代聚类,层次聚类,自适应共振网,自组织特性映射,图论方法,主分量分析法,非线性分量分析法等.具体的模式分类算法一般与问题域密切相关,理论上并不存在对任何分类问题都具最佳分类能力的分类算法.

样品矩阵中的不同特征代表所观测对象的不同物理量或某种数量,这些不同物理量或数量之间可能互相独立,完全线性相关,或存在某种程度的相关(线性的或非线性的).若不同特征间互相独立,但一般每一特征对类别的分辨能力不同,因而需要采用适当的特征选择方法选择最合适的特征,这样既可极大减少采样的代价,又可避免维数灾难问题.不同特征间若相关,则更需要采用适当的特征选择方法乃至特征提取方法以获得最合适的特征.在建立一个模式识别系统的工作中,特征选择与特征提取是最关键和最困难的问题,特征选择与特征提取牵涉到相关特征的分类效能评价问题,因而是和分类算法紧密关联的.因此有人说,最好的特征编码器即是最好的模式分类器.

1.特征提取

在科学研究的众多应用领域中,一个普遍存在的问题是如何从采集的数据中获取信息.随着科技的高速发展,大量数据的测量及存储已经不再成问题,但是获取数据本身显然是不够的,提取产生这些数据的系统本身的信息才是根本目的所在.而且,通常我们所获得的原始数据的数据量相当大,样本处于一个高维空间,如果我们直接用原始数据进行分类器设计的话,无论从计算的复杂程度还是分类器性能来看都是不适宜的.为了有效地实现分类识别,就要把原始数据映射(或变换)到低维空间,得到最能反映分类本质的特征,这个过程叫特征提取,映射后的特征叫二次特征,它们是原始特征的某种组合(通常是线性组合).特征提取基本任务是如何从许多特征中找出那些最有效的特征.特征的提取强烈影响到分类器的设计及其性能,因此,特征提取是模式识别中的一个关键问题.

从广义上说,特征提取就是指一种变换,若是测量空间,是特征空间,则变换就叫做特征提取器.为了使问题尽可能的简单化以及考虑到计算的复杂性,我们通常对原始数据进行线性变换,因为这会对特征提取的后继分析带来极大的方便.为了便于研究,通常把采集得到的数据看成多维随机变量的一系列样本值,以便于将随机变量的数值统计方法应用到源数据.对多维信号在时刻t的采样,可看作是维随机变量的某一观测样本矢量,其中为各个分量.按照某种准则对其施加一线性变换,记为:

(1.1)

为变换的结果.检测设这里的是一线性变换,于是有中的每个分量都是原始数据所有分量的线性组合:

(1.2)

对应每个的一组系数称为一个基向量.(1.2)可简单写作矩阵形式:

(1.3)

故多维数据的线性变换简单地说就是按照一定的准则找一系列加权系数,组成线性变换矩阵中的各个基向量(的行向量),而这个基向量的联合就是一个新的坐标系.将源数据在这样一个坐标系上展开,得到的各个分量便是变换的结果.要求变换后的数据在最大程度上体现源数据间隐含的实质结构.并且的各个分量能够尽可能地代表产生源数据的系统本身的物理机制.基于多维随机变量统计分析的框架,变换矩阵的寻找方法通常是建立一个体现输出结果的统计特性的目标函数.而这种统计特性因算法中基本准则的不同而不同,可能是一,二阶的,如相关系数,协方差等,也有可能是高阶的,如互信息,非高斯性等.

1.传统的特征提取方法

传统的特征提取方法主要有:主分量分析(PrincipleComponentAnalysis,PCA)[][8],奇异值分解(SingularValueDeposition,SVD)[],投影追踪(ProjectionPursuit,PP)[][11],自组织映射(Self-OrganizingMap,SOM)[]等.以上方法都属于特征提取的经典范畴,其分析方法仅限于二阶统计特性,确切地说这些方法是建立在协方差矩阵的基础上.

1..1主分量分析

PCA方法是统计领域一种常用的线性变换方法,也称KLKarhunen-Loève)变换.从代数学观点看PCA的基本思想就是设法将原来众多具有一定相关性的指标(比如个指标),重新组合成一组新的相互无关的综合指标来代替原来指标.而从几何上看,这些线性组合正是把构成的坐标系旋转产生的新坐标系,新坐标轴使之通过样品变差最大的方向.一般情况,个变量组成维空间,个样品就是维空间的个点,对元正态分布变量来说,找主分量的问题就是找维空中椭球体的主轴问题.或者说PCA就是寻找一个最佳子空间,当多维数据在该子空间进行投影后,所得分量具有最大方差,同时,当用新分量对原始数据进行重构时,在最小均方误差意义下逼近效果最优.


PCA方法的优势在于数据压缩以及对多维数据进行降维,但PCA方法在对信号数据的处理过程中是根据观测数据的协方差矩阵进行计算的,只涉及到信号数据协方差矩阵,即二阶统计特性,并未考虑到信号数据的高阶统计特性,所以变换后的数据间仍有可能存在高阶冗余信息.

1..2奇异值分解

SVD对于分析矩阵以及涉及到矩阵的各种问题是一个有力的计算工具.对一矩阵进行奇异值分解,目的是给出该矩阵的独立程度的定量说明.其基本方法是对任一实矩阵,求正交矩阵和使,其中是矩阵的个特征值的非负平方根.通过判断非零对角元素的个数,即可得到实矩阵的秩,因在SVD中,矩阵秩的实际定义是非零奇异值的个数.

SVD是至今数值代数计算中数值稳定性和精度最好的一种矩阵分解,且易于在并行计算机实现,但只涉及到二阶统计特性,并未考虑到信号数据的高阶统计特性.

1..3投影追踪

投影追踪的基本思想就是把高维数据投影到低维子空间,使得在此投影子空间中得到的构形最能反映原高维数据的结构和特征,以克服数据维数过高而引起的所谓"维数灾难"问题.它包含有两方面的内容:一是有可能利用计算机图象系统,在终端上显示出数据在任何一至三维子空间上的投影,使用者通过观察图象找出有意义的,能揭示数据结构和特征的投影,二是按照实际问题的需要,事先确定一种衡量投影是否有意义的数值指标(叫投影指标),然后把数据投影到低维子空间上,在计算机上自动找出使该指标达到极值(极大或极小)的投影,同时在计算过程中,采用一些加强稳健性的步骤和技巧.

投影追踪对"维数灾难",数据的非正态问题,多余变量等问题能得到很好的解决,而且还能发现和暴露数据中的非线性结构的特点.但投影追踪方法计算量太大,计算时间几乎随维数增加呈指数增加,需要对初值等做一些技术性的选择和处理.

1..4自组织映射网络

SOM是由芬兰赫尔辛基大学神经网络专家Kohonen教授在1981年提出的竞争式神经网络,它模拟大脑神经系统自组织特征映射的功能,在训练中能无监督地进行自组织学习.它把权重看作是动力学变量,它不需要外加在系统之上的调整参数的"学习算法",而是建立一个统一的自治动力学系统,使得学习和适应过程可以自发地进行.通俗地讲,SOM是采用无人管理的训练学习,在这个学习过程中,它不需要教师告诉这个模型将被提取或被学习的输入模式中有什么特征,这个模型将自己有机地提取特征,这就是自组织映射网络的特点.这类无教师学习系统的学习并不在于寻找一个特殊映射函数的表示,而是将事件空间分类成输入活动区域,并有选择地对这些区域响应.

SOM是一种学习速度很快的神经网络,它的特点是网络输出层越大,学习能力越强,可以得到很高的分类正确率,但学习的结果好坏依赖于样本的选择.

由于在很多实际问题中常常不容易找到那些最重要的特征,或受条件限制不能对它们进行测量,这就使得特征选择和提取的任务复杂化而成为构造模式识别系统最困难的任务之一,这个问题已经越来越受到人们的重视.1.5独立分量分析

1..1独立分量分析简介

是近年来伴随着盲信号分离问题发展起来的一种新的信号处理技术,该方法的基本思路是以非高斯信号为研究对象,在独立性检测设的前提下,对多路观测信号进行盲源分离.在满足一定的条件下,能够从多路观测信号中,较好地分离出隐含的独立源信号.它的理论发展可追溯到二十世纪八十年代初期.法国学者J.Herault和C.Jutter等人首先提出了ICA分析的基本概念.然而当时正是神经网络研究的期,ICA理论的研究只是在小范围内进行,并未受到广泛关注.直到九十年代中期,ICA理论和算法的研究才真正得到发展并受到国际信号处理界的广泛关注.其中A.J.Bell和T.J.Sejnowski在九五年发表的文献[]可以说是ICA研究热潮的起点.作为PCA的一种延伸,ICA着眼于数据间的高阶统计特性,使得变换以后的各分量之间不仅互不相关,而且还尽可能地统计独立.因此,ICA能更加全面揭示数据间的本质结构.正是因为这一点,ICA在信号处理领域受到了广泛的关注.国外许多学者都投入到ICA的理论和应用研究中,许多大学都建立了专门研究ICA的研究组,机器学习,统计信号处理,神经网络等方面的期刊有许多有关ICA的理论与应用研究的进展情况,从1999年开始已举行了五届关于ICA的国际会议,每年都有新的理论和应用方面的论文发表.ICA已经广泛应用在特征提取[][14][15][16],图像处理[],生物医学信号处理[1],通信系统[],金融[],语音信号处理[],雷达和声纳[],地球物理信号处理[]等领域,并取得了一些成绩.这些应用充分展示了ICA的特点和价值.目前,ICA在国外发展得比较快,而国内起步不久,近几年,国内越来越多的单位和人员投入到了ICA的理论和应用研究中,取得了一定的进展,还有待更多的人投入其中.

1..2独立分量分析和主分量分析

传统的PCA方法是一种最小均方意义上的最优变换,它的目标是去除输入随机向量之间的相关性,以突出原始数据中的隐含特性.其优势在于数据压缩以及对多维数据进行降维.但PCA方法在对信号数据的处理过程中是根据观测数据的协方差矩阵进行计算的,只涉及到信号数据协方差矩阵,即二阶统计特性,并未考虑到信号数据的高阶统计特性,所以变换后的数据间仍有可能存在高阶冗余信息,实际上信号的高阶统计特性往往包含更重要的特征信息.作为PCA的一种延伸,ICA则是对上述传统方法的突破,是一种新的线性变换技术.虽然,从统计分析的角度看,ICA和PCA一样,同属多变量数据分析的线性方法.但与传统的多维信号分析方法截然不同的是,经ICA处理得到的各个分量不仅去除了相关性,还是相互统计独立的,并且是非高斯分布的信号.因此,ICA能更加全面揭示数据间的本质结构.正是因为这一点,ICA在许多方面对传统方法的重要突破使得其越来越成为信号处理中一个极具潜力的分析工具.1.6本论文的组织

本文共分为5章,其中:

绪论,首先介绍了本文研究的内容模式识别中的特征提取,并对传统的几种特征提取方法进行了简单介绍,接着引入了一种新的特征提取方法——独立分量分析,并阐述了ICA的背景知识,研究状况及它在信号处理中的优势等.

独立分量分析原理,详细介绍了ICA的原理,发展历史以及与ICA密切相关的概率,统计,信息论知识,分析了ICA独立性度量的几种方法.

基于信息论的独立分量分析算法,详细介绍了ICA基于信息论的几种算法,FastICA算法,Infomax算法,互信息最小算法,最大似然算法等.

独立分量分析在模式分类特征提取中的应用,首先用FastICA算法,Infomax算法对项目中的鼻咽癌病人头发微量元素含量水平数据进行了特征提取,选用了线性分类器,二次贝叶斯正态分类器,优化帕赞分类器,最近邻分类器,并分别用它们对ICA特征提取后的数据进行了分类,分类试验结果表明ICA可以有效地提取非线性可分的分类问题中的高维数据的最有效的特征.

总结与展望,总结了ICA的优点以及存在的现实问题,并对下一步的工作做了展望.

5

绪论