基于特征字符的印刷体公式识别系统-turnitin查重

摘要：采用一些方法对公式字符进行定位、分割以及识别,构建一个公式识别系统,公式是由不同的字符组合而形成的二维形式.另外,系统中对公式结构进行分析,可以识别较复杂结构的公式.

关键词：公式；识别；模版匹配；结构分析

中图分类号：TN949.199　文献标识码：B

FormulaRecognitionSystemBasedontheCharacteristicsofCharactersPrinted

FANGXin,FENGBao-lian,LIUZhi-jian

(HeFeiUniversityofTechnology,HefeiAnhui230011,China)

Abstract:Amethodtolocatetheformulacharactersegmentationandrecognition,tobuildaformularecognitionsystem.Theformulaiormedbydifferentbinationsofcharactersintheformoftwo-dimensional.Inaddition,thesystemoftheformulastructureanalysis,canidentifymoreplexstructureoftheformula.

Keywords:formula,identification,templatematching,structuralanalysis

引　言

很多印刷体文档除了包含文字信息以外,还常嵌有各类公式,因此印刷体文档的公式识别是印刷体文档识别的一个重要组成部分.1968年,Anderson在其博士学位论文[1]中提出了公式处理问题.90年代,公式识别的研究热度增加,有大量论文[2]发表,并且,个别较完整的实验系统已出现.相对于国外公式识别研究,国内起步较晚,大部分成果[3,4]都是2000年以后出现的.

与印刷体文字识别类似,印刷体公式识别也分为公式定位、公式分割、公式字符特征提取和公式识别等步骤,但公式识别还有公式结构分析这一步骤.

1　公式的定位和提取

公式在文字区域中主要有公式构成独立行和公式内嵌在文字中两种方式.设计中采用基于投影的公式定位方法,即将文本区域图像像素在横向和纵向进行投影,然后根据横向投影对独立行公式和普通字符文本区域进行区分,再根据纵向投影对每一行文字中的内嵌公式进行定位.

1.1　文本区域基本数据获取

需要获取的待分析文档区域图像的基本数据：

（1）Hr：多行样本高度的平均值.Hr等于,Hr(i)为第i个样本行的高度,N为样本的行数.

（2）Hr-r：多行样本中行与行之间距离的平均值.Hr-r等于,Hr-r(i)为样本中第i个样本行和第i+1个样本行之间的距离,N为样本的行数.

（3）Hch：多行样本字符高度的平均值.Hch等于,Hch(i)为样本中第i行字符的高度,M为样本中字符个数.

（4）Wch：多行样本中字符宽度的平均值.Wch等于,Wch(i)为样本中第i行字符的宽度,M为样本中文字个数.

1.2　对含文本行中的公式提取

在文本区域公式行提取时,需要对文本行进行提取.可通过将文档区域向y轴投影,来获取一行文本在y轴上的坐标.当文本中不含公式时,能够准确得到一行文本在y轴上的投影坐标,但当文本内含有公式时,无论内嵌公式还是单独公式,都会出现公式投影变成多行的问题.因此行提取后应进行一些必要的行合并,以保持公式的完整性.

设计中提出一种处理多种公式结构的算法,设Hi为文本内第i行的高度,i、j为相邻的两行,D(Hi,Hj)为两行之间的距离.

规则1：当HiD(Hi,Hi+1)）,合并Hi、Hi+1为Hi.反之,合并Hi、Hi-1为Hi.规则2：若D(Hi,Hi+1)

1.3　文本行中公式判别

纯文本行,内嵌公式行和独立公式行的字符宽度2阶中心矩相差很大,可以采用这个特点进行公式判别.

一行文本的字符宽度2阶中心矩B可按式B等于计算.其中,1/Wmax2为引入的修正系数,Wmax2等于max(Wi),i∈(0,N]为这一行文本最大字符宽度.Wi为一行中第i个字符的宽度,等于为这一行的平均字符宽度,N为总行数.

只有中文字符的文本行,B的取值范围在0.002～0.003.设Hi和Wi为一行文本中字符的长度和宽度（0

1.4　独立行公式定位

利用B值判断出文本中含有公式后,依据两个判定条件可判断一行文本中是否含有独立公式行.（1）如果│WLstart+(WLstop-WLstart)/2-Pmid│<2Wch,且(WLstart-Xmin(Ls))>3Wch,判定为居中独立行公式；（2）如果(WLstop-WLstart)>WLax,则判定为独立公式行.其中,变量WLax为含有公式的文本行的起始位置,WLstop为含有公式文本行的结束位置.

1.5　内嵌公式的定位和提取

利用设定的阈值来判别待识别的字符是否为公式字符,最后将相邻的公式字符进行合并,得到完整公式.内嵌公式的定位过程：（1）计算文本行的列投影特征,选取区分度较好的字符列投影宽度特征θzk以及其峰值特征θfz作为阈值；（2）计算待识别字符的高度H与宽度W；（3）计算待识别字符的宽高比R等于H/W；（4）当Rminθfz)‖(W>θzk),则判定为汉字；反之为公式符号,其中Rmin、Rmax是根据大量汉字统计出的汉字宽度最小和最大经验值；（5）将步骤（4）的公式字符再进行文字识别,识别器拒识的字符最终定位为公式字符.

基于特征字符的印刷体公式识别系统

相关论文范文