摘 要:为了解决书写较为工整的英文联机手写文字识别,定义了英文字母的有限组成字元,形成一套七组不同的基础字元系统.使用方格边比测量法,与简单的数学计算,可以确定字元的种类与性质.使用字元搭建,对大小写英文字母与阿拉伯数字实施具体定义,由于每个字符的具体定义组成,完全各不相同,所以可以在逻辑上判断,这种方法能够容易快捷地识别独立的较为工整的英文手写字母.这种定义方法,可以推广到连写的手写字母与各种字体.这种建模方法,如果移植到类似的中国少数民族文字与其它类似外国文字的手写识别,应该很乐观.
关 键 词:英文文字;手写识别;连笔输入;联机识别;联机手写
中图分类号:TP391文献标识码:A文章编号:1009-3044(2012)20-4959-03
EnglishHandwritingCharacterRecognitionModelingMethod
HUANGYi-shi1,LIANGYan2
(1.LabCenter,SchoolofPublicHealth,NantongUniversity,Nantong226019,China,2.NantongLangChaoGeneralSoftwareLimitedCompany,Nantong226006,China)
Abstract:DefineslimitedpositionalunitstotheEnglishletters.Usegridsideratiomeasurementmethodtodeterminetheirproperties.Makespecificdefinitionstoallsortsofletters.ThenitiseasytorecognizeindependentEnglishhandwrittenlettersquickly.Thisdefinitionmethodcanbeextendedtotheconnectedhandwrittenlettersandvariouonts.Thiodelingmethodwillbeveryoptimistic,iftransplantedintothesimilarChina’inoritylanguagesandsomeotherforeignlanguageorrecognitionofhandwriting.
Keywords:Englishcharacter,handwritingrecognition,cursiveinput,onlinerecognition,onlinehandwriting
在中国市场,中文手写输入产品都很成熟,但在英文手写输入方面功能不强甚至很弱[1-3].在英语国家,发展迅速,但有关技术方法的报道甚少.
该文提出一种建模方法,简捷的解决英文手写识别.其中用到,方格边比测量法.即,用方框将目标围住,四边缩小至无法缩小且包含的网格数为整数,以包含方格数与边比特征等一系列特征作为参数计算,可以快速简便的判断字的字元、笔画的起始端位置、曲度、角的角度、圆角的弧度、竖横斜线的倾斜程度.使用这个方法判断以下有限的基本定义,十分简便快速,绕过了复杂的图形计算.使用现有的成熟的二值图像学计算方法可以很容易实现.
1基本定义
竖与横.手写的竖与横,都有一定的摇摆幅度.但是竖与横,使用方格边比测量法,很容易区分.
角与圆角.接近与V与U,在手写特征下的区别是有拐点与无拐点.
圈与近圈.也就是,封闭的圆与接近封闭的圆.手写圆具有拓扑隔离性质,与其它基本定义明显不同.近圈的笔画两端距离较近,且没有拐点,这一点有别于角与圆角.使用方格边比测量法易识别.
短划与点.与竖与横的区别是方向性不强,在方格中,通过边比特征可以区分.
交叉与连续.交叉,是指基本定义的笔画相交叉,分T型交叉,和X型交叉,也可简化为一种交叉.连续,是指,基本定义的笔画从起点到终点(或笔画的两端)是连续的且无分叉,可平滑,也可转折.
相对位置与方向.基本定义的字元之间的关系,有上、下、左、右、上左、上右、下左、下右.
斜线.几何特征介于竖与横,但可赋予相对方向的特征为,左斜、右斜、下斜、上斜、(左上斜、左下斜、右上斜、右下斜).用方格边比测量法,易与竖横区分.
用这些基本定义就可对每个不同的手写字母,加以分割定义.这一方法,也可以移植到汉字手写识别,经确定适合汉字的基本定义,可快速判断汉字的基本笔画或基本要素.
2建模方法
用基本定义对a到z和A到Z实施具体定义.显然,只要每个对象的定义各不相同,那就可简单区分.
2.1容易混淆的字母
这里先解决书写较为规整的字母,无论字母,右斜、左斜还是居中.
aua圈或近圈+右下圆角或短划,笔画连续.u圆角+右下圆角或短划,笔画连续.ov手写中,o会出现近圈,v会出现圆角,易区分.
z2z的右上是角,角开口向左下,2的右上是圆角,笔画都连续.
CL在手写情况下,C是开口向右的圆角,L是开口向右或右上的角.
JTJ的特征是横+竖+左下圆角,圆角开口向上.
KR手写的K是竖+右上斜+右下斜,右上斜在竖的右侧,右下斜在竖的右侧、右上斜的下或右下.在手写中竖与右上斜,可以笔画连续成为角,属于字母的变体.R是竖+开口向左的圆角+右下斜.在手写中笔画可以连续,这个问题,可以归类于下文的变体与字体库技术处理.
S8规整手写S的两个圆角一般是不会闭合为圈.8的上部为圈或近圈或圆角,但下部必然是闭合圈.