王朝网络
分享
 
 
 

基于职业特征的多模板汉字识别算法

王朝other·作者佚名  2006-05-17
宽屏版  字体: |||超大  

基于职业特征的多模板汉字识别算法

张洪刚 郭军

(北京邮电大学信息工程系181# 100876)

【摘要】本文是在HCL2000汉字数据库的基础之上进行的研究,根据对HCL2000汉字库的职业的统计分析,我们得出了一些新的结论。各种职业与识别率的相关性是很大的,这说明不同的职业样本都有自己的特征,我们选取三种职业作为研究对象,按不同的职业分类训练,然后把训练特征用作模板特征,应用于多模板识别算法。识别结果证明,这种基于职业特征的多模板汉字识别算法的识别率比单模板识别算法平均高出1.13%。

【关键词】 HCL2000 汉字识别 职业特征 多模板匹配

1.引言

HCL2000(Handwritten Character Library

2000)汉字库是北京邮电大学在国家863支持下研制的一个脱机手写汉字数据库。HCL2000汉字库有两个特点,一是包含样本数量大,目前包含1300个人的汉字样本,并计划在2000年以前,使样本总数达到2000个;二是它不仅包含汉字样本库,而且还包含一个书写者信息库,它存放了每个汉字样本书写者的职业、年龄、性别、住址等相关的信息。书写者信息库的建立使我们可以研究各类人员的文字书写特征与影响识别率的相关因素[1]。

本文利用HCL2000对书写者的职业与其文字的识别率的关系进行的研究,我们发现样本的识别率与职业的相关性很大,这说明不同的职业有不同的特征,我们选取库中人数较多的三种职业工人、学生和军人,各选取100个样本,按职业进行分类训练,将训练的特征用作特征模板,然后用多模板识别算法进行识别。结果表明:这种基于职业特征的识别算法的识别率比原算法平均提高1.13%。

全文的安排如下:第二部分是三种职业的识别结果分析,第三部分是基于职业特征的多模板识别算法介绍,最后一部分是全文的总结。

2.三种职业的识别结果分析

我们根据书写者信息库所提供的有关书写者的信息,对库中的职业与识别率的相关性作了研究,识别用的特征是用中科院的100个样本和从HCL2000库中选出的200个样本训练而成的。我们得到的识别率与职业的分布图:

图1 识别率与各职业的分布图

从上图可以看出:职业与识别率的相关性是很大的。识别率最高的是科技人员与教师,识别率最低的职业是医生,科技人员与医生的样本识别率之差达5.58%。

我们选取HCL2000汉字库中三种所占比例最大的职业工人、学生和军人的样本作为研究的对象。从这三种职业中分别抽取100个人的样本集作为每种职业的训练样本。分别抽取这三种职业的特征,制成三个标准的特征模板。然后从三种职业中各随机选取10个样本集作为识别样本,这30个识别样本集并不包含原来的训练样本。30个样本集中前10个为工人的样本,中间10个为学生的样本,后10个为军人的样本。然后分别用这三个特征模板,采用文献[2]的算法进行识别,识别结果如下图:

图2 30个样本的识别结果

为了便于结果比较,我们按识别样本的职业分成工人、学生和军人三组。见图5,每组最左边的是用工人特征识别的结果,中间的为学生特征识别的结果,最右边的是军人特征识别的结果。

图3 三类样本识别结果

从上图中可以看出,前10个样本中,用工人特征识别的结果明显高于其它的两种特征的识别结果,工人的平均识别率为96.49%,学生的平均识别率为95.22%,军人的为95.04%。中间的10个样本中,三种特征的平均识别率分别为:工人为85.46%,学生为87.66%,军人为84.70%,学生的识别结果远高于其它两个。对于后10个样本的识别结果,工人89.83%,学生90.28%,军人92.20%.各种职业的特征在识别本职业的样本时,有明显的优势。这说明三种职业的书写者都有自己的职业特点。

3.基于职业特征的多模板识别算法

在识别系统中作为字典的标准参考模板一般是由多个n维向量组成,每一个汉字,在字典中至少有一个模板与之相对应。如果每一个字只有一个标准模板,就是单模板匹配法;有时,对每一个汉字,给出一批互有差别的模板,这批模板代表了该汉字不同的变形,称为多模板匹配法[3],这时就要用到统计决策的方法和理论,把这批模板代替上述仅有的一个标准模板来分类识别。

多模板匹配算法的原理框图:

图4 多模板匹配算法框图

在多模板匹配法的特征字典中,对每一个汉字,有n个互有差别的模板相对应,这批模板代表了该汉字不同的变形。这使模板在匹配时有一定的弹性范围,弥补了固定匹配的不足,对分类判决是很有利的。同时,由于每一个汉字有多个模板,特征字典一般很大,存储压力较大,对内存有较大的需求;多模板的分类判决在算法上同样要比单模板要复杂一些。

分类判别

将抽取的细分类特征向量,与粗分类后保留下来的每一个字种的三个标准细分类特征向量模板作比较,算出最小距离,再将各字种的最小距离相比较,哪个字种距离最小,便将哪个字种作为识别结果输出。

计算距离的公式如下:

实验的结果表明带方差调整的街区距离比欧氏距离的效果要好,这表明手写汉字有自己的特点。

我们根据统计结果应用多模板算法,将工人、学生和军人的方向特征做成三个特征模板,仍对原来30个识别样本进行识别,识别结果和原来三种职业单模板时的识别结果进行比较,结果比较如下表:

通过识别结果的比较,这种按职业分类的多模板比三个单模板的平均识别率高1.13%,我们可以看出这种基于职业特征的多模板算法是比较有效的。

4.结论:

本文仅对职业与识别率的关系进行了讨论,对于其它方面,如:年龄、性别或地域是不是也有这种特性,即某一类的人有本类明显的特征,还有待我们进一步的研究。另外,从上面的结果可以看出,各类的特征越明显,多模板识别算法就越有效。这样的分类越多,识别结果就越高,但同时带来的负面效果就是识别速度有所下降。因此,模板的数量要同时考虑速度和识别率而定。

【参考文献】

1. 郭军,蔺志青,张洪刚 “一个新的脱机手写汉字数据库模型及其应用”,《电子学报》已录用

2. J. Guo, N. Sun etc, Algorithm for recognition of handwritten characters using pattern transformation with cosine function. IEICE Trans, J76-D-II,No.4,p.835-842(April 1993)

3. 张洪刚,郭军 “一种基于笔划粗细度的脱机手写汉字识别算法的研究” 《中国学术期刊文摘》 Vol 4, 12,1998

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
>>返回首页<<
推荐阅读
 
 
频道精选
 
静静地坐在废墟上,四周的荒凉一望无际,忽然觉得,凄凉也很美
© 2005- 王朝网络 版权所有