首款少数民族文字文档识别系统研制成功

王朝科普·作者佚名 2007-03-24

本报北京1月29日电全球首款在统一平台上支持我国主要少数民族文字文档的识别系统今天通过技术鉴定。

历时八年之久，由清华大学丁晓青教授主持研制的这一系统在汉字和英文文档识别的基础上将我国最主要的四种类型六种文字的少数民族文字，即蒙古文、藏文、维吾尔文、哈萨克文、朝鲜文和柯尔克孜文（混排

汉英）文档识别综合集成在一个统一的平台系统中，使我国最主要的少数民族文字（混排汉英）文档能够自动识别输入计算机。有关专家介绍说，这一系统的模块化结构，与国际接轨的内码表示，统一的人机交互界面、鲁棒的版面分析图像处理，使系统很容易扩展到所有各种少数民族文字和文档的识别自动输入计算机问题，可基本解决我国少数民族文字文档识别问题。同时该系统还可支持阿拉伯文识别。

清华大学、内蒙古大学、内蒙古师范大学、新疆大学、西北民族大学的40多位科研人员参与了这一系统的研制。项目组成员在多体蒙古文（混排汉英）印刷文档识别系统的基础上，综合集成了在2003年完成的多字体印刷藏文（混排汉英）文档识别系统和2004年完成的维哈柯（汉英）阿（英）双向印刷文档识别系统，以及2002年完成的朝鲜文/韩文（混排汉英）文档识别系统，最终完成了具有谐和统一、方便各文种交换和应用的“统一平台少数民族文字识别系统”。

记者丰捷来源：光明日报