《海量智能分词》研究版

王朝简介·作者佚名 2009-06-29

宽屏版字体: 小|中|大|超大

说明因可能的版权问题本站不提供该资源的存贮、播放、下载或推送，本文仅为内容简介。

中文名: 海量智能分词

版本: 研究版

简介:

[已通过安全检测]

[已通过安装测试]

软件版权归原作者及原软件公司所有，如果你喜欢，请购买正版软件

软件名称：海量智能分词研究版

软件版本：研究版

软件大小：6.8Mb

应用平台：win2000/XP/2003

软件介绍：

海量智能计算技术研究中心为了使中文信息处理领域的研究者们能够共同分享海量智能中心的研究成果，共同提高中文信息处理水平，特此发布《海量智能分词研究版》，供专家、学者和爱好者进行研究。

《海量智能分词研究版》主要用于学术研究和产品研发，所以与正式版本在速度上有一定差别，未经许可不得用于商业用途，如果需要，请与北京海量市场部霍刚联系。

电话：010-82601290-21 手机：13501275653

《海量智能分词研究版》仅供研究分析和学术交流，不能用于商业用途。

由于《海量智能分词研究版》仅供研究分析和学术交流，所以与正式版本在性能上有一定差别，如果需要正式版本用于商业用途，请与海量智能计算技术研究中心联系。

本次发布的海量分词研究版接口介绍:

一、海量智能分词基础件:

何为分词? 中文分词与其他的分词又有什么不同呢? 分词就是将连续的字序列按照一定的规范重新组合成词序列的过程. 我们知道, 在英文的行文中, 单词之间是以空格作为自然分界符的, 而中文只是字、句和段可以通过明显的分界符来简单划界, 唯独词没有一个形式上的分界符, 虽然英文也同样存在短语的划分问题, 但是在词这一层上, 中文比之英文要复杂的多、困难的多.

解决的问题: 在所有需要计算机对中文文字信息进行进一步分析处理的领域均能应用分词技术, 如: 信息检索、信息挖掘、自动分类、自动聚类、自动校对、机器翻译、语音识别与合成、人工智能等领域.

二、分词颗粒度控制接口

我们认为各种应用对分词要求的颗粒度是不同的. 比如自动分类、关键词抽取比搜索需要的分词颗粒度要大, 因为这样表示文本语义特征时效果会更好, 而检索有一个查全率的要求, 就需要把分词单位做的更为细致, 不然就会造成漏查.

海量系统现在提供了两种颗粒的规则, 其中, 默认的为大颗粒接口, 主要用于自动分类、信息挖潜、机器翻译、语音合成、人工智能等领域, 用于提升信息分析的有效性和准确性; 另外一种应用为小颗粒度分词也叫检索优化分词接口, 用于信息检索领域, 用于提升查全率.

例如:

对"中华人民共和国"进行分词:

大颗粒度分词(默认方式)结果为: 中华人民共和国

小颗粒度分词(检索优化)结果为: 中华人民共和国

三、海量分词自定义词典接口

自定义词典就是允许用户自行定义在特殊领域中, 可以根据自己的需求定义新词, 利用该分词组件包的接口与分词系统进行挂接;

可以应用于化工、医药等特殊行业的准确分词需求.

例如:

对"氯化聚氯乙烯"进行分词:

未加载自定义词典时分词结果为: 氯化聚氯乙烯

加载自定义词典时分词结果为: 氯化聚氯乙烯

四、获取关键词接口

通过对分词结果与文章的內容进行分析计算, 从文章中选取指定个数的最相关的词, 即为该篇文章的关键词. 关键词分析技术是所有进一步智能分析技术的基础, 他可以应用在自动文摘、自动分类、自动聚类、信息挖掘等领域.

五、获取语义指纹接口

在基于內容的消重应用中, 基于字符串比对方式进行消重的应用一方面因为功能简单, 无法实现真正的內容消重, 另外一方面是文本比对的效率非常低, 无法在实际中进行应用. 因此我们提出了根据对文章內容的分析, 然后基于生成一个128bit(16字节)的数字指纹, 再对数字指纹进行比对的消重方式, 不但实现了真正意义上的內容消重, 而且大幅提升了消重的效率.

六、获取分词词性、属性接口

在词性的标注上, 我们参考了国家的相应规范以及其他研究单位的研究成果, 例如: 中科院计算所的汉语词性标记集等, 在此基础上我们制定了自己的汉语词性标记集, 该标记集包含了近30个标记符, 既包括了常用的名、动、形等词性, 也有一些特殊的属性标记(详细说明请参考"中文智能分词基础件研究版接口手册.doc"), 如: 产品词的标注. 对于多词性的处理我们采用了马尔科夫统计模型, 依据语境及语法识别其正确的词性. 另外, 我们依据其应用特别对人名兼类、公司名兼类的情况进行了处理, 例如: 宁静(与人名兼类)、联想(与公司名兼类)等. 这些对于分类、检索等应用贡献很大.

附官方网站:http://www.hylanda.com/home.htm

点击展开全文

上一篇：The Daydream -《白日梦游2》(Little Comfort)[MP3!]

下一篇：《MySQL中文增强版》(MySQL Chinese+)

免责声明：本文为网络用户发布，其观点仅代表作者个人观点，与本站无关，本站仅提供信息存储服务。文中陈述内容未经本站证实，其真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

没有找到您想要的？点此查看更多相关文章
相关文章▶

2023年上半年GDP全球前十五强
百态 2023-10-24

美众议院议长启动对拜登的弹劾调查
百态 2023-09-13

上海、济南、武汉等多地出现不明坠落物
探索 2023-09-06

印度或要将国名改为“巴拉特”
百态 2023-09-06

男子为女友送行，买票不登机被捕
百态 2023-08-20

手机地震预警功能怎么开？
干货 2023-08-06