Joomla!-开源天空

2008-09-08
首页 专栏热点 其他PHP开源系统 关于分词的一些算法的名词解释


关于分词的一些算法的名词解释

E-mail

N-Gram:N-Gram模型被称为一阶马尔科夫链
CRF:一个基于条件随机场(简称CRF)的汉语分词模型,CRF模型作为一个判别模型,可以容纳任意的非独立的特征信息

MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm

词素解析与N-gram的区别。词素解析是以词典中有意义的单词为单位分解。N-gram则不考虑意义只根据规定的长度切分文字序列。(点击放大)
按词素解析法进行文字分割后,可根据有意义的单词进行检索。对于只有部分文字一致但没有意义的文字序列就排除在外,减少了检索干扰。但会出现词典中没有的单词时就不能进行正确分割的现象,所以有发生检索遗漏的可能性。相反,如果采用N-gram的话,不会出现检索遗漏的情况,但增加了检索干扰。

发表您的文章评论

您的姓名 (昵称)
标题:
评分: 很差一般较好很好
评论:
验证码:
请输入验证码