刚才在网上闲逛,偶然看到了介绍织梦分词算法,大致看后,觉得与以前看过的hightman的分词差不多,多了逆向匹配部分。
本地下载:http://www.maycode.com/index.php/docman/doc_details/100-.html
织梦管理系统中也使用了这个分词方法,使用代码如下:
$keywords = "";
$sp = new SplitWord();
$titleindexs = explode(" ",trim($sp->GetIndexText($sp->SplitRMM($title))));
$allindexs = explode(" ",trim($sp->GetIndexText($sp->SplitRMM(Html2Text($body)),200)));
if(is_array($allindexs) && is_array($titleindexs)){
foreach($titleindexs as $k){
if(strlen($keywords)>=50) break;
else $keywords .= $k." ";
}
foreach($allindexs as $k){
if(strlen($keywords)>=50) break;
else if(!in_array($k,$titleindexs)) $keywords .= $k." ";
}
}
$sp->Clear();
unset($sp);
$keywords = preg_replace("/#p#|#e#/","",$keywords);
$keywords = addslashes($keywords);
抽空研究一下,改进一下中文全文搜索,以及在Joomla!中添加文章的自动标签(TAG)功能。