免组件分词(cls_analysis.php)

Source:phpbone.com  Author:IT柏拉图
2013-11-25

    cls_analysis实际是居于开源分词程序,PHPAnalysis,一个居于Unicode编码词典的php分词器。
    cls_analysis的基本使用方法很简单,我们最常用的两个操作是,一把用户搜索的关键字进行拆分,然后用and模式对关键字进行查询,另一个操作时,对给定文本内容,分析其出现频率最高的特定个数关键字,用作文档关键词,针对这两种应用,使用方式如下:
   

  1. $ca = new cls_analysis(); 
  2. //把一段短文本进行拆分 
  3. $str = "把一段短文本进行拆分"
  4. $ca->SetSource( $str'utf-8''utf-8'); 
  5. $ca->StartAnalysis(); 
  6. $okstr = $ca->GetFinallyResult(' '); //指定分隔用的字符,默认是空格 
  7.  
  8. //从一段长文本里提取出现次数最高的关键字 
  9. $str = "输入一段稍为长一点的文本"
  10. $ca->SetSource( $str'utf-8''utf-8'); 
  11. $ca->StartAnalysis(); 
  12. $keywords = $ca->GetFinallyKeywords( 10 );  //参数指定的是关键字提取的个数 


    如果分词词库与你的系统词汇相差比较远,可以自行修改 share/phpana_dict/not-build/base_dic_full.txt 里的词条,然后使用:

$ca->MakeDict( $source_file, $target_file );  //文件名都用绝对路径
(默认已编译的词典是:share/phpana_dict/base_dic_full.dic)
重新编译词典。
 

分享到: