家园首页 Php4手册 我的相册 家园下载 个人文集 给我留言
我形我塑,网络相册,www.5x54.com 相册 相册 心情相册,少女相册 免费申请,我形我塑免费相册
 家园 个人文集   http://www.5x54.com
 


PHPCWS 1.0.0(一款开源的PHP中文分词扩展)


作者:张宴    点击: 读取中...

  [文章/程序 作者:张宴 本文版本:v1.2 最后修改:2009.04.27 转载请注明:http://blog.s135.com/phpcws_v100/] 版权保护版权保护,请不要随意复制^%#$32667)98sa。^_^,请不要随意复制^%#$32667)98sa。^_^
版权保护版权保护,请不要随意复制^%#$32667)98sa。^_^,请不要随意复制^%#$32667)98sa。^_^
  名称:PHPCWS(PHP中文分词扩展) 版权保护版权保护,请不要随意复制^%#$32667)98sa。^_^,请不要随意复制^%#$32667)98sa。^_^
  协议:New BSD License  版权保护版权保护,请不要随意复制^%#$32667)98sa。^_^,请不要随意复制^%#$32667)98sa。^_^
  作者:张宴 版权保护版权保护,请不要随意复制^%#$32667)98sa。^_^,请不要随意复制^%#$32667)98sa。^_^
  网址:http://code.google.com/p/phpcws/ 版权保护版权保护,请不要随意复制^%#$32667)98sa。^_^,请不要随意复制^%#$32667)98sa。^_^
  SVN:http://code.google.com/p/phpcws/source/browse/#svn/trunk/phpcws 版权保护版权保护,请不要随意复制^%#$32667)98sa。^_^,请不要随意复制^%#$32667)98sa。^_^
版权保护版权保护,请不要随意复制^%#$32667)98sa。^_^,请不要随意复制^%#$32667)98sa。^_^
PHPCWS 1.0.0 (最新版本)  版权保护版权保护,请不要随意复制^%#$32667)98sa。^_^,请不要随意复制^%#$32667)98sa。^_^
安装使用手册:http://blog.s135.com/phpcws_v100/  版权保护版权保护,请不要随意复制^%#$32667)98sa。^_^,请不要随意复制^%#$32667)98sa。^_^
下载地址(PHP扩展):http://phpcws.googlecode.com/files/phpcws-1.0.0.tar.gz  版权保护版权保护,请不要随意复制^%#$32667)98sa。^_^,请不要随意复制^%#$32667)98sa。^_^
下载地址(词库):http://phpcws.googlecode.com/files/phpcws-dict-1.0.0.tar.gz  版权保护版权保护,请不要随意复制^%#$32667)98sa。^_^,请不要随意复制^%#$32667)98sa。^_^
中文分词在线演示:http://blog.s135.com/demo/phpcws/  版权保护版权保护,请不要随意复制^%#$32667)98sa。^_^,请不要随意复制^%#$32667)98sa。^_^
PHP实例程序下载:http://blog.s135.com/demo/phpcws/phpcws-php-demo.zip  版权保护版权保护,请不要随意复制^%#$32667)98sa。^_^,请不要随意复制^%#$32667)98sa。^_^
PHPCWS 中文简介 版权保护版权保护,请不要随意复制^%#$32667)98sa。^_^,请不要随意复制^%#$32667)98sa。^_^
1、什么是 PHPCWS ? 版权保护版权保护,请不要随意复制^%#$32667)98sa。^_^,请不要随意复制^%#$32667)98sa。^_^
PHPCWS 是一款开源的PHP中文分词扩展版权保护,请不要随意复制^%#$32667)98sa。^_^,目前仅支持Linux/Unix系统。  版权保护版权保护,请不要随意复制^%#$32667)98sa。^_^,请不要随意复制^%#$32667)98sa。^_^
PHPCWS 先使用“ICTCLAS 3.0 共享版中文分词算法”的API进行初次分词处理版权保护,请不要随意复制^%#$32667)98sa。^_^,再使用自行编写的“逆向最大匹配算法”对分词和进行词语合并处理版权保护,请不要随意复制^%#$32667)98sa。^_^,并增加标点符号过滤功能版权保护,请不要随意复制^%#$32667)98sa。^_^,得出分词结果。  版权保护版权保护,请不要随意复制^%#$32667)98sa。^_^,请不要随意复制^%#$32667)98sa。^_^
ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)是中国科学院计算技术研究所在多年研究工作积累的基础上版权保护,请不要随意复制^%#$32667)98sa。^_^,基于多层隐马模型研制出的汉语词法分析系统版权保护,请不要随意复制^%#$32667)98sa。^_^,主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。ICTCLAS经过五年精心打造版权保护,请不要随意复制^%#$32667)98sa。^_^,内核升级6次版权保护,请不要随意复制^%#$32667)98sa。^_^,目前已经升级到了ICTCLAS3.0版权保护,请不要随意复制^%#$32667)98sa。^_^,分词精度98.45%版权保护,请不要随意复制^%#$32667)98sa。^_^,各种词典数据压缩后不到3M。ICTCLAS在国内973专家组组织的评测中活动获得了第一名版权保护,请不要随意复制^%#$32667)98sa。^_^,在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名版权保护,请不要随意复制^%#$32667)98sa。^_^,是当前世界上最好的汉语词法分析器。  版权保护版权保护,请不要随意复制^%#$32667)98sa。^_^,请不要随意复制^%#$32667)98sa。^_^
ICTCLAS 3.0 商业版是收费的版权保护,请不要随意复制^%#$32667)98sa。^_^,而免费提供的 ICTCLAS 3.0 共享版不开源版权保护,请不要随意复制^%#$32667)98sa。^_^,词库是根据人民日报一个月的语料得出的版权保护,请不要随意复制^%#$32667)98sa。^_^,很多词语不存在。所以本人对ICTCLAS分词后的结果版权保护,请不要随意复制^%#$32667)98sa。^_^,再采用逆向最大匹配算法版权保护,请不要随意复制^%#$32667)98sa。^_^,根据自己补充的一个9万条词语的自定义词库(与ICTCLAS词库中的词语不重复)版权保护,请不要随意复制^%#$32667)98sa。^_^,对ICTCLAS分词结果进行合并处理版权保护,请不要随意复制^%#$32667)98sa。^_^,输出最终分词结果。  版权保护版权保护,请不要随意复制^%#$32667)98sa。^_^,请不要随意复制^%#$32667)98sa。^_^
由于 ICTCLAS 3.0 共享版只支持GBK编码版权保护,请不要随意复制^%#$32667)98sa。^_^,因此版权保护,请不要随意复制^%#$32667)98sa。^_^,如果是UTF-8编码的字符串版权保护,请不要随意复制^%#$32667)98sa。^_^,可以先用PHP的iconv函数转换成GBK编码版权保护,请不要随意复制^%#$32667)98sa。^_^,再用phpcws_split函数进行分词处理版权保护,请不要随意复制^%#$32667)98sa。^_^,最后转换回UTF-8编码。  版权保护版权保护,请不要随意复制^%#$32667)98sa。^_^,请不要随意复制^%#$32667)98sa。^_^
2、PHPCWS 中文分词在线演示 版权保护版权保护,请不要随意复制^%#$32667)98sa。^_^,请不要随意复制^%#$32667)98sa。^_^
演示网址:http://blog.s135.com/demo/phpcws/  版权保护版权保护,请不要随意复制^%#$32667)98sa。^_^,请不要随意复制^%#$32667)98sa。^_^
3、PHPCWS 分词速度及用途 版权保护版权保护,请不要随意复制^%#$32667)98sa。^_^,请不要随意复制^%#$32667)98sa。^_^
初次使用时版权保护,请不要随意复制^%#$32667)98sa。^_^,Apache 或 php-cgi(FastCGI) 进程版权保护,请不要随意复制^%#$32667)98sa。^_^,需要加载一次词库到内存中版权保护,请不要随意复制^%#$32667)98sa。^_^,需要0.0X秒。58字节的一句话——“2009年2月13日版权保护,请不要随意复制^%#$32667)98sa。^_^,我编写了一款PHP中文分词扩展:PHPCWS 1.0.0。”版权保护,请不要随意复制^%#$32667)98sa。^_^,分词速度只需为0.0003秒。  版权保护版权保护,请不要随意复制^%#$32667)98sa。^_^,请不要随意复制^%#$32667)98sa。^_^
PHPCWS 属于《亿级数据的高并发通用搜索引擎架构设计》的一部分版权保护,请不要随意复制^%#$32667)98sa。^_^,用作“搜索查询接口”的关键字分词处理。在此架构中版权保护,请不要随意复制^%#$32667)98sa。^_^,Sphinx索引引擎对于CJK(中日韩)语言支持一元切分版权保护,请不要随意复制^%#$32667)98sa。^_^,假设【反恐行动是国产主视角射击网络游戏】这段文字版权保护,请不要随意复制^%#$32667)98sa。^_^,Sphinx会将其切成【反 恐 行 动 是 国 产 主 视 角 射 击 网 络 游 戏】版权保护,请不要随意复制^%#$32667)98sa。^_^,然后对每个字建立反向索引。如果用这句话中包含的字组成一个不存在的词语版权保护,请不要随意复制^%#$32667)98sa。^_^,例如【恐动】版权保护,请不要随意复制^%#$32667)98sa。^_^,也会被搜索到版权保护,请不要随意复制^%#$32667)98sa。^_^,所以搜索时版权保护,请不要随意复制^%#$32667)98sa。^_^,需要加引号版权保护,请不要随意复制^%#$32667)98sa。^_^,例如搜索【"反恐行动"】版权保护,请不要随意复制^%#$32667)98sa。^_^,就能完全匹配连在一起的四个字版权保护,请不要随意复制^%#$32667)98sa。^_^,不连续的【"恐动"】就不会被搜索到。但是版权保护,请不要随意复制^%#$32667)98sa。^_^,这样还有一个问题版权保护,请不要随意复制^%#$32667)98sa。^_^,搜索【"反恐行动游戏"】或【"国产网络游戏"】就会搜索不到。所以版权保护,请不要随意复制^%#$32667)98sa。^_^,我在搜索层写了个PHP中文分词扩展版权保护,请不要随意复制^%#$32667)98sa。^_^,搜索“反恐行动游戏”、“国产网络游戏”版权保护,请不要随意复制^%#$32667)98sa。^_^,会被PHPCWS中文分词函数分别切分为“反恐行动 游戏”、“国产 网络游戏”版权保护,请不要随意复制^%#$32667)98sa。^_^,这时候版权保护,请不要随意复制^%#$32667)98sa。^_^,用PHP函数给以空格分隔的词语加上引号版权保护,请不要随意复制^%#$32667)98sa。^_^,去搜索【"反恐行动" "游戏"】或【"国产" "网络游戏"】版权保护,请不要随意复制^%#$32667)98sa。^_^,就能搜索到这条记录了。由于PHPCWS位于搜索层版权保护,请不要随意复制^%#$32667)98sa。^_^,中文分词词库发生增、删、改版权保护,请不要随意复制^%#$32667)98sa。^_^,只需平滑重启一次Web服务器或php-cgi进程即可版权保护,请不要随意复制^%#$32667)98sa。^_^,无需重建搜索索引。  版权保护版权保护,请不要随意复制^%#$32667)98sa。^_^,请不要随意复制^%#$32667)98sa。^_^
根据上述情况版权保护,请不要随意复制^%#$32667)98sa。^_^,对于那些采用二元交叉切分的搜索引擎版权保护,请不要随意复制^%#$32667)98sa。^_^,PHPCWS用在前端搜索层对用户输入的搜索关键字、短语进行分词处理版权保护,请不要随意复制^%#$32667)98sa。^_^,同样适合。PHPCWS开发的目的正在于此版权保护,请不要随意复制^%#$32667)98sa。^_^,对于短句、小文本中文分词切分版权保护,请不要随意复制^%#$32667)98sa。^_^,速度非常之快。  版权保护版权保护,请不要随意复制^%#$32667)98sa。^_^,请不要随意复制^%#$32667)98sa。^_^
4、自定义词库 版权保护版权保护,请不要随意复制^%#$32667)98sa。^_^,请不要随意复制^%#$32667)98sa。^_^
自定义词库名称为userdict.tch版权保护,请不要随意复制^%#$32667)98sa。^_^,格式为 Tokyo Cabinet DBM 的 Abstract key-value 内存哈希数据库(key为GBK编码的词语名词版权保护,请不要随意复制^%#$32667)98sa。^_^,value为词频。目前词频均填1版权保护,请不要随意复制^%#$32667)98sa。^_^,暂时用不上)。 

收藏此文章     打印  更新     编辑此文章    『关闭窗口』