搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

1.RE: 分词切分

发布时间：2010-07-27 10:07 t By hightman

没有，不过你可以自己从分词结果里根据词频过滤

2.RE: 如何让分词不把“1000元”分成两个词？

发布时间：2013-07-30 11:07 t By hightman

这个你还是在切分结果中再处理吧，把数字和量词重新合成

...XSTokenizerUnary implements XSTokenizer { private $length = 1; // 默认切分长度 public function __construct($arg = null){ if ($arg !== null && $arg !== '') $this->length = $arg; } public function getTokens($value, XSDocument $doc=null){ $charset = is_object($doc) ? $doc->ge...

4.搜索分词只希望第一层怎么办？

发布时间：2014-05-11 00:05 t By dashzhao

...库里面添加“迪卡侬” 所以我不希望“迪卡侬”再被切分，而希望是这样： [code]Xapian::Query(((迪卡侬:(pos=1) OR 蓝色:(pos=2) OR 货品:(pos=3)))[/code] 请问怎么解决呀？

5.想在用索引搜索时,输入的关键字不被分词该怎么做？

发布时间：2014-11-20 15:11 t By pbin

想在搜索的时候,关键词按照自己的意愿来切分应该是要怎么做？文档里看到有个自定义词库的设置,然后根据文档使用了下,发现没达到效果。比如说,我想搜索拥有"味道恶心"这个词的文章,（我的文档库里面是有相关文章的...

6.C版简易中文分词-cscwsd-0.0.3 发布

发布时间：2007-06-06 10:06 t By hightman

...输入文字即可,每敲入一个回车,服务器立刻返回当前句的切分结果. 几条控制命令,在切分前设定(可不设) /set autodis=[on|off|yes|no] /set ignore_mark=[on|off|yes|no] /set delim=_ 统计词语出现频率?? /set stat=on (开始统计) /set attr=名词,...

7.强烈建议支持词库里的词可以是纯英文单词

更新时间：2011-04-24 01:04 t By lauxinz

...可以是纯英文单词，虽然在分词时英文单词可以自动识别切分开，但在关键词提取和非法词过滤时却无法提取出或过滤掉纯英文单词。比如：我要从一些商品名中提取一些品牌：adidas nike。。。对商品名分词后不能从使用scws_get_...

8.修正utf-8版make_xdb_file.php的错误

发布时间：2011-06-09 09:06 t By itlong

...理的，不能对中文(中英混合)字符进行mb_substr($word, 0, $len)切分,[u]mb_substr($word, 0, $len)切分中文会是乱码的。[/u] 所以要人为添加字符串处理涵数，针对utf-8。 [php] function msubstr($str, $start=0, $length, $charset="utf-8", $suffix = false){ $s...

9.我对切词尝试做了下功能修改

更新时间：2013-12-27 20:12 t By linqingtao

...了下代码，然后测试了一下可以达到效果了 1）、英文切分的长度采用了宏 2）、切分后可以返回所有字典中存在的词但是不知道会不会有别的问题。。。没法上传附件，贴一下代码吧 // hightman.070902: multi segment // s...

10.Libscws C API 使用说明

更新时间：2010-12-30 22:12 t By hightman

.../color] [b]描述：[/b]设定分词执行时是否执行针对长词复合切分。（例如：中国人->中国+人+中国人）。参数 mode 表示复合分词法的级别，取值由下面几个常量异或组合: SCWS_MULTI_SHORT | SCWS_MULTI_DUALITY | SCWS_MULTI_ZMAIN | SCWS_MULTI_ZALL ...

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

搜索