搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

更新时间：2011-04-23 21:04 t By lauxinz

...可以是纯英文单词，虽然在分词时英文单词可以自动识别切分开，但在关键词提取和非法词过滤时却无法提取出或过滤掉纯英文单词。比如：我要从一些商品名中提取一些品牌：adidas nike。。。对商品名分词后不能从使用scws_get_...

更新时间：2011-01-17 16:01 t By hightman

...由于是根据词库来处理的，繁体词不在词库中就没有办法切分，不过你可以简单的打开 set_duality 功能，这样不认识的散字都会自动按2元切分法，对于搜索来说效果要好于单字。

发布时间：2013-07-30 11:07 t By hightman

这个你还是在切分结果中再处理吧，把数字和量词重新合成

发布时间：2010-12-08 14:12 t By hightman

...于 mode 看需要吧，只是一个整型，如果你在不同线程中切分建议各自用一个 mode ，除非你自己能确定它们的切词设置是共用的（主要用于保存切词中那些是否忽略符号，是否复合分词等的设置）

更新时间：2011-11-15 13:11 t By icebolt

... } return $terms; } hightman可以改成这个，那中文一元切分就也可以了 [hr] 建议：目前开放的都是php api，如果能开放c api和c的一些配置就更好了

发布时间：2010-08-27 10:08 t By hightman

除中文外其余的只按标点符号或空格切分，无缝连在一起的单词字母是不支持的。

更新时间：2011-04-24 01:04 t By lauxinz

...可以是纯英文单词，虽然在分词时英文单词可以自动识别切分开，但在关键词提取和非法词过滤时却无法提取出或过滤掉纯英文单词。比如：我要从一些商品名中提取一些品牌：adidas nike。。。对商品名分词后不能从使用scws_get_...

发布时间：2011-12-21 11:12 t By hehc

...Word: 的/uj (IDF = 0.00) Word: 知识/n (IDF = 4.57) "从中学到"的切分出现了问题，权重应该怎么调一下？

发布时间：2013-07-05 15:07 t By 阿弟2013

网址和EMAIL tsearch都可以配置token的切分方法，可以整个切，也可以分开 html标签 tsearch也有一个tag token可以配置去不去徐

发布时间：2010-10-13 17:10 t By hightman

...被分的句子是 “北海36度”，那么“北海36”是可以成功切分的。原因就在于最多允许夹在汉字之间的只有2个字符～～这个粗分规则是为了加速和减少误分，对于全文检索功能，像你的情况分成“北海”+365也应当算合理吧