搜索

大约有 38 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.0074秒)

11.关于scws和词库的一些建议

更新时间:2011-04-23 21:04 t By lauxinz

...可以是纯英文单词,虽然在分词时英文单词可以自动识别切分开,但在关键词提取和非法词过滤时却无法提取出或过滤掉纯英文单词。 比如:我要从一些商品名中提取一些品牌:adidas nike。。。对商品名分词后不能从使用scws_get_...

12.RE: 三个问题需要求教

更新时间:2011-01-17 16:01 t By hightman

...由于是根据词库来处理的,繁体词不在词库中就没有办法切分,不过你可以简单的打开 set_duality 功能,这样不认识的散字都会自动按2元切分法,对于搜索来说效果要好于单字。

13.RE: 如何让分词不把“1000元”分成两个词?

发布时间:2013-07-30 11:07 t By hightman

这个你还是在切分结果中再处理吧,把数字和量词重新合成

14.RE: scws与多线程

发布时间:2010-12-08 14:12 t By hightman

...于 mode 看需要吧,只是一个整型 ,如果你在不同线程中切分建议各自用一个 mode ,除非你自己能确定它们的切词设置是共用的(主要用于保存切词中那些是否忽略符号,是否复合分词等的设置)

15.RE: 二元分词问题

更新时间:2011-11-15 13:11 t By icebolt

... } return $terms; } hightman可以改成这个,那中文一元切分就也可以了 [hr] 建议:目前开放的都是php api,如果能开放c api和c的一些配置就更好了

16.RE: SCWS不支持英文和中英文混合分词吗?

发布时间:2010-08-27 10:08 t By hightman

除中文外其余的只按标点符号或空格切分,无缝连在一起的单词字母是不支持的。

17.强烈建议支持词库里的词可以是纯英文单词

更新时间:2011-04-24 01:04 t By lauxinz

...可以是纯英文单词,虽然在分词时英文单词可以自动识别切分开,但在关键词提取和非法词过滤时却无法提取出或过滤掉纯英文单词。 比如:我要从一些商品名中提取一些品牌:adidas nike。。。对商品名分词后不能从使用scws_get_...

18."从中学到大学的知识" 划分有歧义?

发布时间:2011-12-21 11:12 t By hehc

...Word: 的/uj (IDF = 0.00) Word: 知识/n (IDF = 4.57) "从中学到"的切分出现了问题,权重应该怎么调一下?

19.RE: 请问一下,xdb与txt词库那个读取效率更高

发布时间:2013-07-05 15:07 t By 阿弟2013

网址和EMAIL tsearch都可以配置token的切分方法,可以整个切,也可以分开 html标签 tsearch也有一个tag token可以配置去不去徐

20.RE: 对于分词的一些困惑

发布时间:2010-10-13 17:10 t By hightman

...被分的句子是 “北海36度”,那么“北海36”是可以成功切分的。 原因就在于最多允许夹在汉字之间的只有2个字符~~ 这个粗分规则是为了加速和减少误分,对于全文检索功能,像你的情况分成“北海”+365也应当算合理吧

1234
  • 时间不限
  • 按相关性排序