比如我有一个栏目ID筛选条件 catid:11 搜索出来的数据,还是有不是catid=11的数据。 配置文件,有catid这个字段 [catid] type = numeric index = self
...5万篇文章,约900万个词(是分好的词不是字)。 检索效果还不错,如果纯单词进行检索效果相当好。长句略慢。。。。[/quote] 分词结果: [quote]1 . 全文检索 , 此次 全文 搭配 数据库 进行 。 测试 中 大概 有 45 万 篇文章 ...
写得非常不错。但我要说明的的: 1.命令行默认是UTF-8输出,乱码可以试试加上 -c gbk 2.过滤器用法是这样的你可以自命名一个过滤器,而不是去修改系统的过滤器,比如你在 /usr/local/xunsearch/sdk/php/lib/ 创建文件 XSTestFilter.php...
$scws = scws_new(); $scws->set_charset('utf8'); $xattr = 'Ng,n,nr,ns,nt,nz,vn'; $limit = 5; // 这里没有调用 set_dict 和 set_rule 系统会自动试调用 ini 中指定路径下的词典和规则文件 $scws->send_text("这里没有调用 set_dict 和 set_rule 系统会自动试调用...
你好,我们最近在postgresql整合了scws,效果很棒,现在我们自己增加了一些词库,不知道xdb与txt相比,那个效率更高 另外,scws对于中英文分词效果不是很好,即文中的中文分得还可以,但对于页面中的英文部分,包括email,url,hos...
那个属性对分词效果有一定影响的,TF主要用于词的切分,IDF用于统计,词性就用在取TOP时过滤或标注上。 最好是基于现有的词典去补充,你重建一个的话数据又都没有效果可能会比较差。SCWS主页上有一个TF/IDF计算器,你可...
最近项目加了个搜索建议,但是单个字有时候没有建议词返回,于是就按照访问量直接获取了前10条 根据匹配标题,标题切了,spit(|)作为搜索结果返回,这回是有了效果,但是我输入拼音没有了效果,请问这个怎么才可以啊?