请问scws分词如何实现优先级?
我想一些特有的词汇优先排列在前面,应该怎么实现啊?
				             
				            				            
				            	  					              
					              					               
					              		
		                                		                                	更新时间:2010-10-13 16:10		                                		                            	t
					              		
By  逆雪寒   
					                
					               					              如果能让 我自定义的字典优先匹配呢?
感觉这样的才比较符合项目需求
Hm  help me~~
				             
				            				            
				            				            
				            	  					              
					              					              
					               					              我测试了好像仅仅提高tf值不可以的吧?应该跟IDF值有关系吧?
				             
				            				            
				            	  					              
					              					               
					              		
		                                		                                	更新时间:2010-10-12 15:10		                                		                            	t
					              		
By  逆雪寒   
					                
					               					              好的感谢  HM   我试试[hr]
OK了。可以了。呵呵的确是这样
				             
				            				            
				            	  					              
					              					              
					               					              ...h/to/dict.self.txt', SCWS_XDICT_TXT);
那么就是后面的 dict.self.txt 优先查询,如果 dict.self.txt 中不存在相关记录才会往回查 dict.utf8.xdb,反之也一样
				             
				            				            
				            	  					              
					              					               
					              		
		                                		                                	更新时间:2011-08-08 17:08		                                		                            	t
					              		
By  999   
					                
					               					              恩,我也出现这样的问题,我编码是GBK,加载txt自定义字典后无法取得字典中的内容。
你这种写法txt会把上面的xdb覆盖掉的。
可以使用add_dict增加xdb字典的后面并优先。
				             
				            				            
				            	  					              
					              					              
					               					              这个应该没办法,所有的调整都是基于词典,也就是词典的优先级最最高了。
可以用程序扫出类似的词来删除它们,因为互联网语料库这些自动都列到词里了。
				             
				            				            
				            	  					              
					              					              
					               					              不是无法,而是后面的词出现在词库中导致的。规则识别适用于无法成词的散字,匹配词库则会优先。
				             
				            				            
				            	  					              
					              					              
					               					              请注意仔细看说明啊。
词典越往后添加的优先级越高。所以你把TXT的放在XDB后面为佳。否则2者冲突时以后者为准。