分词与索引,是中文搜殇矬岭柳索里最重要的两个技术,而且两者间是密不可分的。
很多研究搜索技术的人,都致力于如果提升分词结果鹚兢尖睁的准确性,但在实际应用中,分词准确度稍差些或更好些,对搜索结果影响其实反而不大,对于精确搜索而言,通常采用的还是最大切分法。
这里举一个例子:
教育部日前颁布实施《中小学实验室规程》,要求各地将实验室建设、维护费用纳入学校教育公用经费开支范围,并保持逐年增长。
这句话理想的分词结果如下:
“教育部日前颁布实施《中小学实验室规程》,要求各地将实验室建设、维护费用纳入学校教育公用经费开支范围。”
但如果按这样形式去进行索引,事实上它并不是最理想的结果,因为如果用户在前台直接搜索“中小学实验室规程”,它将搜索不到任何内容,原因很简单,因为词典里是不可能存在“中小学实验室规程”这样的词的,这个词是根据“《》”自动适别为一个词,但如果搜索“中小学实验室规程”,系统却不会把它直接当一个词,而是分为“中小学实验室规程”,这样便找不到这条记录了。
如果用最大切分法,上面则应该切分为:
“教育部日前颁布实施《中小学实验室规程中小学实验室规程》,要求各地将实验室建设、维护费用维护费用维护费用纳入学校教育公用经费开支范围。”
用这样的数据进行索引才能真正把内容一网打尽。
当然,如果完全不分词的话,那样结果将很不理想,特别是在统计权重方面,依据十分模糊,因此分词仍然是有必要的,但绝对不是主要的因素。