分词与索引的关系

 时间:2024-11-08 05:47:20

分词与索引,是中文搜殇矬岭柳索里最重要的两个技术,而且两者间是密不可分的。

很多研究搜索技术的人,都致力于如果提升分词结果鹚兢尖睁的准确性,但在实际应用中,分词准确度稍差些或更好些,对搜索结果影响其实反而不大,对于精确搜索而言,通常采用的还是最大切分法。

这里举一个例子:

教育部日前颁布实施《中小学实验室规程》,要求各地将实验室建设、维护费用纳入学校教育公用经费开支范围,并保持逐年增长。

这句话理想的分词结果如下:

“教育部日前颁布实施《中小学实验室规程》,要求各地将实验室建设、维护费用纳入学校教育公用经费开支范围。”

但如果按这样形式去进行索引,事实上它并不是最理想的结果,因为如果用户在前台直接搜索“中小学实验室规程”,它将搜索不到任何内容,原因很简单,因为词典里是不可能存在“中小学实验室规程”这样的词的,这个词是根据“《》”自动适别为一个词,但如果搜索“中小学实验室规程”,系统却不会把它直接当一个词,而是分为“中小学实验室规程”,这样便找不到这条记录了。

如果用最大切分法,上面则应该切分为:

“教育部日前颁布实施《中小学实验室规程中小学实验室规程》,要求各地将实验室建设、维护费用维护费用维护费用纳入学校教育公用经费开支范围。”

用这样的数据进行索引才能真正把内容一网打尽。

当然,如果完全不分词的话,那样结果将很不理想,特别是在统计权重方面,依据十分模糊,因此分词仍然是有必要的,但绝对不是主要的因素。

遇到执法人员打假怎么配合 四级考试经验总结 燃煤电厂脱硫废水处理的基本流程 如何撰写课题开题会通知? 本国企业如何应对国外同类竞争者
热门搜索
隆胸手术图片 今年流行的发型图片 主持人发型图片 古剑奇谭图片 宫崎骏的所有作品电影