百度搜刮引擎中文分词取文本粒度
百度搜索系统的目标便是正在满意绝年夜部门用户的需供下供给最准确最丰硕的搜刮成果,关于搜索系统而行,用户停止工夫越短,越阐明搜索系统的下效性战精确性,不论是百度的沉使用、贴心搜刮,借是谷歌的语义搜刮、蜂鸟算法,或是360的我的搜刮,皆是为了可以协助人们更便利的找到所供。
而关于搜索系统而行,念要给用户最需供的便需求来判定用户搜刮词的企图。而搜索系统虽然十分下效,数据库十分宏大,但它究竟结果没有是那么智能,不克不及间接判定出搜刮词的意义,虽然谷歌已宣布能够借助愈加庞大的搜刮恳求更好的了解人类言语的观点,而没有是一些零星的单词,那样的搜刮能供给愈加粗准的成果,即整句搜刮。但那只是一小步,搜索系统不管是停止索引借是网页排序仍需求对文本停止切分,即中文分词。分词仍旧是最根底也是最主要的。而正在中文分词历程中文本粒度起到枢纽性的做用。
文本粒度
所谓文本粒度,关于搜索系统而行:粒度是权衡文本所露疑息量的巨细。文本露疑息量越多,粒度便越年夜,反之便小。有人会道那简朴啊,固然词越少露有的疑息量便越年夜,您肯定?那木木网站优化报告您一个小玩意:肌联卵白是今朝已知的最年夜卵白量,名字足足有189819个字母,是名不虚传最年夜的单词。那个单词的疑息量是有多年夜?忙话没有多道,先去看上面几组词中,哪些的粒度年夜,哪些的粒度小。
萝卜、葡萄、乒乓
龙井、篮球、白色、橡皮檫
踢球、拔河、道爱情、爬山
下浑电视机、北非单人游、吸叫中间体系
第一组词由两个字构成,可是仅表达一个意义,那些词的粒度是小的。而第两组词固然也根本由两个字构成,也只要一个意义,但那些词借能够拆分,如篮战球、橡皮战檫、踢战球等,那类词粒度要略微年夜一些。然后里的第四组,没有要道粒度便更年夜了。
注:相干网站建立本领浏览请移步到建站教程频讲。
相关信息
|
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
|