中文分词算法2 ——如何索引网站
中文分词的准确率决定了排名是否相关。就像查询搜索引擎优化这个词,就像下图一样。从快照图片可以看出,这个词已经被当成了一个词。
Google Chrome会认为搜索、引擎、优化是三个词。这时候我们需要知道的是,百度的是合理的,因为是完整的意思,但是谷歌更倾向于细分词。
就像动名网络一样,谷歌会把动词、名词、网络这三个词分开,因为这个词不在谷歌的字典里。
这种差异使得关键词在不同的浏览器上出现的方式不同,这也是因素之一。在百度上,如果这些词能排在一起就更好了,但是谷歌不太注重整体,也不要求这样。而如果在内容中把这三个字分开,在谷歌Chrome上还是会有不错的排名。
所以分词是基于词库的数量,分词的准确率,以及这个算法的优劣,而不是分支页面,所以作为seoer的工作很少。唯一能做的就是在页面中以某种方式给搜索引擎一些提示。哪些词需要作为一个词汇来处理,比如标题,h1标签或者涂黑的词,有多个意思的时候。
如果文章是关于和服的,那么这两个字可以分开涂黑。如果是大豆和小麦,可以黑小麦这个词。这样搜索引擎在分析的时候就可以把黑字理解成一个词。
将停止词删除
无论是中文还是外文,都有很多经常出现在页面内容中,却没有内容和实际意义的词。就像助词:的等。或者感叹:那个,介词:然而。这种词是停用词。这是因为这个词没有实际意义。像a,of这样的英语单词也是如此。
索引的时候会把它们删除,让正文的内容更清晰,减少计算量。
减少噪声
在大多数页面中,很多东西对整体正文没有影响,比如字体、导航栏、广告的版权维护。就像博客里的导航条一样,每篇文章里都会有类别,浏览历史等等,但是这篇文章的主要内容和这些无关。所以这些内容都是噪音,会冲淡网站的主要内容。
它们在排名中必须被扣除和忽略。这需要用超文本标记语言标签划分网页,并找到标题、导航、主题、页脚等。在很多网站页面中,经常出现的内容一般都是噪音。去噪后,留下网页的主要内容。