中文分词算法2 ——如何索引网站

文章来源：网站优化作者：外链代发人气：12 2022-09-06 14:02:51

中文分词的准确率决定了排名是否相关。就像查询搜索引擎优化这个词，就像下图一样。从快照图片可以看出，这个词已经被当成了一个词。

图片1.png

Google Chrome会认为搜索、引擎、优化是三个词。这时候我们需要知道的是，百度的是合理的，因为是完整的意思，但是谷歌更倾向于细分词。

就像动名网络一样，谷歌会把动词、名词、网络这三个词分开，因为这个词不在谷歌的字典里。

这种差异使得关键词在不同的浏览器上出现的方式不同，这也是因素之一。在百度上，如果这些词能排在一起就更好了，但是谷歌不太注重整体，也不要求这样。而如果在内容中把这三个字分开，在谷歌Chrome上还是会有不错的排名。

所以分词是基于词库的数量，分词的准确率，以及这个算法的优劣，而不是分支页面，所以作为seoer的工作很少。唯一能做的就是在页面中以某种方式给搜索引擎一些提示。哪些词需要作为一个词汇来处理，比如标题，h1标签或者涂黑的词，有多个意思的时候。

如果文章是关于和服的，那么这两个字可以分开涂黑。如果是大豆和小麦，可以黑小麦这个词。这样搜索引擎在分析的时候就可以把黑字理解成一个词。

将停止词删除

无论是中文还是外文，都有很多经常出现在页面内容中，却没有内容和实际意义的词。就像助词：的等。或者感叹：那个，介词：然而。这种词是停用词。这是因为这个词没有实际意义。像a，of这样的英语单词也是如此。

索引的时候会把它们删除，让正文的内容更清晰，减少计算量。

减少噪声

在大多数页面中，很多东西对整体正文没有影响，比如字体、导航栏、广告的版权维护。就像博客里的导航条一样，每篇文章里都会有类别，浏览历史等等，但是这篇文章的主要内容和这些无关。所以这些内容都是噪音，会冲淡网站的主要内容。

它们在排名中必须被扣除和忽略。这需要用超文本标记语言标签划分网页，并找到标题、导航、主题、页脚等。在很多网站页面中，经常出现的内容一般都是噪音。去噪后，留下网页的主要内容。

上一篇：无锡从事seo工作的公司需要避免失误算法极其重要下一篇：没有了