搜索引擎在页面去重和前向索引方面的原理是什么?
搜索引擎将页面的去重:
同样的内容经常出现在这个网站的不同网站和不同连接中,但是搜索引擎很讨厌这种重复。要查询内容,如果连续两个网站的内容看到同一篇文章,会让用户对浏览产生不好的感觉。即使上面的东西符合网站的内容。如果返回的内容是两者之一,则需要识别文章内容,删除相同的内容。
这个过程中使用的方法是计算内容的特征关键词的指纹,找出内容中的代表词(通常是高频词),计算其数字指纹。在中文分词、去停用词和去噪中,通常可以找到十个词来进行精确的计算。而且无论你做多少选择,对于准确性都不会有太大意义。
就像MD5算法一样,它的特点是特征字稍加改动就能让指纹变差。
要知道搜索引擎的这些算法,优化人员需要知道类别词和句子排序的附加伪原创,无法避开搜索引擎的这些算法,因为内容中的特征词是不会改变的。而且这些算法不一定只在一个页面里,也可能在段落里,合并后的文章和转换的顺序也不会把内容的摘录变成原创。
正向索引(索引)
在经历了搜索引擎介绍的上述步骤后,文章就变得特别了,可以显示文章内容,使用基于单词的内容。然后你就能提示单词,把内容变成关键词的组合,然后知道出现了多少个单词,频率,风格(标题和H标签,黑字,锚词…),地点(像第一段)。
这样页面就会变成关键词的组合,关键词出现的地方的词频、风格、权重信息都会在里面。索引字的格式:文件1——关键字1,关键字2,关键字7,关键词L;2——关键字1关键字7.
每个文件都有自己的ID,其内容显示为关键字的组合。在索引数据库中,这些词也成为关键字id。这个数据结构是一个前向索引。