这是三篇影响百度17年的技术博客,作者李彦宏
来源:DoNews
1、我与GO.COM
本文写于2001年2月3日。
虽然早已是预料之中的事,但得知GO.COM关闭的消息时,还是有些伤感,毕竟我为她和她的前身Infoseek工作了两年半之久。是的,两年半在因特网这一行是很长的时间! 人都是有惰性的,我也不例外,自从1997年加入Infoseek后,我是很认真的,我曾经立下誓言,只要我在Infoseek一天,就要保住她搜索引擎在业界第一的位置。
头半年,我日以继夜地工作,终于在1998年4月发布了ESP技术,这是世界主要搜索引擎中首次采用超链分析技术,此后的三年中,各大搜索引擎陆续采用了这一思路。
那个时候也正是早期网络公司从搜索引擎向门户网站过渡的时期,Hotmail的兴起,使得各个门户竞相效仿。Lycos推出了以lycosmail.com结尾的免费邮箱,可能是excitemail.com已被他人抢注了的缘故,Excite推出的免费邮箱是以mailexcite.com 结尾的。
雅虎和Infoseek也在紧锣密鼓地筹备,我为自己的公司在这一方面出手较晚而焦虑,于是提出我们的免费邮箱要以infoseek.com结尾,这样我们的免费邮箱就比竞争对手的要好记得多,因为毕竟那时候上网的人谁不知道Infoseek!
然而那些来自传统行业的,自己也没上过几天网的决策者坚持认为这样做会导致公众以为那些免费邮箱的使用者是的Infoseek雇员,如果他们用这样的邮件地址发送什么不得体的东西的话,人家会来起诉Infoseek。他们甚至提出如果这样可行的话,Excite和Lycos为什么没这样做——整个一个跟风者的心态!
我提出美国在线的例子,人家的客户邮箱就是以aol.com结尾的吗!但遭到的反驳是:美国在线是ISP,所以别人不会有误解。我说当人们习惯了Infoseek的免费邮箱之后,也就不会有误解了;但决策者还是不愿意承担任何潜在法律纠纷的风险。
几天以后,雅虎推出了免费邮箱,正是以yahoo.com结尾的!雅虎本身的员工从此开始起用yahoo-inc.com的电子邮件。然而这并没能改变决策者使用infoseekmail.com的决定。
后来的事情大家都知道了,Excite和Lycos都把他们的免费邮箱改成了与他们公司品牌一致的地址,而infoseekmail.com却从来没有推出过。
没有推出的原因是因为98年4月迪斯尼参股Infoseek,给了一点钱,好象是7000万,然后把没上市,也几乎永远要亏钱的Starwave强行卖给了Infoseek,迪斯尼信誓旦旦地要把Infoseek和它所有的网站资源整合到一个新的互联网品牌之下,就是后来的 GO.COM。
消息宣布的时候,Infoseek上上下下都很兴奋,觉得这回算是有靠山了,雅虎算什么,世界上90%的人都知道迪斯尼的品牌,迪斯尼在品牌建设上是大师,而雅虎最多算是个初出茅庐了毛头小伙!那时候没有人想到,仅仅一年多以后,华尔街就有了毛头小伙要收购品牌大师的传言!
我对迪斯尼的进驻并没有特别激动,直觉告诉我,背上迪斯尼这个包袱,我们就再也不能象一个互联网公司那样,高速、灵活地奔跑了。
所以我对朋友们说,这件事情相当于我们买了个保险,不会倒闭了,现在这个预言应验了,GO.COM的股票即将被置换成迪斯尼的股票,几乎永远不会死掉,也永远不会令人激动了。1898年9月,Infoseek和迪斯尼对外宣布了GO.COM这个名字,不久又展示了据说是迪斯尼CEO钦定的GO.COM标识,就是那个后来被人起诉的黄底绿芯的交通灯标识。
Goto.com看到这个标识后觉得有机可乘,提出要迪斯尼赔偿。在品牌领域高处不胜寒的迪斯尼 哪把小小的goto放在眼里,迪斯尼甚至觉得他们不屑于收购这样的公司。
而事实上,一年以后,goto的股票市值比GO.COM还高! 经过10个月的整合(10个月在互联网时代意味着什么,同志们!),GO.COM在99年1月正式发布,所提供的免费邮件也自然地使用了以go.com结尾的地址——而那位拍板要用Infoseekmail.com地址的人,被任命为GO.COM网站的总经理!
GO.COM的问题很快就显露出来了,作为互联网公司的Infoseek和作为传统公司的迪斯尼在公司运作上有着太多的分歧,而迪斯尼是从不妥协的,当然这并不意味着它总是对的。此后8个月的同床异梦使得Infoseek的创始人下决心把公司完全卖给迪斯尼。
消息宣布是在1999年8月,Infoseek的股票在11月份转成了GO.COM的股票,Infoseek这互联网产业的先驱从此在华尔街消失了。虽然此后很长的时间中,人们还是通过键入www.infoseek.com来访问GO.COM,但是Infoseek这个品牌却被逐步地扼杀了。
在硅谷,没有人愿意为传统的大公司工作,迪斯尼连这点也不理解,他们甚至认为大家应该为成为迪斯尼的一员而感到骄傲。但事实还是事实,迪斯尼必须用许诺很多现金奖励的办法来换取人们在GO.COM多呆几个月的承诺。
迪斯尼从一开始就低估了在互联网上重新建立一个大众品牌的难度,牺牲Infoseek的品牌并不意味着迪斯尼的GO.COM会建立起来,在传统行业屡试不爽的品牌策略却在网上一筹莫展。再加上官司缠身,标识被迫改动,并赔款求和,带着迪斯尼这样沉重的翅膀的GO.COM再也没有能够飞起来过。
总结这段经历,我觉得自己虽然是做技术的出身,但在很多商业性的判断上有一定的悟性,比如在免费邮件的地址问题,GO.COM的前途问题等,这为我后来创建公司带来了很大的信心。经历了这么多,我想GO.COM/Infoseek的很多失误应该不会在百度重演。
以上文字全凭记忆,引用数据未经核实,表达的观点纯属个人观点,如有冒犯,还请见谅。
2、门户网站与企业网站的区别 —— 给网站集成商
本文写于2001年4月17日。
2000年9月,原Infoseek公司的CTO William Chang博士访华,我要求他对中国互联网的核心竞争力做一个报告。一下飞机,我们就谈上了“正事儿”。没想到他问我的第一个问题居然是“中国互联网领域是不是有很多咨询公司?”我回答说“不多。”
他对这个回答表示了一定程度的担心。他认为,如果咨询公司不成气候的话,作为技术提供商的百度在商业上会面临挑战。William后来作的报告,居然很大的篇幅是讲在每一次技术革命中,咨询业对技术所起的推动作用。从文艺复兴,一直到美国互联网,无一例外。
互联网时代的所谓咨询公司,其实指的主要是网站集成商,当然也包括像时代财富、互联网实验室等中文意义上的咨询顾问公司。令人欣慰的是,随着dotcom泡沫的消失,原来很多做门户的网站,开始转型做网站集成,把他们做网站的经验,转移到为公司企业和政府机构做网站上来了。
是啊,没有主流单位(或称“传统行业”)的参与,怎么能说我们已经进入了互联网时代呢!当然,更多的情况是原来做系统集成的公司,开始大举进兵网站集成。有了这样一个网站集成的群体,就为百度的成功增添了新的基础。
没有太多的人注意到,上个星期百度和戴尔、搜狐、亚信等公司一起举办了一个“大型企业门户应用解决方案”的研讨会,其主要的参会者都是网站集成商。这些代表新经济的公司,无一例外地看中了网站集成这一块儿,希望通过他们把主流行业带入网络经济。
人们对门户网站可能再熟悉不过了,然而企业网站和门户网站所起的作用是有很大差别的,门户网站的特点,套用新浪的王志东的话,叫做“游戏化”的成分多些,聊天室、从各个传统媒体摘录来的新闻、网上游戏、BBS等,不一而足。这些对企业网站都不适用。
当一个人到一个门户网站上去的时候,他可能根本没有什么目的,他往往会跟着那些网页上的超链信马由缰地走下去,直到他需要离网的时候。这样做,即使花费很多时间,他可能也不会抱怨这个网站。当人们到企业网站去的时候,他们往往代有很强的目的性,而最可能的目的是什么? 寻找信息!
一件真事:有一次出差,想找离宾馆最近的我开户的银行,于是上网,先去了这个银行的网站,花了足足十分钟,却找不到需要的信息,这个网站虽然有一个搜索框,但输入检索词后出来的结果是“Internal Server Error”,跟着超链找了半天,仍然一无所获。
最后去了一家门户网站,输入检索词后,立刻就找到了想要的信息,而这个载有有用信息的网页恰恰就在这家银行的网站上!
我想这并不是一个偶然的事情,当中国的网民越来越成熟的时候,他们必然会问:门户网站能在数千万的网页中立即找出需要的网页,为什么在一个只有几千页的小网站上要找些东西就那么难呢?
当一个人在一个企业网站上花费很多时间却找不到需要的信息的时候,他会怎么样? 他会感到愤怒!有了一个好的站内搜索引擎,问题就容易得多了,其实当我写这篇文章的时候,我已经不记得William是什么时候访华的了,我根本不需要记住,因为我知道只要我到百度的网站上,输入"William"这个词,我就立刻可以找到他访华的精确时间。愿天下企业网站都有一个好的搜索功能!
3、搜索引擎的第三定律
本文写于2001年9月7日
搜索引擎走到今天,已经是一个结束过去,开辟未来的时候了。为了说清楚我所讲的第三定律,我们先来回顾一下第一和第二定律。
第一定律、相关性定律
听起来象是一篇学术论文,的确,就连第一、第二定律的提法以前也没有过,但是第一、第二定律的内容确早已在业界和学术界得到了公认。
其实这第一定律是早在互联网出现之前就被学术界广泛研究过的,那就是所谓的相关性定律。这个领域那时叫情报检索,或信息检索,也有叫全文检索的。
那时的相关性都是基于词频统计的,也就是说,当用户输入检索词时,搜索引擎去找那些检索词在文章(网页)中出现频率较高的,位置较重要的,再加上一些对检索词本身常用程度的加权,最后排出一个结果来(检索结果页面)。
早期的搜索引擎结果排序都是基于本文的第一定律的,如Infoseek, Excite, Lycos等,它们基本上是沿用了网络时代之前学术界的研究成果,工业界的主要精力放在处理大访问量和大数据量上,对相关性排序没有突破。词频统计其实根本没有利用任何跟网络有关的特性,是前网络时代的技术。
然而,网络时代的主要文献是以网页的形式存在的,而几乎每个人都可以随心所欲地在网上发表各种内容,词频相同的两个网页,质量相差可以很远,可是按照搜索引擎的第一定律,对这两个网页的排序应该是一样的。为了能够派在某些检索结果的前几位,许多网页内容的制作者绞尽脑汁,在其页面上堆砌关键词,搜索引擎对此防不胜防,苦不堪言。这种情况到了1996年开始有了改变。
第二定律、人气质量定律
1996年4月,我到赌城拉斯维加斯开一个有关信息检索方面的学术会议,会议的内容就象拉斯维加斯的天气一样,照例比较枯燥乏味。但远离公司的我,却难得有一个静下心来认真思考问题的机会。就在听一个毫不相干的论文演讲时,我突然把科学引文索引的机制跟Web上的超级链接联系起来了 —— 感谢北大,她在我上大三的时候就教授了我科学引文索引的机制,美国恐怕没有一所大学会在你本科的时候教这玩艺儿。
科学引文索引的机制,说白了就是谁的论文被引用次数多,谁就被认为是权威,论文就是好论文。这个思路移植到网上就是谁的网页被链接次数多,那个网页就被认为是质量高,人气旺。在加上相应的链接文字分析,就可以用在搜索结果的排序上了。这就引出了搜索引擎的第二定律:人气质量定律。
根据这一定律,搜索结果的相关性排序,并不完全依赖于词频统计,而是更多地依赖于超链分析。我意识到这是一个突破性的东西,回去以后就很快总结了思路,于96年6月申请了这一方面的美国专利。1999年7月6号,美国专利和商标局批准了专利号为5,920,859的,以我为唯一发明人的专利。
大约在1996年底,斯坦福大学计算机系的两位研究生也想到了同样的解决方法,他们后来创立了一个叫Google的搜索引擎,Google的网站上至今仍然说他们的这项技术是Patent-pending(专利申请中),不知道美国专利局是不是还会再批这样的专利。
Anyway,超链分析的方法98年以后逐渐被各大搜索引擎所接受,由于链接是网络内容的一个根本特性,这时候的搜索引擎才开始真正利用网络时代的检索技术。
世事难料,2000年起网络泡沫迅速破灭,各大搜索引擎要么遭人收购,要么推迟上市,所有使用人气质量定律的搜索引擎公司都未能幸免。那么,搜索引擎的出路到底在哪儿?
第三定律、自信心定律
人气质量定律解决的还是一个技术层面的问题,然而搜索引擎从诞生的那一天起,从来就不是一个纯技术现像,它融合了技术,文化,市场等各个层面的因素。解决搜索引擎公司的生存和发展问题需要搜索引擎的第三定律——自信心定律。
1998年的时候,没有太多的人拿一家远在硅谷500英里以外,刚刚成立的,叫作GOTO.COM的公司当回事儿。它不过是买了一个搜索引擎的技术服务,然后再向那些网站的拥有者们拍卖他们网站在GOTO检索结果中的排名,谁付的钱多,谁的网站就排在前面,而且付费是根据网民点击该网站的情况来计算的,仅仅在搜索结果中出现并不需要付费。这就是自信心定律的最早实践者!
根据这一定律,搜索结果的相关性排序,除了词频统计和超链分析之外,更注重的是竞价拍卖。谁对自己的网站有信心,谁就排在前面。有信心的表现就是愿意为这个排名付钱。需要声明的是,自信心定律也是我自己给这一模式起的名字,以前的文献中并没有人这样总结过。
今天,在网络业一片萧条,纳斯达克风声鹤唳的时候,GOTO却如日中天,市值高达13亿美金,收入高达雅虎总收入的35%。反观门户网站,有哪一个能从它们的搜索引擎服务中赚出总收入的三分之一呢?
究其原因,就是因为GOTO最早实践了搜索引擎的自信心定律。以前的搜索引擎都是靠CPM来收费的,而CPM是从传统广告业借鉴过来的,没有考虑网络媒体即时性,交互性,易竞价的特点,而竞价排名,点击收费则是为网站拥有者直接提供销售线索,而不是传统意义上的广告宣传。自信心定律一改过去搜索引擎靠CPM收钱的尴尬局面,开创了真正属于互联网的收费模式。
在中国,百度一直致力于推动搜索引擎市场的培植和发展,现在,我们联合了各大门户网站的搜索引擎,一起通过百度的竞价排名系统来实践搜索引擎的第三定律,为数十万网站的拥有者提供一个展示自信心,吸引潜在客户,发现销售线索的平台。有关百度竞价排名系统的详情,请戳。
作者:李彦宏