李亚涛:python抓取百度贴吧回帖时间,回帖人,回帖内容信息
大家好,今天给大家分享一下如何利用python抓取百度贴吧相关信息
为了演示,我就随便在iphone贴吧找了一个内容相对丰富的帖子。
大家好,今天给大家分享一下如何利用python抓取百度贴吧相关信息
为了演示,我就随便在iphone贴吧找了一个内容相对丰富的帖子。
我们只是演示,所以我选择抓取
回帖时间
回帖内容
回帖时
这3个信息,其实比较聪明的人应该知道,这个可以做信息聚合,标题+这些回复内容不就是一篇原创信息。
先分析一下思路:
1、获取单个页面的源代码
2、大概看一下页数,当然我们也可以用正则获取
这里举例,我看了一下有733页的信息,演示我就抓取前100页吧。
3、信息量比较大,这里我们可能会利用到多线程的抓取
4、获取每一页所要获取的内容,这里用传统正则可能稍微复杂一点,我们用神器xpath
5、最后把获取到的内容整理一下写入到文本文件contents.txt里
代码这里不方便发,不然文章可能会被删除,有兴趣的到我公众号可以去看
运行效果如下:
可以看到,抓取到了将近1万行的数据,运行时间才几秒中,非常快了。
有兴趣的可以自己试试
李亚涛简介:11年网站运营管理经验,seo实战教练,python爬虫高手,建站专家
著有《15天成为python爬虫高手视频教程》、《python爬虫加强班视频教程》、《手机网站SEO优化教程》电子书、《seo优化系统视频教程》等
相关文章
-
你认为按职称加工资好还是按工龄加工资好?
文章来源:老铁商城2020-01-06 -
月薪5万,要求你出国务工2年,中途不得回家,你愿意吗?
文章来源:老铁商城2020-01-06 -
公司派我去非洲工作,每天1000元补助,要不要去?
文章来源:老铁商城2020-01-06 -
是什么让你坚持上班没有离职呢?
文章来源:老铁商城2020-01-06 -
我已60岁,企业破产了,负债一千多万,怎样东山再起?
文章来源:老铁商城2020-01-06 -
如果腾讯、阿里、百度同时聘用你,你会选择哪一个公司?为什么?
文章来源:老铁商城2020-01-06 -
如果你痴迷钓鱼,每月给你10000块,钓遍全国的工作你愿意干吗?
文章来源:老铁商城2020-01-06