零基础写python爬虫之抓取糗事百科代码分享

2019-10-05 14:38:29于海丽

   操作:输入quit退出阅读糗事百科 
   功能:按下回车依次浏览今日的糗百热点 
--------------------------------------- 
""" 
print u'请按下回车浏览今日的糗百内容:'   
raw_input(' ')   
myModel = Spider_Model()   
myModel.Start()   

Q&A:
1.为什么有段时间显示糗事百科不可用?
答:前段时间因为糗事百科添加了Header的检验,导致无法爬取,需要在代码中模拟Header。现在代码已经作了修改,可以正常使用。

2.为什么需要单独新建个线程?
答:基本流程是这样的:爬虫在后台新起一个线程,一直爬取两页的糗事百科,如果剩余不足两页,则再爬一页。用户按下回车只是从库存中获取最新的内容,而不是上网获取,所以浏览更顺畅。也可以把加载放在主线程,不过这样会导致爬取过程中等待时间过长的问题。