零基础写python爬虫之抓取糗事百科代码分享

2019-10-05 14:38:29于海丽

   
        # 找出所有class="content"的div标记   
        #re.S是任意匹配模式,也就是.可以匹配换行符   
        myItems = re.findall('<div.*?class="content".*?title="(.*?)">(.*?)</div>',unicodePage,re.S)   
        items = []   
        for item in myItems:   
            # item 中第一个是div的标题,也就是时间   
            # item 中第二个是div的内容,也就是内容   
            items.append([item[0].replace("n",""),item[1].replace("n","")])   
        return items   
   
    # 用于加载新的段子   
    def LoadPage(self):   
        # 如果用户未输入quit则一直运行   
        while self.enable:   
            # 如果pages数组中的内容小于2个   
            if len(self.pages) < 2:   
                try:   
                    # 获取新的页面中的段子们   
                    myPage = self.GetPage(str(self.page))   
                    self.page += 1   
                    self.pages.append(myPage)   
                except:   
                    print '无法链接糗事百科!'   
            else:   
                time.sleep(1)