Python采集腾讯新闻实例

2019-10-06 11:42:41于丽

    ans = ''
    #将切分的结果组合起来
    for each in strs:
        ans += each
    return ans

这样腾讯网上面的正文基本全部能够提取出来。

到此整个采集也就结束了。

展示一下我提取到的结果(不使用自动换行,右边隐藏了):

注意:

1、打开某个网址的时候,如果网址是坏的(打不开),若不处理则会报错。我简单地使用处理异常的方式,估计应该有其他方式。

try:
    socket = urllib.urlopen(url)
except:
    continue

2、Python正则表达式中的“.”号,可以匹配任意字符,但是除了“n”。

3、如何去除字符串末尾的“n”?python的处理简直优雅到死啊!

if line[-1] == 'n':
    line = line[0:-1]