ans = ''
#将切分的结果组合起来
for each in strs:
ans += each
return ans
这样腾讯网上面的正文基本全部能够提取出来。
到此整个采集也就结束了。
展示一下我提取到的结果(不使用自动换行,右边隐藏了):

注意:
1、打开某个网址的时候,如果网址是坏的(打不开),若不处理则会报错。我简单地使用处理异常的方式,估计应该有其他方式。
try:
socket = urllib.urlopen(url)
except:
continue
2、Python正则表达式中的“.”号,可以匹配任意字符,但是除了“n”。
3、如何去除字符串末尾的“n”?python的处理简直优雅到死啊!
if line[-1] == 'n':
line = line[0:-1]










