Python采集腾讯新闻实例

for url in lParser.urls:#链接都存在urls里
if pattern.match(url):
fout.write(url+'n')

fout.close()

这样子就把所有符合条件的链接都保存到urls.txt文件里了。

步骤2：对于每一个链接，获取它的网页内容。

很简单，只需要打开urls.txt文件，一行一行地读出来就可以了。

也许这里会显得多此一举，但是基于我对解耦的强烈愿望，我还是果断地写到文件里了。后面如果采用面向对象编程，重构起来是十分方便的。

获取网页内容部分也是相对简单的，但是需要把网页的内容都保存到一个文件夹里。

这里有几个新的用法：

os.getcwd()#获得当前文件夹路径
os.path.sep#当前系统路径分隔符（是这个叫法吗？）windows下是“”，linux下是“/”

#判断文件夹是否存在，如果不存在则新建一个文件夹
if os.path.exists('newsdir') == False:
os.makedirs('newsdir')

#str()用来将某个数字转为字符串
i = 5
str(i)

有了这些方法，将字符串保存到某个文件夹下不同的文件就不再是一件困难的事了。

步骤3：枚举每一个网页，根据正则匹配获得目标数据。

下面的方法是用来遍历文件夹的。

#这个是用来遍历某个文件夹的
for parent, dirnames, filenames in os.walk(dir):
     for dirname in dirnames
         print parent, dirname
     for filename in filenames:
         print parent, filename

遍历，读取，匹配，结果就出来了。

我使用的数据提取的正则表达式是这样的：

reg = '<div class="hd">.*?<h1>(.*?)</h1>.*?<span class="pubTime">(.*?)</span>.*?<a .*?>(.*?)</a>.*?<div id="Cnt-Main-Article-QQ" .*?>(.*?)</div>'

其实这个并不能匹配到腾讯网的所有新闻，因为上面的新闻有两种格式，标签有一点差别，所以只能提取出一种。

另外一点就是通过正则表达式的提取肯定不是主流的提取方法，如果需要采集其他网站，就需要变更正则表达式，这可是一件比较麻烦的事情。

2/3 首页上一页 1 2 3 下一页尾页

Python采集腾讯新闻实例

Python ArcPy实现批量拼接长时间序列栅格图像

Python 中OS module的使用详解

Python Matplotlib基本用法详解

Python range() 函数用法详解

Python分割单词和转换命名法的实现

Python 中OS module的使用详解

使用Pytorch构建第一个神经网络模型附案例实战

Python实现关键路径和七格图计算详解

python3中SQLMap安装教程

kali最新国内更新源sources

Python ArcPy实现批量拼接长时间序列栅格图像

Python 中OS module的使用详解

Python Matplotlib基本用法详解

Python range() 函数用法详解

Python分割单词和转换命名法的实现

Python 中OS module的使用详解

使用Pytorch构建第一个神经网络模型附案例实战

Python实现关键路径和七格图计算详解

python3中SQLMap安装教程

kali最新国内更新源sources

Python采集腾讯新闻实例

Python ArcPy实现批量拼接长时间序列栅格图像

Python 中OS module的使用详解

Python Matplotlib基本用法详解

Python range() 函数用法详解

Python分割单词和转换命名法的实现

Python 中OS module的使用详解

使用Pytorch构建第一个神经网络模型 附案例实战

Python实现关键路径和七格图计算详解

python3中SQLMap安装教程

kali最新国内更新源sources

Python ArcPy实现批量拼接长时间序列栅格图像

Python 中OS module的使用详解

Python Matplotlib基本用法详解

Python range() 函数用法详解

Python分割单词和转换命名法的实现

Python 中OS module的使用详解

使用Pytorch构建第一个神经网络模型 附案例实战

Python实现关键路径和七格图计算详解

python3中SQLMap安装教程

kali最新国内更新源sources

使用Pytorch构建第一个神经网络模型附案例实战

使用Pytorch构建第一个神经网络模型附案例实战