4、提取图片
如果网页中有一个图片文件,将其提取出来,并存为一个单独的文件。
例5:
<html>
<head>
<title> XHTML 与" HTML 4.01 "标准没有太多的不同</title>
</head>
<body>
i love÷ you×
<a href="http://pypi.python.org/pypi" title="link1">我想你</a>
<div id="m"><img src="http://www.baidu.com/img/baidu_sylogo1.gif" width="270" height="129" ></div>
</body>
</html>
将baidu_sylogo1.gif存取出来,具体代码如下:
##@小五义:
##HTMLParser示例:提取图片
# -*- coding: cp936 -*-
from htmlentitydefs import entitydefs
import HTMLParser,urllib
def getimage(addr):#提取图片并存在当前目录下
u = urllib.urlopen(addr)
data = u.read()
filename=addr.split('/')[-1]
f=open(filename,'wb')
f.write(data)
f.close()
print filename+'已经生成!'
class TitleParser(HTMLParser.HTMLParser):
def __init__(self):
self.taglevels=[]
self.handledtags=['title','body']
self.processing=None
HTMLParser.HTMLParser.__init__(self)
def handle_starttag(self,tag,attrs):
if tag in self.handledtags:
self.data=''
self.processing=tag
if tag =='a':
for name,value in attrs:
if name=='href':
print '连接地址:'+value
if tag=='img':
for name,value in attrs:
if name=='src':
getimage(value)
def handle_data(self,data):
if self.processing:
self.data +=data
def handle_endtag(self,tag):
if tag==self.processing:










