python网络编程学习笔记(七)：HTML和XHTML解析(HTMLParser、BeautifulSo

XHTML 与" HTML 4.01 "标准没有太多的不同
从代码和结果来看，应注意两点：
第一，在BeautifulSoup.BeautifulSoup(htmlline.decode('gb2312'))初始化过程中，应注意字符编码格式，从网上搜索了一下，开始用utf-8的编码显示不正常，换为gb2312后显示正常。其实可以用soup.originalEncoding方法来查看原文件的编码格式。
第二，结果中未对字符实体进行处理，在BeautifulSoup中文文档中，有专门对实体转换的解释，这里将上面的代码改为以下代码后，结果将正常显示：

##@小五义：
##BeautifulSoup示例：title
#coding: utf8
import BeautifulSoup
a=open('test1.html','r')
htmlline=a.read()
soup=BeautifulSoup.BeautifulStoneSoup(htmlline.decode('gb2312'),convertEntities=BeautifulSoup.BeautifulStoneSoup.ALL_ENTITIES)
#print soup.prettify()#规范化html文件
titleTag=soup.html.head.title
print titleTag.string

这里convertEntities=BeautifulSoup.BeautifulStoneSoup.ALL_ENTITIES中的ALL_ENTITIES定义了XML和HTML两者的实体代码。当然，也可以直接用XML_ENTITIES或者HTML_ENTITIES。运行结果如下：
XHTML 与" HTML 4.01 "标准没有太多的不同
3、提取链接
还有用上面的例子，这里代码变为：

##@小五义：
##BeautifulSoup示例：提取链接
#coding: utf8
import BeautifulSoup
a=open('test1.html','r')
htmlline=a.read()
a.close()
soup=BeautifulSoup.BeautifulStoneSoup(htmlline.decode('gb2312'),convertEntities=BeautifulSoup.BeautifulStoneSoup.ALL_ENTITIES)
name=soup.find('a').string
links=soup.find('a')['href']
print name+':'+links

运行结果为：
我想你:http://pypi.python.org/pypi
4、提取图片
依然是用上面的例子，把baidu图片提取出来。
代码为：

##@小五义：http://www.cnblogs.com/xiaowuyi
#coding: utf8
import BeautifulSoup,urllib
def getimage(addr):#提取图片并存在当前目录下
    u = urllib.urlopen(addr)
    data = u.read()
    filename=addr.split('/')[-1]
    f=open(filename,'wb')
    f.write(data)
    f.close()
    print filename+' finished!'
a=open('test1.html','r')
htmlline=a.read()
soup=BeautifulSoup.BeautifulStoneSoup(htmlline.decode('gb2312'),convertEntities=BeautifulSoup.BeautifulStoneSoup.ALL_ENTITIES)
links=soup.find('img')['src']
getimage(links)

提取链接和提取图片两部分主要都是用了find方法，具体方法为：
find(name, attrs, recursive, text, **kwargs)
findAll是列出全部符合条件的，find只列出第一条。这里注意的是findAll返回的是个list。
5、实际例子：
例8、获取人人网首页上的各各链接地址，代码如下：

##@小五义：

9/11 首页上一页 7 8 9 10 11 下一页尾页

python网络编程学习笔记(七)：HTML和XHTML解析(HTMLParser、BeautifulSo

Python ArcPy实现批量拼接长时间序列栅格图像

Python 中OS module的使用详解

Python Matplotlib基本用法详解

Python range() 函数用法详解

Python分割单词和转换命名法的实现

Python 中OS module的使用详解

使用Pytorch构建第一个神经网络模型附案例实战

Python实现关键路径和七格图计算详解

python3中SQLMap安装教程

kali最新国内更新源sources

Python ArcPy实现批量拼接长时间序列栅格图像

Python 中OS module的使用详解

Python Matplotlib基本用法详解

Python range() 函数用法详解

Python分割单词和转换命名法的实现

Python 中OS module的使用详解

使用Pytorch构建第一个神经网络模型附案例实战

Python实现关键路径和七格图计算详解

python3中SQLMap安装教程

kali最新国内更新源sources

python网络编程学习笔记(七)：HTML和XHTML解析(HTMLParser、BeautifulSo

Python ArcPy实现批量拼接长时间序列栅格图像

Python 中OS module的使用详解

Python Matplotlib基本用法详解

Python range() 函数用法详解

Python分割单词和转换命名法的实现

Python 中OS module的使用详解

使用Pytorch构建第一个神经网络模型 附案例实战

Python实现关键路径和七格图计算详解

python3中SQLMap安装教程

kali最新国内更新源sources

Python ArcPy实现批量拼接长时间序列栅格图像

Python 中OS module的使用详解

Python Matplotlib基本用法详解

Python range() 函数用法详解

Python分割单词和转换命名法的实现

Python 中OS module的使用详解

使用Pytorch构建第一个神经网络模型 附案例实战

Python实现关键路径和七格图计算详解

python3中SQLMap安装教程

kali最新国内更新源sources

使用Pytorch构建第一个神经网络模型附案例实战

使用Pytorch构建第一个神经网络模型附案例实战