def getBR(www):
try:
url = 'http://mytool.chinaz.com/baidusort.aspx?host=%s&sortType=0' % ( www , )
response = requests.get(url)
data = response.text
rex = re.search(r'(<div class="siteinfo">.+?<font.+?>)(d*?)(</font>)',data,re.I)
return rex.group(2)
except :
return None
使用方法也是传入域名,返回权重值。
我抓取的是站长工具的一个权重咨询的页面:http://mytool.chinaz.com/baidusort.aspx?host={域名}&sortType=0
我的正则就是它:(<div class="siteinfo">.+?<font.+?>)(d*?)(</font>),大家可以自己查看源代码看一下,就知道正则怎么写了。
好了,我们来批量获取一下这些网站的PR和权重:

直接看结果:

单一一个进程扫的话速度会略慢,开10个20个线程批量获取的话应该比较快。










