selenium动态数据获取的方法实现

2022-07-10 13:48:00
目录
????webdriver的安装 ????selenium安装 ????驱动安装????基本使用 ????查找节点 ????执行 JavaScript????切换 Frame????前进后退????选项卡管理????配置操作�绕过检测

Selenium 是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作,同时还可以获取浏览器当前呈现的页面的源代码,做到可见即可获取。对于一些 JavaScript 动态渲染的页面来说,此种抓取方式非常有效。接下来,就让我们来感受一下它的强大之处吧。  

????webdriver的安装 

????selenium安装

 首先,我们使用selenium进行测试,所以我们得安装selenium库。

pip>

 ????驱动安装

webdriver>

 官网:http://chromedriver.storage.googleapis.com/index.html

注意:

我们下载chromedriver 驱动时,我们要查明浏览器的版本,要对应相应的版本号进行下载,否则会报错。禁止Google浏览器更新服务,可以上网查教程。

????基本使用 

????查找节点 

Selenium>

获取节点的方法:

find_element_by_id
find_element_by_name
find_element_by_xpath
find_element_by_link_text                专门用来定位超链接文本(标签)  全匹配
find_element_by_partial_link_text           模糊匹配
find_element_by_tag_name
find_element_by_class_name
find_element_by_css_selector 

 给个示例

from selenium import webdriver
 
browser = webdriver.Chrome()
browser.get('https://www.baidu.com')
input = browser.find_element_by_id('kw')
input.send_keys('Python')
browser.find_element_by_id('su').click()
# 提取页面
print(browser.page_source.encode('utf-8'))
# 提取cookie
print(browser.get_cookies())
# 提取当前请求地址
print(browser.current_url)
browser.close()

运行代码后发现,会自动弹出一个 Chrome 浏览器。浏览器首先会跳转到百度,然后在搜索框中输入 Python,接着跳转到搜索结果页  

注:当我们的chromedriver驱动没有放置到Chrome浏览器路径时,我们可以使用以下来申明浏览器对象。

browser = webdriver.Chrome(executable_path="chromedriver安装路径")

方法总结:

    brower.get(url):跳转当前url链接。browser.find_element_by_id('id属性值'):定位到id属性值。send_keys('输入关键字'):定位到输入框后输入。find_element_by_id('id属性值').click():定位到id属性值后点击。browser.page_source.encode('utf-8'):获取当前页面的源码。browser.get_cookies():提取cookies。browser.current_url:获取当前页面的url。brower.close():关闭浏览器。

    ????执行>

    对于某些操作,Selenium API 并没有提供。比如,下拉进度条,它可以直接模拟运行 JavaScript,此时使用 execute_script() 方法即可实现,代码如下:

    # document.body.scrollHeight 获取页面高度
     
    from selenium import webdriver
     
    browser = webdriver.Chrome()
    browser.get('https://36kr.com/')
    # 下拉边框  一次性下拉
    browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
     
    # 慢慢的下拉
    for i in range(1,9):
        time.sleep(random.randint(100, 300) / 1000)
        browser.execute_script('window.scrollTo(0,{})'.format(i * 700))

    这里就利用 execute_script() 方法将进度条下拉到最底部。为了模拟人为活动,我们调节了下拉的缓冲时间。

    我们使用浏览器的控制台输入以下代码也能运行。

    window.scrollTo(0, document.body.scrollHeight) 

    图例:

    ????切换>

    我们知道网页中有一种节点叫作 iframe,也就是子 Frame,相当于页面的子页面,它的结构和外部网页的结构完全一致。Selenium 打开页面后,它默认是在父级 Frame 里面操作,而此时如果页面中还有子 Frame,它是不能获取到子 Frame 里面的节点的。这时就需要使用 switch_to.frame() 方法来切换 Frame。示例如下:  

    browser.get('https://www.douban.com/')
    login_iframe = browser.find_element_by_xpath('//div[@class="login"]/iframe')
    browser.switch_to.frame(login_iframe)
    browser.find_element_by_class_name('account-tab-account').click()
    browser.find_element_by_id('username').send_keys('123123123')

    首先我们要定位到iframe,然后用switch_to.frame() 方法来切换 Frame,这时我们就可以定位到子 Frame进行有关操作了。

    ????前进后退

    平常使用浏览器时都有前进和后退功能,Selenium>

    import time
    from selenium import webdriver
     
    browser = webdriver.Chrome()
    browser.get('https://www.baidu.com/')
    browser.get('https://www.taobao.com/')
    browser.get('https://www.python.org/')
    browser.back()
    time.sleep(1)
    browser.forward()
    browser.close()

    这里我们连续访问 3 个页面,然后调用 back() 方法回到第二个页面,接下来再调用 forward() 方法又可以前进到第三个页面。  

    ????选项卡管理

    在访问网页的时候,会开启一个个选项卡。在>

    import time
    from selenium import webdriver
     
    browser = webdriver.Chrome()
    browser.get('https://www.baidu.com')
    browser.execute_script('window.open()')
    print(browser.window_handles)
    browser.switch_to_window(browser.window_handles[1])
    browser.get('https://www.taobao.com')
    time.sleep(1)
    browser.switch_to_window(browser.window_handles[0])
    browser.get('https://python.org')

    这里我们先跳转到百度再打开一个空白选项卡打印选项卡编号,再跳转到第二个选项卡也就是这个空白选项卡打开淘宝,休息一秒,再跳转到第一个选项卡打开python官网。

    ????配置操作

     selenium有很多配置,下面我举几个常见的。

    options = webdriver.ChromeOptions()
    
    # 无头模式
    option.add_argument("-headless")
    
    #设置代理
    options.add_argument('proxy-server=' +'192.168.0.28:808')
    
    #将浏览器最大化显示
    browser.maximize_window() 
    
    # 设置宽高
    browser.set_window_size(480, 800)
    # 通过js新打开一个窗口
    driver.execute_script('window.open("https://www.baidu.com");')
    
    browser = webdriver.Chrome(chrome_options=options)

    �绕过检测

    绕过检测对于一些网站的自动化反爬很管用。 

    # 设置屏蔽
    options = webdriver.ChromeOptions()
    options.add_argument('--disable-blink-features=AutomationControlled')
    browsers = webdriver.Chrome(chrome_options=options)
    browsers.get('https://bot.sannysoft.com/')

    这里我们使用下面这个网站进行自动化检测

    网站:https://bot.sannysoft.com/

    我们没设置绕过检测

    我们设置了绕过检测后

    到此这篇关于selenium动态数据获取的方法实现的文章就介绍到这了,更多相关selenium动态数据获取内容请搜索易采站长站以前的文章或继续浏览下面的相关文章希望大家以后多多支持易采站长站!