2022年 11月 9日

python selenium爬虫自动登录实例

一、概述

我们要先安装selenium这个库,使用pip install selenium 命令安装,selenium这个库相当于机器模仿人的行为去点击浏览器上的元素,这时我们要用到一个浏览器的驱动(这里我用的是谷歌浏览器)。

二、安装驱动

确认浏览器版本

首先我们先要查看自己浏览器的版本,谷歌浏览器的话点右上角三个点–帮助–关于 Chrome

我们会看到自己的浏览器版本,可以看到我的浏览器版本为100.0.4896.127(正式版本)

下载驱动

打开网页 :CNPM Binaries Mirror

找到100.0.4896.127,后面的小版本号虽然和我的浏览器有些差异,可以忽略。只要保证大版本是一样即可。

 点击进去,找到windows版。注意:windows版只有32位,没有64位。

下载完后,解压后里面有个chromedriver.exe文件 

获取自己python安装的目录

打开cmd,输入where python可以查看python安装的路径,一般是下面这个(如果找不到目录记得打开计算机文件隐藏项目)

 将解压后的chromedriver.exe文件复制到python安装目录下

三、 分析网页

打开某宝官网,点击登录,按f12查看网页源码,定位到账号输入框、密码输入框和登录按钮复制它们的xpath 。

 

返回官网首页,同样的方法复制搜索框和搜索按钮的xpath,这里比如我输入电脑

 接下来分析网页获取商品信息 ,这里我就放在代码里面了。

四、代码

代码这里我使用了一个滑块验证的方法,滑块验证不一定会成功也可以自己手动滑一下。

  1. import time
  2. import csv
  3. from selenium import webdriver
  4. from selenium.webdriver.common.keys import Keys
  5. from selenium.webdriver import ChromeOptions, ActionChains
  6. # 定义爬取单页的函数
  7. def get_page(web):
  8. divs = web.find_elements_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div')
  9. # print(divs)
  10. for div in divs:
  11. info = div.find_element_by_xpath('./div[2]/div[2]/a').text # 商品名称
  12. price = div.find_element_by_xpath('./div[2]/div[1]/div[1]/strong').text + '元' # 商品价格
  13. deal = div.find_element_by_xpath('./div[2]/div[1]/div[2]').text # 商品付款人数
  14. name = div.find_element_by_xpath('./div[2]/div[3]/div[1]/a/span[2]').text # 商家店名
  15. print(info, price, deal, name, sep="|")
  16. try:
  17. csvwriter.writerow([info, price, deal, name])
  18. except :
  19. pass
  20. option = ChromeOptions()
  21. # 设置为开发者模式,防止被各大网站识别出来使用了Selenium
  22. option.add_experimental_option('excludeSwitches', ['enable-automation'])
  23. option.add_argument("--disable-blink-features")
  24. option.add_argument("--disable-blink-features=AutomationControlled")
  25. # 初始化一个web对象
  26. web = webdriver.Chrome(options=option)
  27. # 进入淘宝官网
  28. web.get('https://www.taobao.com/')
  29. # 点击登录
  30. web.find_element_by_xpath('//*[@id="J_SiteNavLogin"]/div[1]/div[1]/a[1]').click()
  31. # 输入账号密码
  32. web.find_element_by_xpath('//*[@id="fm-login-id"]').send_keys('你的手机号')
  33. web.find_element_by_xpath('//*[@id="fm-login-password"]').send_keys('你的密码')
  34. # 点击登录
  35. web.find_element_by_xpath('//*[@id="login-form"]/div[4]/button').click()
  36. time.sleep(2)
  37. # 搜索商品并回车
  38. web.find_element_by_xpath('//*[@id="q"]').send_keys('电脑', Keys.ENTER)
  39. time.sleep(3)
  40. # 验证淘宝滑块,在前三秒也可以手动滑块,因为不确保自动滑块能成功
  41. try:
  42. yz = web.find_element_by_xpath('//*[@id="baxia-punish"]/div[2]/div/div[1]/div[2]/div/p').text
  43. if yz == '通过验证以确保正常访问':
  44. while 1:
  45. # 获取滑块的大小
  46. span_background = web.find_element_by_xpath('//*[@id="nc_1__scale_text"]/span')
  47. span_background_size = span_background.size
  48. # print(span_background_size)
  49. # 获取滑块的位置
  50. button = web.find_element_by_xpath('//*[@id="nc_1_n1z"]')
  51. button_location = button.location
  52. # print(button_location)
  53. # 拖动操作:drag_and_drop_by_offset
  54. # 将滑块的位置由初始位置,右移一个滑动条长度(即为x坐标在滑块位置基础上,加上滑动条的长度,y坐标保持滑块的坐标位置)
  55. x_location = span_background_size["width"]
  56. y_location = button_location["y"]
  57. # print(x_location, y_location)
  58. action = ActionChains(web)
  59. source = web.find_element_by_xpath('//*[@id="nc_1_n1z"]')
  60. action.click_and_hold(source).perform()
  61. action.move_by_offset(x_location, 0)
  62. action.release().perform()
  63. time.sleep(1)
  64. try:
  65. web.find_element_by_xpath('//*[@id="`nc_1_refresh1`"]').click()
  66. time.sleep(3)
  67. except:
  68. pass
  69. except:
  70. with open('taobao.csv', mode='a', newline='', encoding='gbk') as fp:
  71. csvwriter = csv.writer(fp, delimiter=',')
  72. csvwriter.writerow(['info', 'price', 'deal', 'name'])
  73. Allpage = 3
  74. count = 0
  75. while count < Allpage:
  76. count += 1
  77. print('-------------------正在爬取第%d页---------------------' % count)
  78. get_page(web)
  79. web.find_element_by_xpath('//*[@id="mainsrp-pager"]/div/div/div/ul/li[8]/a/span[1]').click()
  80. print('------------------------')
  81. time.sleep(5)
  82. web.close()
  83. web.quit()

最好不要用自己的账号过多的爬取,可能会封号。