百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

Python爬虫破解滑动验证码教程(selenium破解滑动验证码)

wptr33 2025-05-09 22:05 5 浏览

破解滑动验证码通常需要结合图像识别和模拟人类操作,以下是分步骤的解决方案:


1. 分析验证码类型

  • 缺口识别型:背景图带缺口,滑块图带凸块
  • 轨迹验证型:除了位置还需模拟人类移动轨迹

2. 获取验证码图片

  • 方法一:通过Selenium截图

python

from selenium import webdriver


driver = webdriver.Chrome()

driver.get(url)

bg_element = driver.find_element_by_id("bg_img")

slide_element = driver.find_element_by_id("slide_img")


# 截图并裁剪

bg_element.screenshot('bg.png')

slide_element.screenshot('slide.png')

  • 方法二:解析网络请求获取图片URL(需抓包分析)

3. 图像处理识别缺口位置

使用OpenCV进行模板匹配

python

import cv2

import numpy as np


def find_gap(bg_path, slide_path):

# 读取图片

bg = cv2.imread(bg_path) # 背景图

slide = cv2.imread(slide_path) # 滑块图


# 灰度化处理

bg_gray = cv2.cvtColor(bg, cv2.COLOR_BGR2GRAY)

slide_gray = cv2.cvtColor(slide, cv2.COLOR_BGR2GRAY)


# 边缘检测(可选)

bg_edge = cv2.Canny(bg_gray, 100, 200)

slide_edge = cv2.Canny(slide_gray, 100, 200)


# 模板匹配

res = cv2.matchTemplate(bg_edge, slide_edge, cv2.TM_CCOEFF_NORMED)

min_val, max_val, min_loc, max_loc = cv2.minMaxLoc(res)


# 返回缺口x坐标

return max_loc[0]


4. 计算移动轨迹

  • 直接跳转会触发反爬,需模拟人类加速-减速过程

python

def generate_track(distance):

track = []

current = 0

mid = distance * 0.8

t = 0.2

while current < distance:

if current < mid:

a = 2 # 加速阶段

else:

a = -3 # 减速阶段

v = v0 + a*t

move = v0*t + 0.5*a*t**2

current += move

track.append(round(move))

v0 = v

return track


5. 执行拖动操作

使用Selenium模拟

python

from selenium.webdriver import ActionChains


slider = driver.find_element_by_id("slider")


# 生成轨迹

distance = find_gap("bg.png", "slide.png")

track = generate_track(distance)


# 拖动操作

ActionChains(driver).click_and_hold(slider).perform()

for x in track:

ActionChains(driver).move_by_offset(x, 0).perform()

ActionChains(driver).release().perform()


6. 高级反爬应对策略

  1. 轨迹检测:添加随机Y轴偏移

python

track.append((x, np.random.randint(-2,3)))

  1. Canvas指纹:使用无头浏览器(Puppeteer/Playwright)
  2. 参数加密:逆向JS分析加密逻辑
  3. 深度学习:使用YOLO等模型定位缺口

注意事项

  • 合法合规:仅用于授权测试
  • 代理IP:防止IP被封禁
  • 请求间隔:添加随机等待时间
  • 验证结果:检查是否返回成功Token

完整示例代码

python

# 需安装:selenium, opencv-python, numpy

import cv2

import numpy as np

from selenium import webdriver

from selenium.webdriver import ActionChains


def crack_slide_captcha():

driver = webdriver.Chrome()

driver.get("https://example.com/login")


# 获取验证码图片

bg = driver.find_element_by_id("bg-img")

slide = driver.find_element_by_id("slide-img")

bg.screenshot("bg.png")

slide.screenshot("slide.png")


# 计算缺口位置

gap_pos = find_gap("bg.png", "slide.png")


# 模拟拖动

slider = driver.find_element_by_id("slider")

track = generate_track(gap_pos)


ActionChains(driver).click_and_hold(slider).perform()

for x in track:

ActionChains(driver).move_by_offset(x, 0).perform()

ActionChains(driver).release().perform()


return driver.get_cookies()


对抗升级方案

  • 使用Pyppeteer隐藏自动化特征
  • 调用第三方打码平台(人工识别)
  • 部署深度学习模型(需标注数据集)

实际应用中需根据目标网站的具体实现动态调整方案。

相关推荐

MySQL合集-innobackupex在线备份及恢复(全量和增量)

Xtrabackup是由percona开发的一个开源软件,它是innodb热备工具ibbackup(收费的商业软件)的一个开源替代品。Xtrabackup由个部分组成:xtrabackup和innob...

MySQL合集-单机容器化

MySQL单机容器化mkdir-p/opt/mysql/{data,etc}cpmy.cnf/opt/mysql/etc#dockersearchmysqldockerpullm...

MySQL合集-小版本升级指南

下载最新的mysqlwgethttps://cdn.mysql.com//Downloads/MySQL-5.7/mysql-5.7.38-linux-glibc2.12-x86_64.tar.gz...

Mysql 数据库运维方案

前言...

如果忘记了 WAMP 中本机数据库(MySQL)的密码,该怎么办?

如果忘记了WAMP中本机数据库(MySQL)的密码,可以通过以下步骤来重置:停止MySQL服务:打开WAMP,点击“停止所有服务”,或者右键点击WAMP图标,在菜单中选择“MySQL...

Linux服务器日常巡检脚本分享

Linux系统日常巡检脚本,巡检内容包含了,磁盘,...

在 SpringBoot 中设计一个订单号生成系统,原理,架构与实战

在SpringBoot中设计一个订单号生成系统,原理,架构与实战首先,我得考虑订单号的基本要求。通常订单号需要唯一性,不能重复,否则会出大问题。然后可能还要有一定的可读性,比如包含日期、时间或者业...

K8S官方java客户端之七:patch操作

欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容:所有原创文章分类汇总及配套源码,涉及Java、Docker、Kubernetes、DevOPS等;...

浅谈Kubernetes CRD和Operator的原理和使用方法

总结CRD的全称是CustomResourceDefinition,是Kubernetes为提高可扩展性,让开发者去自定义资源(如Deployment,StatefulSet等)的一种方法....

kubernetes实用操作:kubectl命令行工具使用全面总结

kubectl作为客户端CLI工具,可以让用户通过命令行对Kubernetes集群进行操作。本节对kubectl的子命令和用法进行详细说明。kubectl用法概述kubectl[command][...

ceph rbd块存储挂载及文件存储建立

cephrbd块存储挂载及文件存储建立一、rbd块存储挂载1创建一个OSDpool...

odps sql中常用的时间处理方法

1、获取当前时间selectgetdate();2、获取昨天(字符串格式)selectto_char(dateadd(getdate(),-1,'dd'),'yyyymmd...

每天一个 Python 库:datetime 模块全攻略,时间操作太丝滑!

在日常开发中,时间处理是绕不开的一块,比如:...

时序异常检测工具:ADTK

1adtk简介智能运维AIOps的数据基本上都是...

又一批长事务,P0故障谁来背锅?

最近几周,发生过多起因为事务问题引起的服务报错。现象为...