Web自动化——介绍与selenium之八大元素定位(五)
创始人
2025-05-29 14:11:13
0

1.自动化本质:

用代码模拟鼠标或键盘对浏览器进行操作

其中包含三个对象:代码,浏览器,浏览器驱动,三者关系:

代码驱动浏览器驱动

浏览器驱动解析代码,并驱动浏览器

浏览器按指令操作

2、环境配置:

2.1 安装浏览器
检查系统有无浏览器,没有则安装(建议先查看有没有对应的驱动,根据驱动版本下载相应的浏览器)

2.2 安装浏览器对应的驱动,并将驱动文件放到python安装目录下
查看浏览器版本,根据浏览器版本下载驱动,将.exe文件放至python安装路径下

2.3 安装selenium

ctrl+r -->cmd-->pip install selenium

2.4 检查环境

from selenium import webdriver
driver=webdriver.Chrome()

运行后弹出窗口,打开浏览器则环境配置成功

image.png

环境配置成功后就可以进行相关操作了。

3. 元素定位

  1. Web页面的元素

1)图片

2)链接

3)文本框

4)按钮

5)下拉列表

6)视频

……

比如百度的首页,在这张页面上有输入框、按钮和文字链接等,自动化要做的就是模拟鼠标和键盘来操作这些元素,或单击,或输入等。 操作这些元素的前提是要找到它们,如何来找到它们?这就需要用到元素定位的方法来找到相应的元素再进行操作

4. 元素定位的方法

1)id

2)name

3)class name

4)tag name

5)link text

6)partial link text

7)css selector

8)xpath

5. 8大定位:

# 引入库
from selenium import webdriver# 打开谷歌浏览器,建立会话。启动Chromedriver.exe  打开Chrome
driver = webdriver.Chrome()      # 启动谷歌浏览器
# driver = webdriver.Firefox()   # 启动火狐浏览器
# driver = webdriver.Ie()        # 启动IE浏览器# 访问百度首页
driver.get("http://www.baidu.com")# 窗口最大化
driver.maximize_window() 

1. id定位—首选

#id定位,属性 + 操作 = 返回 webELement 对象
ele1 = driver.find_element_by_id("kw")
print(ele1)

2. 标签名定位 tag_name(译:泰格.内幕),不能唯一的找到特定的元素

ele2 = driver.find_element_by_tag_name("input")  # (译:泰格.内幕)在dom页面当中,匹配到的第一个元素
print(ele2)
eles = driver.find_elements_by_tag_name("input")    # 列表,元素为webELement对象  全部匹配的元素
print(eles)

3.class_name 定位  (不能唯一的找到特定的元素

driver.find_element_by_class_name("s_ipt")
driver.find_elements_by_class_name("s_ipt")

4.name 定位 不唯一

driver.find_element_by_name("wd")
driver.find_elements_by_name("wd")

以上四种元素定位针对所有元素

5.link_text 定位,完整匹配文本值

driver.find_element_by_link_text("更多产品")  

6.partial_link_text 定位,(扒手.理科.泰克斯特)部分匹配上

driver.find_element_by_partial_link_text("产品") 

1 开发不一定写,2、3、4、5、6 定位方法结果不唯一,不经常用

7. xpath 定位(谷歌)

语法

/:

-   绝对定位   —— 一般不用,兼容性太差,太依赖位置

//:

-   相对定位 —— 一般用相对定位,来进行定位
-   从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置  

.:

-   选取当前节点  

…:

-   选取当前节点的父节点  

@:

-   选取属性
-   @class="xxx" , 属性放在中括号 【】中    

*:

-   通配符。匹配所有 //*  

@*:

-   通配符。匹配所有属性 //*[@*="hello"]  

多条件查询,使用逻辑查询

-   and        全部为真
-   or          其中一个为真
-   语法://input[@id="kw" and @name="wd"]

浏览器的快捷键    F12  ---->   Ctrl + F 打开定位栏

1、使用:标签名 + 节点属性定位   (可以家  and   or)
  • 语法://标签名[@属性名=值]
  • //input[@id=“kw” and @name=“wd”]

2、使用:文本内容匹配:函数:text()
  • 文本全部匹配:text()=“文本内容”

    • //a[text()=“更多产品”]
  • 文本部分匹配:contains(text(),部分文本内容)

    • (译:康ten死)
    • //a[contains(text(),“产品”)]

3、通过部分属性值匹配
  • 语法://标签名[contains(@属性名,部分属性值)]
  • //a[contains(@href,“om/more/”) and @class=“bri”]

4、层级定位:
  • 先确定节点的父节点,在找子节点;单斜杠只能找到儿子级,不能找到孙子级;双斜杠兼容新高
  • //div[@id=“u1”]//a[@name=“tj_login”]

5、xpath轴定位语法

使用语法:使用单斜杠

已知的元素定位/下面的轴名称::标签名称[@属性=值]

例://p[@title=“2016”]/following-sibling::p[@class=“name”]

image.png
轴名称及意思

ancestor:(译:昂赛斯 特儿)

  • 当前节点之前的所有父节点

parent:(译:潘润特)

  • 当前节点的父节点

preceding:(译:普瑞sei定)

  • 当前节点之前的所有节点

preceding-sibling:(译:普瑞 sei 定。塞玻璃)

  • 当前节点之前的所有同级节点

following:(译:fao lin)

  • 当前节点之后的所有节点

following-sibling:(译:fao lin 。塞玻璃)

  • 当前节点之后的所有同级节点

child

  • 当前节点的子节点

self

  • 当前节点本身

8. css 定位------自行搞定

css  效率比较高,难学,表达式比较长,可能看不懂;

xpath 是比css效率低,但是 xpath 稳定,简单

都是万能定位掌握一种就可以了

浏览器自带的css、xpath、js定位方式

image.png

以上就是常用的元素定位方法,大多数元素可以用以上方法定位到,如果有特殊元素无法定位,可以参考xpath的轴定位方式。

 from selenium import webdriver
import time# 打开谷歌浏览器,建立会话。启动Chromedriver.exe  打开Chrome
driver = webdriver.Chrome()# 访问百度首页
driver.get("http://www.baidu.com")
time.sleep(2)   # 强制等待2秒
# 定位某度首页登录按钮,点击登录按钮
driver.find_element_by_xpath('//div[@id="u1"]//a[@name="tj_login"]').click()
time.sleep(2)   # 强制等待2秒
driver.quit()   # 关闭浏览器

6. selenium模块中的find_element_by_id方法无法使用,改用driver.find_element(by=By.ID, value=None)

如果遇到找不到方法的情况,如果自己的版本是最新的版本,那么很有可能这种方法已经不用了

可以去查看一下官方的文档,或者直接查看配置文件,对自己的代码进行修改

driver.find_element(By.XPATH, '//*[@id="kw"]') 
# 根据xpath选择元素(万金油)
driver.find_element(By.CSS_SELECTOR, '#kw') 
# 根据css选择器选择元素
driver.find_element(By.NAME, 'wd') 
# 根据name属性值选择元素
driver.find_element(By.CLASS_NAME, 's_ipt') 
# 根据类名选择元素
driver.find_element(By.LINK_TEXT, 'hao123') 
# 根据链接文本选择元素
driver.find_element(By.PARTIAL_LINK_TEXT, 'hao') 
# 根据包含文本选择
driver.find_element(By.TAG_NAME, 'title') 
# 根据标签名选择
# 目标元素在当前html中是唯一标签或众多标签第一个时候使用
driver.find_element(By.ID, 'su') 
# 根据id选择

总结

最后送上一句话:
世界的模样取决于你凝视它的目光,自己的价值取决于你的追求和心态,一切美好的愿
望,不在等待中拥有,而是在奋斗中争取。

相关内容

热门资讯

不良率上升倒逼防线前移 银行收... 银行正在给个人信贷风控“上强度”。上海证券报记者近期自业内多方了解到,不少银行零售信贷业务从审批权限...
自媒体新手如何快速涨粉?这5个... 自媒体新手如何快速涨粉?这5个技巧让你少走弯路! 嗨,我是小融。 最近很多刚入门自媒体的朋友问我,怎...
乌兰察布市财政局关于黄金领域非... 乌兰察布市财政局关于黄金领域 非法金融活动风险提示 近期,黄金价格波动频繁,市场热度持续攀升,各类假...
一只鸡蛋架“直发”俄罗斯 无锡... (来源:无锡新传媒) 转自:无锡新传媒 一只3D打印塑料鸡蛋架,成为无锡国际邮件互换局正式开通运营后...
武汉楼市开启红五月 新房成交量... 原标题:武汉楼市开启红五月 数据爆表,新房成交量较去年同期翻番 武汉城建未来中心项目营销中心现场来...
一家精神病院竟现身A股公司前十... 5月8日,有投资者发现,盛通股份前十大股东名单中,竟出现了一家精神病院的身影。这家精神病院全称为“上...
真的老了!哈登心魔难除 骑士还... 哈登又拉胯了。 刚刚过去的两场东部半决赛,骑士都输的相当狼狈,而哈登的发挥更是灾难级的。 半决赛G1...
精神病院通报成上市公司前十大股... 近日,上市公司盛通股份发布一季报,披露了前十大股东名单。其中,一家名为“上饶市广丰区十五岭山精神病医...
天溯计量发布年报 上市首年检测... 转自:中国经营网 文 近日,计量检测机构天溯计量(301449.SZ)发布了2025年年度报告。年...
原创 全... 美伊真要停火了? 一页纸协议让全球油价闪崩! 就在今天,全球市场被一条消息炸开了锅。美国白宫觉得,他...
百信银行业绩:26Q1净利润大... 4月底,中信百信银行股份有限公司(下称“百信银行”)2025年财报及2026年一季度报接连披露—— ...
美光科技股价单周飙升38% 市... 【CNMO科技消息】受全球内存芯片短缺影响,美光科技股价本周大幅上涨。截至周五收盘,美光股价报746...
江西一精神病院炒股,炒成上市公... 近日,上市公司盛通股份(002599.SZ)发布一季报,披露了前十大股东名单,其中一家名为“上饶市广...
专访中国太保副总裁俞斌:从“+... 拥抱AI(人工智能),不再是保险行业的“选择题”,而是关乎企业生存与发展的“必答题”,更是企业决胜未...
多平台优化算法:美团取消超时扣... 图片来源:界面图库 5月8日,网信中国发布消息称,生活服务类平台算法治理已取得初步成效,美团、淘宝、...
原创 2... 2025年,国内系统重要性银行名单正式公布。这是我国金融体系的核心支柱,一共21家银行入选,它们是维...
东海县供销总社:“供销+龙头企... 近日,东海县供销合作总社鼎味泰直营店正式开业。作为东海县供销系统打造的新型社企便民服务网点,该门店的...
原创 阿... 深夜,一家零食店铺的客服后台弹出一条消息:“我上次买的芒果干,这次想换个不那么酸的口味,再帮我推荐几...
和平湾全新项目前瞻 负公摊、唯... 在沈阳,如果想在主城核心区域找一块容积率低于1.5的住宅用地,难度有多大? 过去三年,沈阳主城核心区...
精神病院与国际投行高盛同在 盛... 近日,盛通股份(002599.SZ)发布一季报,其前十大股东名单中,第九位为“上饶市广丰区十五岭山精...