python - 这个字段的src属性如何用xpath选择？

Question

{代码...} 这个字段的src属性如何用xpath选择？ 我的写法是： {代码...} 中间的xpath是从chrome直接copy的但是无法显示出src属性，最后弹出的是[]不知道哪里有问题、另外如果知道css选择器怎么写的，也可以告知一...

迷茫 · Answer

你想干啥，抓取到的html进行过滤吗？可以考虑正则查找

大家讲道理 · Answer

chrome有个工具叫xpath-helper,可以去应用商店下载，这样就可以用这个工具来检查你的xpath语法是否正确了。
另外如果语法正确，但是在程序中提取不到，这时就要考虑原网页是动态页面，需要用到jsjs解析了。

PHPz · Answer

浏览器有容错机制，对于不规范的html标签，会进行修正，所以你在控制台看到的页面结构，和你用代码请求到的页面结构可能是不一样的。
解决方案：
把选择器的范围放的松一点
使用class去定位
在代码中打断点，单步执行去定位这个标签的xpath规则

黄舟 · Answer

我一般使用bs4, 无脑解决. 用正则也行,但是伤脑

img_tag = soup.find('img', attrs=dict(class="js-refreshCaptcha captcha") )
img_tag_src = img_tag['src']

大家讲道理 · Answer

captchaUrl = ''.join(response.xpath("//img[@class='js-refreshCaptcha captcha']/@src").extract())