前言

大家好,我是小木,有多年移动端研发经验的程序员,昨天看到群里大家聊《内容工厂Agent》1分钟就报名结束还报不上,而里面的核心技术playwright和工作流刚好我都懂,这里分享一下这2个技术栈。

本文用一个基础案例分享整个方案原理,掌握这个方法后,你可以自动化获取任何网页内容。

Playwright是什么

来个ai解释:

Playwright 是一个功能强大的 Node.js 库(同时也支持 Python, Java 和 .NET),它提供了一套统一的 API 来自动化控制 浏览器引擎。源码地址:https://github.com/microsoft/playwright

安装:可自行ai解决。

工作原理:

项目里内置了Chromium、Firefox 和 WebKit三个浏览器内核依赖,可以看源码里的配置文件。

https://github.com/microsoft/playwright/blob/main/package.json

代码块 "ctest": "playwright test --config=tests/library/playwright.config.ts --project=chromium-*", "ftest": "playwright test --config=tests/library/playwright.config.ts --project=firefox-*", "wtest": "playwright test --config=tests/library/playwright.config.ts --project=webkit-*",

这三个依赖给playwright提供了浏览器运行环境,而playwright这个库的核心功能集成了各个浏览器环境里的点击事件,它提供了一套统一的 API 来自动化控制浏览器。https://playwright.dev/docs/api/class-playwright

代码块 举例: 比如你要在百度查深圳今天的天气,拆解下就是: 1.打开网页,输入www.baidu.com。 2.在输入框输入"今天深圳天气怎么样"。 3.看结果。 在playwright里面的执行过程就是: 1.模拟出浏览器环境:chiom.init()。 2.在浏览器环境里输入网址,page.goto("www.baidu.com")。 3.看结果,getResponse()。

Ok,到这里你因该理解,模拟人操作的核心就是记录下页面的点击顺序和输入内容。

点击顺序编排:

打开浏览器,这里以chrom浏览器为例,打开浏览器开发者模式:ctrl + shift + i

获取页面元素的id,如果不会,也可以右键复制出整个element让ai帮你提取出id。

2.记录下这些id,你就可以写好顺序借助ai开发出一个点击流prompt

代码块 步骤1: 访问并点击登录 - 访问 https://apm.umeng.com (headless: false) - 点击登录链接(选择器: .link-login) - 等待1秒 步骤2: 切换到账号密码登录并填写表单 重要:登录页面默认显示微信扫码登录,需要先切换到账号密码登录 - 执行JavaScript切换登录方式: ```javascript // 显示账号密码登录表单 const iframe = document.querySelector('#alibaba-login-box'); let current = iframe; while (current) {

为了更好的阅读体验,来飞书看吧:

https://ga4i590cbm.feishu.cn/wiki/GhV8wsc3OixZgKkggbScE9ucnkB

Comments on "Playwright结合n8n抓取网页数据​" :

Leave a Reply

Your email address will not be published. Required fields are marked *

本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。 若排除这种情况,可在对应资源底部留言,或联络我们。

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。

如果您已经成功付款但是网站没有弹出成功提示,请联系站长提供付款信息为您处理

源码素材属于虚拟商品,具有可复制性,可传播性,一旦授予,不接受任何形式的退款、换货要求。请您在购买获取之前确认好 是您所需要的资源