前言

之前在一个AI编程实战群我看到有不少圈友尝试让AI写个程序跑个爬虫总是遇到各种报错问题。详细查看了下,大部分都是没找到定位到元素的问题。

而我作为当时参与的志愿者,就顺带做了个分享,也就是这篇稿子。

我认为用好AI,是可以边学习Python语法边去实践爬虫和RPA的。这篇文章不会提及Python相关安装问题,默认已安装。

需求分析

首先,建议使用Claude 或 GPT4/4o ,目前提问代码相关的问题,我个人觉得 Claude 效果是最好的。

接下来以爬虫B站视频标题来举例说明。

我们想要去爬一个网站数据,首先要了解这个网站,B站可以不用登录简单浏览。

如果我们想爬取B站AI相关视频前100条内容,那要如何做呢?

我们把PY程序想象为人就行了,我们自己看100数据是不是一直刷?B站的话,还需要翻页。

人:刷B站,点击翻页。PY程序:看代码,点击翻页。

其实是一样的,只是PY程序看的是代码而已,它看的速度也比我们快多了。

实战演示

接下来我以无Python编程基础的方式演示一下如何爬取100条B站标题数据:

第一步 打开B站搜索AI

第二步 打开开发者模式

右键检查或打开F12,找到最左侧的这个选择元素的按钮(元素检查器),点击一下。然后鼠标移动到第一个视频的标题部分会有绿色背景显示,点击一下。这样我们就看到了相关的源码。有用过八爪鱼或后裔采集器的话,会感觉到这个步骤是类似的。所以也是说,无论用RPA/采集器其实底层原理都是一样的,编写selenium的代码可以理解为就是那个底层技术。

第三步 复制源码

为了更好的阅读体验,来飞书看吧:

https://ktnwm6ohjn.feishu.cn/docx/GM3wdFmtBoL8MfxN9aqcLkv4nob

Comments on "零基础如何用好AI来爬取数据​" :

Leave a Reply

Your email address will not be published. Required fields are marked *

本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。 若排除这种情况,可在对应资源底部留言,或联络我们。

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。

如果您已经成功付款但是网站没有弹出成功提示,请联系站长提供付款信息为您处理

源码素材属于虚拟商品,具有可复制性,可传播性,一旦授予,不接受任何形式的退款、换货要求。请您在购买获取之前确认好 是您所需要的资源