早上打开生财有术,看到亦仁大佬发的这篇文章https://t.zsxq.com/11ia0VQxf,感叹大佬勤奋之余,更多的是ChatGPT对大家的提效实实在在看得到。其实还有一种方法,可以利用ChatGPT,零代码实现爬取网页数据的方法,于是花点时间写下来分享给大家。这对没任何开发经验的大佬们,可能能带来些许帮助。具体怎么实现的呢?请大家继续往下看。


大家都知道,GPT 4有个功能叫“Code Interpreter”,近几天改名为“Advanced Data Analysis”,如下图所示:

这个功能,业内称之为GPT 4.5,就是他可以直接自己写代码并执行,实现了简易版的AI Agent功能。因此,它的功能十分强大,不仅可以上传文件,通过代码实现数据分析报表、更可以实现图片编辑、PDF数据读取等等。更多强大功能这里不做赘述。


我们回归主题,如何实现不需要编码将网页上的数据爬取下来为我所用,以下是详细的步骤:


1、将需要爬取的网页下载下来,很简单,就是鼠标停留在网页上,然后鼠标右键,另存为mhtml文件即可,如下图所示:



2、上述案例,是爬取生财有术精华帖索引工具网站中,关于小红书店铺中标的风向标内容做演示,网页详细地址请点击这里(这里仅做演示作用,非引导爬取生财网站哈~)。其中,另存为的文件为mhtml文件,如果你保存的是html文件也可以。其二者的区别是,mhtml文件是包含了静态资源,包括css样式文件和js文件及图片等,方便打开的时候还可以还原网页的内容,而html文件,就只有网页本身的代码,不会将css样式文件及js文件、图片等资源一起保存下来。


3、打开ChatGPT,勾选上Advanced Data Analysis,将刚下载下来的mhtml文件上传,然后告诉ChatGPT你需要爬取的内容,这里为了让ChatGPT更精准的获取我想要的内容,我在提示词中,给他指定了具体的内容对应的CSS样式对应的class的值,这里可能需要一点点代码基础,如果没有也很简单,如何查找获取class的值,只需要在当前网页按下F12键,打开源码模式,鼠标选中想要爬取的内容,请看下方动图:



4、上述提示词仅做参考,大概意思如上,让ChatGPT直接处理并输出一个csv文件即可,最终执行结果如下:




5、上述内容可以看到,由于第一个提示词中,我忽略了让他处理中文的问题,导致来回折腾了几下,最终才输出符合预期的内容。将最终的CSV文件下载下来后,用Excel或WPS打开后,内容如下:


以上,就是我想给大家分享的利用GPT 4零代码实现爬虫的所有内容,仅抛砖引玉,希望对各位大佬能有些许帮助。


我是毅鸣,在2月份利用ChatGPT写过一本电子书《ChatGPT从入门到精通》,且有幸拿到了生财给的一颗龙珠。

原贴是:https://t.zsxq.com/11NJz2LL9


最后,分享几篇我输出在公众号的文章,也希望能给大家带来些许帮助。

利用ChatGPT写出高质量原创自媒体文章,深度掌握提问技巧,看这一篇就够了!

强大的Notion AI,底层prompt提示词揭秘(值得收藏)

利用这个AI插件,可实现3分钟读完一本书





Comments on "利用ChatGPT,不写一行代码,轻松获取网页内容" :

Leave a Reply

Your email address will not be published. Required fields are marked *

本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。 若排除这种情况,可在对应资源底部留言,或联络我们。

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。

如果您已经成功付款但是网站没有弹出成功提示,请联系站长提供付款信息为您处理

源码素材属于虚拟商品,具有可复制性,可传播性,一旦授予,不接受任何形式的退款、换货要求。请您在购买获取之前确认好 是您所需要的资源