最近参加了生财有术的“AI编程(爬虫)”航海。在此之前,我已经在ChatGPT编程领域做了一些探索和实践,并在生财分享了3篇ChatGPT编程相关的文章,其中两篇收获了精华:
工具站新手怎样通过ChatGPT编程落地工具站产品
如何通过ChatGPT Code Interpreter生成视频特效和编写代码实现Chrome插件
怎样在航海21天通过ChatGPT编程上线20个Chrome插件
ChatGPT正在帮助我实现一些力所能及但过去难以落地的产品。本次航海希望跟随教练的思路和手册的指引,学习更多AI编程思路,补充自己的盲点和不足,争取通过ChatGPT编写出更多有价值的产品。于是,有了接下来一系列的实践和探索。
声明:由于本文涉及一些平台的内容爬取,因此仅限学习交流,请勿做任何不合规的内容采集,本文也将隐去所有相关平台的网址和名称。
目录
通过ChatGPT编写爬虫工具爬取网站文章
通过ChatGPT编写爬虫工具爬取网站图片
解决验证码校验,编写爬虫工具爬取电商网站产品
解决反自动化检测,编写爬虫工具爬取某网站笔记
通过ChatGPT改写爬虫工具爬取某问答网站文章
构建一个生成爬虫程序的GPTs
把爬虫程序封装成一个工具产品及其潜在机会
通过ChatGPT编写爬虫工具爬取网站文章
我们先按生财航海手册中的提示词来测试一下通过ChatGPT编写爬虫工具爬取某网站文章。
提示词:
代码块 写一个爬虫程序,按下面的要求在我的 windows 电脑上帮我抓取某网站文章。 1. 使用 python3 和最新版的 selenium 2. 目标网站:https://www.xxx.com/ 3. 输入关键字[ AI ],点击[ 搜文章 ]按钮 4. 爬取内容: 爬取标题、摘要、链接、来源 5. 爬取后的内容保存到Excel文件中,Excel文件命名为AI_文章_时间 6. 爬取前5页,每爬完1页休眠5s 请给我完整可运行的程序,让我看到浏览器中操作的过程,并指导我安装程序依赖的所有库。 你可以先执行步骤 2 和步骤 3 了解网页的结构,然后再生成代码。
注:“某网站”改为网站名称,目标网站改为需要爬取网页的链接。
这段提示词对我最大的启发是:
我们可以根据我们的业务理解和编程经验,尽可能详细地告诉ChatGPT我们的编程需求,提示词可以详尽到python的版本、python的类库、目标网站及其页面元素,以及执行的步骤和细节。这样最大的好处是:ChatGPT会在我们限定的范围内编写出符合我们实际业务需求的代码,避免因为存在多种解决方案和不相关业务需求使得ChatGPT给出的代码偏离我们的实际需求。
这一点非常重要,我们在通过ChatGPT编程的实践过程中发现,如果你的编程需求不那么明确,ChatGPT可能会发散编写出其它它觉得有可能正确的代码逻辑,比如说:你没有指定Python类库,它有可能会自行采用其它类库;再比如你没有指定网站需要爬取的元素,它可能会根据它过往学习的网站代码结构来指定网站的元素;再比如你没有指定爬取的页数和翻页前休眠等待5s,它可能会直接偷懒省略这些步骤,等等。这样,ChatGPT最终给出的代码可能会偏离我们的实际需求。
我分别通过GPT-4o和GPT4根据上面提示词来编写爬虫程序,二者编写出来的代码一开始都存在细微问题,但是通过与ChatGPT对话,最终都能抓取到该网站文章。相较来说,GPT-4o给出的代码问题少一点点,可能GPT-4o更智能一些,但二者均可以通过合理的对话解决这个爬虫程序的问题。(如需ChatGPT对话记录,请联系易焘)
ChatGPT给出代码后,我用我平时使用的编辑器UltraEdit进行粘贴保存(你也可以用Notepad++、记事本或者其它编辑器保存代码),打开Windows的命令行窗口(在开始菜单处通过搜索“cmd”,找到后点击鼠标右键,选择“以管理员身份运行”打开):

为了更好的阅读体验,来飞书看吧:
https://kxgiimtbac.feishu.cn/docx/ZZnHd03PyojHUJxtmMEccS8tnQd
Comments on "怎样通过ChatGPT编写Python爬虫工具,生财AI编程航海带给我们的潜在机会?" :