怎样通过ChatGPT编写Python爬虫工具，生财AI编程航海带给我们的潜在机会？

最近参加了生财有术的“AI编程（爬虫）”航海。在此之前，我已经在ChatGPT编程领域做了一些探索和实践，并在生财分享了3篇ChatGPT编程相关的文章，其中两篇收获了精华：

工具站新手怎样通过ChatGPT编程落地工具站产品

如何通过ChatGPT Code Interpreter生成视频特效和编写代码实现Chrome插件

怎样在航海21天通过ChatGPT编程上线20个Chrome插件

ChatGPT正在帮助我实现一些力所能及但过去难以落地的产品。本次航海希望跟随教练的思路和手册的指引，学习更多AI编程思路，补充自己的盲点和不足，争取通过ChatGPT编写出更多有价值的产品。于是，有了接下来一系列的实践和探索。

声明：由于本文涉及一些平台的内容爬取，因此仅限学习交流，请勿做任何不合规的内容采集，本文也将隐去所有相关平台的网址和名称。

通过ChatGPT编写爬虫工具爬取网站文章

通过ChatGPT编写爬虫工具爬取网站图片

解决验证码校验，编写爬虫工具爬取电商网站产品

解决反自动化检测，编写爬虫工具爬取某网站笔记

通过ChatGPT改写爬虫工具爬取某问答网站文章

构建一个生成爬虫程序的GPTs

把爬虫程序封装成一个工具产品及其潜在机会

通过ChatGPT编写爬虫工具爬取网站文章

我们先按生财航海手册中的提示词来测试一下通过ChatGPT编写爬虫工具爬取某网站文章。

提示词：

代码块写一个爬虫程序，按下面的要求在我的 windows 电脑上帮我抓取某网站文章。 1. 使用 python3 和最新版的 selenium 2. 目标网站：https://www.xxx.com/ 3. 输入关键字[ AI ]，点击[ 搜文章 ]按钮 4. 爬取内容: 爬取标题、摘要、链接、来源 5. 爬取后的内容保存到Excel文件中，Excel文件命名为AI_文章_时间 6. 爬取前5页，每爬完1页休眠5s 请给我完整可运行的程序，让我看到浏览器中操作的过程，并指导我安装程序依赖的所有库。你可以先执行步骤 2 和步骤 3 了解网页的结构，然后再生成代码。

注：“某网站”改为网站名称，目标网站改为需要爬取网页的链接。

这段提示词对我最大的启发是：

我们可以根据我们的业务理解和编程经验，尽可能详细地告诉ChatGPT我们的编程需求，提示词可以详尽到python的版本、python的类库、目标网站及其页面元素，以及执行的步骤和细节。这样最大的好处是：ChatGPT会在我们限定的范围内编写出符合我们实际业务需求的代码，避免因为存在多种解决方案和不相关业务需求使得ChatGPT给出的代码偏离我们的实际需求。

这一点非常重要，我们在通过ChatGPT编程的实践过程中发现，如果你的编程需求不那么明确，ChatGPT可能会发散编写出其它它觉得有可能正确的代码逻辑，比如说：你没有指定Python类库，它有可能会自行采用其它类库；再比如你没有指定网站需要爬取的元素，它可能会根据它过往学习的网站代码结构来指定网站的元素；再比如你没有指定爬取的页数和翻页前休眠等待5s，它可能会直接偷懒省略这些步骤，等等。这样，ChatGPT最终给出的代码可能会偏离我们的实际需求。

我分别通过GPT-4o和GPT4根据上面提示词来编写爬虫程序，二者编写出来的代码一开始都存在细微问题，但是通过与ChatGPT对话，最终都能抓取到该网站文章。相较来说，GPT-4o给出的代码问题少一点点，可能GPT-4o更智能一些，但二者均可以通过合理的对话解决这个爬虫程序的问题。（如需ChatGPT对话记录，请联系易焘）

ChatGPT给出代码后，我用我平时使用的编辑器UltraEdit进行粘贴保存（你也可以用Notepad++、记事本或者其它编辑器保存代码），打开Windows的命令行窗口（在开始菜单处通过搜索“cmd”，找到后点击鼠标右键，选择“以管理员身份运行”打开）：