AI编程实践：长图文字识别工具的开发之旅

本人是一名后端程序员，工作中使用AI编程工具是:Trae，主要是因为它能够免费的使用claude系列模型，这个系列的模型在代码方面非常给力。下面分享的是自己帮朋友做的一个小工具，总共耗时2小时。

1. 初始需求与灵感

大家好，我是时光。下面给大家分享一下我用AI辅助制作长图文字识别工具的过程，包含实现思路和复盘思考。

3月19日晚上快12点了，我刚刚完成其他破局行动的打卡，无意间看到了洋哥发的帖子，号召大家用AI编程实现一些工具。看到这个帖子，我却有些迷茫——到底应该做什么工具呢？

就在我思考的时候，一位朋友向我提出了一个实际需求：

"你能不能帮我实现一个图片裁剪工具，我可以提供一个长图，希望能够设置高度，按照高度裁剪。"

这个具体的需求立刻让我找到了尝试的机会。有明确问题比漫无目的地探索要高效得多。

2. 第一阶段：图片裁剪工具的实现

考虑到只是个人使用，我决定采用最简单高效的方式实现——纯前端HTML页面。这种方式无需安装任何软件，只要有浏览器就能打开使用。

我打开Trae，输入了详细的提示词：

"我希望用html实现一个图片切割工具，可以上传图片，按照高度裁剪，网页支持预览功能，可以导出裁剪后的图片，以压缩包的形式下载"

AI直接生成了功能完整的HTML界面，包含了所有必要功能，测试后效果良好。这种简单的前端任务正是AI的强项，只需要清晰描述需求，AI就能快速生成可用的代码。

此时html、css、js都在一个文件是为了方便使用者方便。

3. 需求升级：添加文字识别功能

完成基础功能后，我朋友提出了更高级的需求——能否实现文字提取？

她解释道，她原本是希望把微信群聊天记录整理出来，但因为长图限制，需要先切割再逐一提取文字，过程繁琐。

我立即意识到这是个典型的OCR(光学字符识别)应用场景。OCR是一种能够将图片中的文字转换成可编辑文本的技术，现在很多手机扫描文档的功能就是用的这项技术。

为了更好的阅读体验，来飞书看吧：

Comments on "AI编程实践：长图文字识别工具的开发之旅" :

Your email address will not be published. Required fields are marked *

Comment *

Name *

Email *

Comments on "AI编程实践：长图文字识别工具的开发之旅" :