本人是一名后端程序员,工作中使用AI编程工具是:Trae,主要是因为它能够免费的使用claude系列模型,这个系列的模型在代码方面非常给力。下面分享的是自己帮朋友做的一个小工具,总共耗时2小时。

1. 初始需求与灵感

大家好,我是时光。下面给大家分享一下我用AI辅助制作长图文字识别工具的过程,包含实现思路和复盘思考。

3月19日晚上快12点了,我刚刚完成其他破局行动的打卡,无意间看到了洋哥发的帖子,号召大家用AI编程实现一些工具。看到这个帖子,我却有些迷茫——到底应该做什么工具呢?

就在我思考的时候,一位朋友向我提出了一个实际需求:

"你能不能帮我实现一个图片裁剪工具,我可以提供一个长图,希望能够设置高度,按照高度裁剪。"

这个具体的需求立刻让我找到了尝试的机会。有明确问题比漫无目的地探索要高效得多。

2. 第一阶段:图片裁剪工具的实现

考虑到只是个人使用,我决定采用最简单高效的方式实现——纯前端HTML页面。这种方式无需安装任何软件,只要有浏览器就能打开使用。

我打开Trae,输入了详细的提示词:

"我希望用html实现一个图片切割工具,可以上传图片,按照高度裁剪,网页支持预览功能,可以导出裁剪后的图片,以压缩包的形式下载"

AI直接生成了功能完整的HTML界面,包含了所有必要功能,测试后效果良好。这种简单的前端任务正是AI的强项,只需要清晰描述需求,AI就能快速生成可用的代码。

此时html、css、js都在一个文件是为了方便使用者方便。

3. 需求升级:添加文字识别功能

完成基础功能后,我朋友提出了更高级的需求——能否实现文字提取?

她解释道,她原本是希望把微信群聊天记录整理出来,但因为长图限制,需要先切割再逐一提取文字,过程繁琐。

我立即意识到这是个典型的OCR(光学字符识别)应用场景。OCR是一种能够将图片中的文字转换成可编辑文本的技术,现在很多手机扫描文档的功能就是用的这项技术。

为了更好的阅读体验,来飞书看吧:

https://cftfzv3x1g.feishu.cn/wiki/Z8sBwSJBjix2sgkiHBgcS0qVnqb

Comments on "AI编程实践:长图文字识别工具的开发之旅​" :

Leave a Reply

Your email address will not be published. Required fields are marked *

本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。 若排除这种情况,可在对应资源底部留言,或联络我们。

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。

如果您已经成功付款但是网站没有弹出成功提示,请联系站长提供付款信息为您处理

源码素材属于虚拟商品,具有可复制性,可传播性,一旦授予,不接受任何形式的退款、换货要求。请您在购买获取之前确认好 是您所需要的资源