大家好,我是米佑,本文是我使用AI智能体进行AI代写项目(流量端)行动的一些探索,分享给大家。
在AI代写流量端行动中,有大量的环节是需要手工操作完成,譬如 搜索关键字、浏览商品、与买家/卖家对话等等。但作为一只职场牛马忙起来的时候,没有太多时间在某鱼或某书上进行操作。
我就想:当前 AI 大模型的“视觉”能力迭代日新月异, AI智能体已经具备“看清”并“操作”手机/电脑的能力,替我完成一些特定的操作,这并非不可能。
因此,我探索了使用 AI 智能体 在 手机端和电脑端完成特定的引流动作,以下是详细操作和复盘。
AI 智能体的通俗定义
AI 智能体(AI Agent)是能自主感知环境、决策并执行动作的智能程序或系统,目标是完成特定任务。
(一句话版:会观察、思考、行动的AI助手。)

DeepSeek 对 AI 智能体的描述
实战回放
之久额看看AI智能体控制手机和电脑的实战录屏视频。
以下视频展示了AI智能体对指定的任务的思考、观察和行动的全过程。
AI智能体控制手机演示视频 执行手机端的任务说明: 1.在当前应用顶部搜索栏填入“医学SCI”。 2.点击输入框旁边的“搜索”按钮进行搜索,等待结果返回。 3.搜索结果出来后,点击第二个搜索结果打开新页面。 4.在新网页中点击黄色的“聊一聊“按钮。 5.在打开的聊天页面中,输入消息:“亲,怎么卖啊?”,点击黄色“发送”按钮。
AI智能体控制电脑演示视频 执行电脑端的任务说明: 1. 在当前应用顶部搜索栏填入“医学SCI”。 2.点击输入框旁边的“搜索”按钮进行搜索,等待结果返回。 3.搜索结果出来后,点击第三个搜索结果打开新页面。 4.在新网页中点击黄色的“我想要“按钮。 5.在打开的聊天页面中,输入消息:“亲,怎么卖啊?”,点击黄色“发送”按钮。
技术选型
有了想法和探索方向后,我调研了业内的一些主流的做法,简单易上手是本次探索的重要考量因素。
经过粗略的对比,选出能让小白也能快速上手的实操方案,力求大家跟着文章就能自己探索和验证。
视觉大模型
大模型是本次探索的核中核,我选用的是 Qwen-VL。
Qwen-VL 是阿里云通义千问团队开发的多模态视觉语言模型系列,具备强大的图像理解、视频解析、文档处理以及 AI 智能体(Agent)能力。
核心能力小结:
视觉理解与推理能力
图像识别:能精准识别物体、文本、图表、图标等,支持像素级定位,例如检测未戴头盔的摩托车手。
文档解析:擅长处理复杂文档(如发票、表格、论文),支持结构化输出(如 JSON 或 HTML 格式),可还原版面布局。
视觉推理:能分析流程图、数学图表,进行多步骤逻辑推理(如计算卡车行驶时间)。
AI 智能体(Agent)功能
为了更好的阅读体验,来飞书看吧:
https://wimch1f60ch.feishu.cn/docx/Rfb7dnl1konPwixmr4FciNAonqe
Comments on "用AI智能体控制你的手机和电脑!探索使用AI智能体进行 AI代写项目(流量端)实战复盘(附从0到1的上手教程)" :