用AI智能体控制你的手机和电脑！探索使用AI智能体进行 AI代写项目（流量端）实战复盘（附从０到１的上手教程）

大家好，我是米佑，本文是我使用AI智能体进行AI代写项目（流量端）行动的一些探索，分享给大家。

在AI代写流量端行动中，有大量的环节是需要手工操作完成，譬如搜索关键字、浏览商品、与买家/卖家对话等等。但作为一只职场牛马忙起来的时候，没有太多时间在某鱼或某书上进行操作。

我就想：当前 AI 大模型的“视觉”能力迭代日新月异， AI智能体已经具备“看清”并“操作”手机/电脑的能力，替我完成一些特定的操作，这并非不可能。

因此，我探索了使用 AI 智能体在手机端和电脑端完成特定的引流动作，以下是详细操作和复盘。

AI 智能体的通俗定义

AI 智能体（AI Agent）是能自主感知环境、决策并执行动作的智能程序或系统，目标是完成特定任务。

（一句话版：会观察、思考、行动的AI助手。）

DeepSeek 对 AI 智能体的描述

实战回放

之久额看看AI智能体控制手机和电脑的实战录屏视频。

以下视频展示了AI智能体对指定的任务的思考、观察和行动的全过程。

AI智能体控制手机演示视频执行手机端的任务说明： 1.在当前应用顶部搜索栏填入“医学SCI”。 2.点击输入框旁边的“搜索”按钮进行搜索，等待结果返回。 3.搜索结果出来后，点击第二个搜索结果打开新页面。 4.在新网页中点击黄色的“聊一聊“按钮。 5.在打开的聊天页面中，输入消息：“亲，怎么卖啊？”，点击黄色“发送”按钮。

AI智能体控制电脑演示视频执行电脑端的任务说明： 1. 在当前应用顶部搜索栏填入“医学SCI”。 2.点击输入框旁边的“搜索”按钮进行搜索，等待结果返回。 3.搜索结果出来后，点击第三个搜索结果打开新页面。 4.在新网页中点击黄色的“我想要“按钮。 5.在打开的聊天页面中，输入消息：“亲，怎么卖啊？”，点击黄色“发送”按钮。

技术选型

有了想法和探索方向后，我调研了业内的一些主流的做法，简单易上手是本次探索的重要考量因素。

经过粗略的对比，选出能让小白也能快速上手的实操方案，力求大家跟着文章就能自己探索和验证。

视觉大模型

大模型是本次探索的核中核，我选用的是 Qwen-VL。

Qwen-VL 是阿里云通义千问团队开发的多模态视觉语言模型系列，具备强大的图像理解、视频解析、文档处理以及 AI 智能体（Agent）能力。

核心能力小结：

视觉理解与推理能力

图像识别：能精准识别物体、文本、图表、图标等，支持像素级定位，例如检测未戴头盔的摩托车手。

文档解析：擅长处理复杂文档（如发票、表格、论文），支持结构化输出（如 JSON 或 HTML 格式），可还原版面布局。

视觉推理：能分析流程图、数学图表，进行多步骤逻辑推理（如计算卡车行驶时间）。

AI 智能体（Agent）功能