本应该早点将代码写完的,当然目前对这个版本自己也不是很满意。
4.10写好爬虫之后往AI开发网站3群-3月航海群里一丢,就一直出去浪了。
一、网站开发设想版本
自己的思路如下
1.域名查询
对execl表格里面的内容进行数据分析Toolify_Top_AI_Revenue_Rankings_CN_20250411.xlsx,
对D列的域名进行访问后,https://query.domains/进行分析,提取里面所有的数据自动填充到表格
2.wappalyzer分析
然后使用wappalyzer进行指纹分析,提取里面所有的关键数据自动填充到表格
3.AITDK
使用浏览器插件AITDK对页面进行分析,提取所有的关键数据自动填充到表格
4.imilarweb
使用浏览器插件Similarweb页面进行分析,提取所有的关键数据自动填充到表格
5.deepseek对整体进行分析
使用deekseep对上整体结果进行输出,提取所有的关键数据自动填充到表格
Cursor帮我写一个爬虫然后调用各种工具帮我自动化进行填充内容,达到自动化分析的效果。
如下流程图,这才是我设想需要完成的版本all in one。
4.15本是想借助AI编程工具aipy(爱派)帮我完成一整套all in one流程进行分析,尝试了一下直接输入域名,效果不太理想,可能是提示词有问题,目前还做不到自动一键自动完善所有步骤
4.10使用cursor完善爬虫爬取https://www.toolify.ai/Best-AI-Tools-revenue榜单508个,保存到excel表格Toolify_Top_AI_Revenue_Rankings_CN_20250410.xlsx里面,4.11对表格进行链接优化,在手动访问的时候也发生了很多有意思的事情,在群里的小伙伴应该都知道。
一、爬虫抓取部分抓取当日榜单
分析https://www.toolify.ai/zh/Best-AI-Tools-revenue 页面采用什么技术,一看大致采用懒加载(延时加载)的步骤。
用流程拆解的划分为三步
1.先网页加载到底部进行判断是否在底部
2.抓取页面数据,爬虫文件保存到output文件夹下面toolify-analysis\output\toolify_data\文件夹下面
二、分析太慢开启gpu进行辅助
之前一次处理一个太慢,直接开启gpu多线程辅助分析。参数可选,需要安装cuda。
三、调用deepseek
4.18完善调用deepseekapi对产品toolify-analysis\output\toolify_data\的榜单进行分析,在本地进行保存,excel里面直接保存结果,md文件根据excel编号自带排名。
markdown文件地址包含排名编号,也支持表格阅读、借助deepseek榜单完善自动化分析,
输出直接保存在toolify-analysis\output\toolify_analysis_当日日期文件下下面
二、完整分析包含产品信息、产品分析框架、评分体系、可执行洞察、经验教训
产品信息
📊 排名:
💰 收入:
🔗 产品链接:
🔍 分析链接:
👀 月访问量:
🏢 公司:
🗓️ 成立日期:
💲 定价:
📱 平台:
🔧 核心功能:
🌐 应用场景:
⏱️ 分析时间:
🤖 分析工具:
产品分析框架
为了更好的阅读体验,来飞书看吧:
https://tcnptxvgf3g4.feishu.cn/docx/HYWBd1hH9optKPxGB4WcNi0Nnih
Comments on "爬取toolify榜单,使用deepseek对toolify收入最高排行榜[507]榜单AI辅助自动化分析" :