我是怎样用DeepSeek写出知乎热榜第一、高赞第一爆文（超详尽复盘）

大家好，我是网罗灯下黑的网黑哥，有些小伙伴可能也知道我。虽然来星球已经很早了，但是很惭愧，一直都是默默看帖，今天算是第一次给星球输出干货分享，这篇文章是我发在公众号的付费文章，数据很不错，现在分享给大家。

事情是这样的，周二晚上的时候我在公众号上刷到一个选题素材，立马就决定加更一篇文章。

花了一个多小时时间， 9 点半发布出来，就是你们看到的上篇文章《号外，马斯克刚发 Grok-3，DeepSeek 就贴脸开大！》，同时，我把文章同步到了知乎平台上，当晚这篇就被顶到了高赞第一。

第二天，这篇文章所在的回答被知乎编辑到了热榜第一。

截止到昨天，这篇文章在知乎上的最新数据是这样的：

而在知乎这个同题回答下，还有很多人工智能专业领域的优秀答主。

很惭愧，我的这篇回答却排到了第一，同时还被当天的知乎日报收录在内。

是真的很惭愧，还有点惴惴不安，并不是在凡尔赛。

我是在夸自己很牛逼吗？肯定不是。

牛逼的是 DeepSeek ，因为这篇文章主要是借助它来完成的，它让我一个人工智能专业的门外汉文科生，写出了这样一篇高赞回答。

你看，这不就是 AI 放大普通人能力的活生生的例子吗？

那么，在这个写作过程中，我做了哪些操作，或者说发挥了哪些主管能动作用呢？

接下来，我会给大家复盘这样一篇文章是如何写出的，包括如何选取选题，如何构思，如何给 DeepSeek 写提示词安排写作任务，如何后期编辑等全部心路历程，全部分享，毫无保留。相信对对 AI 写作有需求的小伙伴们看后一定会有所启发。

OK，开车。

选题

2 月 18 日中午，正是马斯克的 Grok-3 模型发布，当天下午的时候，已经开始有不少自媒体推送关于发布会的资讯，包括有概述发布会的，尝鲜 Grok-3 的等等。

这是个不折不扣的热点，但是对于个人自媒体账号来说，抢时效是抢不过一些机构的。

如果仅仅是对发布会流程简单介绍的话，那么写出来的文章就会和其他自媒体高度同质化，并且，要体验 Grok-3 还有一定的限制条件，不仅要付费，而且短时间内的体验只会浅尝辄止，这样的文章不是我想要的效果。

正在考虑这个热点该如何去蹭的时候，微信弹出了一篇《河南日报》公众号的文章，标题是《DeepSeek，新消息！》

打开一看，这是一篇近期 AI 动态的汇总帖子：

不难看出，这是一篇早就编辑好的文章，但临发布的时候，刚好赶上DeepSeek 下午 3 点有了新动态，于是把这条内容替换了马斯克的Grok-3。

大家都知道，新闻新闻，越是新近发生的事实越有新闻价值。

这条推文的编辑认为，在下午 6 点这个时间节点，DeepSeek 新动向的新闻价值要大于 Grok-3 发布会。

实际上，确实如此，如果这时候弹出的文章只是 Grok-3 发布，我不会打开这篇文章。

有了这个线索，我就去 X 上找到了这篇帖子，评论区的声量已经相当大了，肉眼可见反响不错。

有个事实必须要点出来，DeepSeek 的 X 社交账号并不是很活跃，自 1 月 20 日发布 R1 后，到目前为止也就更新了两条，其中一条说的是接入 R1 后的参数优化设置，另外一条就是最新的这篇论文发布。

换言之，这是一个不太活跃的账号，突然发布更新，也就是说这件事并不常见，再加上发布的这篇论文内容本身就非常重磅。

来，捋一下：新近发生的+并不常见的+轰动效应=爆款潜质

这个选题非常值得做。

再多想一步，DeepSeek 的这篇论文显然不是刚刚才发的，但是公布出来却选择了 Grok-3 刚刚发布的时候，这明显是有意为之。

至此，关于要写的文章的题目和切入点已经有了：马斯克刚发 Grok-3，DeepSeek 就贴脸开大！

Grok-3 是今天的大热点，这个是一定要蹭的，但是这篇文章的重点是后半句。

这也是尽可能增加这篇文章能在铺天盖地的 Grok-3 推文中能脱颖而出的概率。

当时，我去搜了一下，微信公众号中几乎还没有任何一篇文章提到 DeepSeek的新论文，那些我们经常看的 AI 自媒体都在忙着关注 Grok-3。

我又去知乎搜了一下，已经有了提问，也正是后来被编辑选为 2 月 19 日热榜第一的那个问题，当时这个回答下面只有 3 个回答，最高赞也只是个位数。

OK，以上就是写这篇文章时候的相关背景。

选题这部分之所以写这么详细，是因为爆款文章 80% 取决于你的选题。

文章写得好只能保证你是高赞第一，但选题选得好才有可能成为热榜第一。

对于大多数作者来说，当没有能力制造爆款（议程设置）时，一定要顺势而为，预先埋伏，才能出奇制胜。

总结：选择大于努力

动笔

这个时候已经看了一部分资料了，其实也有了初步的思路，自然是要先从解读论文开始。

先到找到这篇论文：https://arxiv.org/abs/2502.11089

用沉浸式翻译看了几分钟，就放弃了。。。

这不是该我能看懂的东西。

必然还得用 DeepSeek 吧，我先到官网上，让它给我解读论文，同时我给它加了一句要求，要它来说明这项新技术会对下一代的大模型带来哪些能力提升，因为对大多数普通用户来说，大家不会关心论文写的啥，只关心它有啥用。

而我要写的文章也正是面向没有技术背景的普通用户，所以这一点不能少。

DeepSeek 官网给出的回答也就是在上篇推文中你们看到的那个解读：

这个回答其实也能看懂，但是我不太满意，还是过于生涩枯燥，这对于普通用户来说，很容易缺乏耐心就跳过不看了。

事实上，知乎同题下其他答主的回答同样也是这个问题，虽然质量很高，非常专业，但是过于硬核，对普通读者来说消化不了。

叠个甲，高赞第一并不一定就是质量最高，只代表大多数知乎用户更容易看懂。

当我继续追问让它改写的时候，官网就又罢工了。

（现阶段，官网明显是调整了相应策略，同一用户几小时之内只能问一次，再问就歇菜。）

我就转到了腾讯元宝上，上传了这篇论文，当有本地文件需要处理的时候，是不能联网的，但是马斯克的新模型是最新的新闻，在关闭联网的时候你要同步给它新内容，才能保证它不乱说。

所以第一次我写的要求是这样的：

元宝的 DeepSeek 给我写出了第一版，原始全文如下：

**标题：马斯克刚发Grok-3吹牛，中国团队反手甩出“王炸论文”！AI长文本大战彻底变天？**
大家好，我是你们的老朋友科技唠嗑王。今天吃了个大瓜——马斯克刚嘚瑟完xAI的Grok-3是“地球最聪明AI”，**中国团队DeepSeek反手就甩出一篇论文**，直接亮出黑科技底牌！这波操作堪称“你秀肌肉，我掏手术刀”，咱这就带大家拆解这场AI界的顶级掰头。
---
### 一、**马斯克刚吹完牛，DeepSeek的论文写了啥？**
这篇论文标题很硬核，叫《原生稀疏注意力：硬件对齐且可训练的注意力机制》（名字我替你们查了字典）。简单说就是：**给AI大脑装了个“智能望远镜”**，让它看长文本时不再“又瞎又慢”。
**传统AI的痛点**：
现在的AI处理长文本（比如整本《三体》），就像让你用放大镜读蚂蚁大小的字——每个字都要看（术语叫“全注意力”），速度慢还烧显卡，64k字能吃掉80%算力。
**DeepSeek的骚操作**：
他们搞了个**NSA技术**（不是美国国安局！是Native Sparse Attention），核心就三招：
1. **分块压缩**：把长文本切成豆腐块，先看缩略图（比如每32个字压成1个关键词）
2. **精准抓重点**：用AI自己判断哪些块必须细看（比如选中16个关键块）
3. **滑动窗口**：最后扫一眼附近512字防漏细节
相当于让AI学会“跳读+精读”组合技，**64k长文本直接提速11.6倍**，训练速度也能翻9倍！（论文实测数据）
---
### 二、**这技术能吊打Grok-3？三个致命杀招**
1. **省钱**：以前训练长文本得烧机房，现在用NSA能省下几卡车显卡钱
2. **偷师人类思维**：AI终于会“抓重点”了！论文里64k文本藏根针都能100%找到
3. **越练越聪明**：传统方案像给AI戴镣铐（训练用全注意力，推理再阉割），NSA直接从娃娃教起，练成“肌肉记忆”
最狠的是**数学推理暴打传统模型**！在AIME奥数题上，NSA加持的模型正确率飙到14.6%，把全注意力模型（9.2%）按地上摩擦——**说明这技术真能让AI“更聪明”**，不是单纯省算力。
---
### 三、**行业要变天？普通人能蹭到什么红利**
- **程序员狂喜**：以后AI能秒读整个代码库改bug，GitHub Copilot要升级成“CTO级助手”
- **学生党福音**：论文神器直接解析百万字文献，导师再也不用担心我文献综述瞎编
- **打工人神器**：合同审查、财报分析终于不用“看一段忘一段”
最让我起鸡皮疙瘩的是——**这技术是中国团队自研的**！从算法设计到硬件适配全链路打通，论文里连怎么在显卡上“卡BUG”省内存都写得明明白白，摆明了要落地商用。
---
### 四、**说人话总结**
马斯克秀的是“大力出奇迹”（Grok-3参数规模未公布，但肯定不小），DeepSeek这波走的是“四两拨千斤”。**AI竞争进入下半场**，拼的不再是谁显卡多，而是谁能把每焦耳算力榨出更多智能。
**最后暴言预测**：
今年必有国产大模型靠这个技术冲上长文本榜单，坐等各家官宣“128k上下文免费开放”——反正成本打下来了，卷的就是我们老百姓的体验！

这个风格我非常不喜欢，语言过于轻佻浮夸，并且略去了太多的技术细节，缺乏有深度的思考，所以我继续提要求：

元宝版的 DeepSeek 又给出了一版：

**标题：马斯克发布Grok-3两小时后，中国团队扔出一篇论文：长文本AI的底层逻辑被改写了**
大家好，我是XX，一个喜欢把技术嚼碎了再聊的博主。今天想和大家认真聊聊两件事：埃隆·马斯克的xAI刚发布的Grok-3，以及中国团队DeepSeek在2小时后甩出的那篇论文。这可能是2024年AI领域最值得关注的暗战——**不是比谁参数大，而是比谁能重新定义AI的“思考方式”**。
---
### 一、**马斯克的Grok-3，到底厉害在哪？**
先给不熟悉背景的朋友补课：
- **Grok-3**：马斯克旗下xAI的最新大模型，自称“地球上最聪明的AI”，重点突破可能在**多模态理解**和**复杂推理**
- **DeepSeek的论文**：全称《硬件对齐的可训练稀疏注意力机制》，直指大模型处理长文本的核心痛点
表面看是两家公司的技术对垒，但内核其实是两条技术路线的较量：**暴力堆算力 vs 重构底层算法**。而后者可能才是AI进化的关键拐点。
---
### 二、**DeepSeek的论文，改写了什么规则？**
这篇论文的核心贡献叫做**“原生稀疏注意力”（Native Sparse Attention，NSA）**。要理解它为什么重要，得先知道当前大模型的致命伤：
**1. 长文本=算力黑洞**
现在所有大模型处理长文本（比如10万字的小说），都在用“全注意力机制”——简单说就是让AI逐字逐句分析每个词和所有其他词的关系。这导致两个问题：
- **算力消耗呈平方级增长**：读64k长度的文本（约5万字），80%的计算资源都花在注意力机制上
- **人类并不这么读书**：我们看长文章时会自动跳读、抓重点、记框架，但AI还在“死磕每个标点符号”
**2. 现有方案的妥协**
行业目前的解决方案像是“打补丁”：
- **滑动窗口法**：只看当前段落附近的文字（类似你读书时用手指指着看）→ 容易漏掉全局信息
- **随机抽样法**：随便抽几句话分析 → 可能错过关键线索
- **事后压缩法**：先完整读一遍再删减 → 本质上还是浪费了第一遍的算力
**而DeepSeek的NSA技术，试图从底层重建这个过程。**
---
### 三、**NSA技术：让AI学会“人类式阅读”**
（放心，这里没有数学公式）
这项技术的设计逻辑非常聪明：**把“选择重点”的能力直接植入AI的基因**。具体分三步走：
**第一步：分块压缩**
- 把长文本切成512字的小块（比如把一本小说按章节拆分）
- 对每个块做“缩略图提取”：用AI自动生成该块的语义摘要（类似读书时先看目录）
**第二步：动态筛选**
- 让AI自主决定哪些块需要细读（比如选中16个关键章节）
- 筛选标准通过训练自动优化（相当于教AI“什么信息值得关注”）
**第三步：局部深挖**
- 对选中的关键块启用全注意力机制（逐字分析）
- 同时用滑动窗口覆盖周边内容（防止断章取义）
**这相当于给AI装了个智能探照灯：既能扫描全局，又能聚焦重点。**
---
### 四、**这不是优化，是范式转移**
根据论文数据，NSA技术带来了三个层面的突破：
**1. 效率革命**
- **训练速度提升9倍**：在64k文本长度下，训练耗时从全注意力机制的100%降到11%
- **推理速度提升11.6倍**：处理同长度文本，所需计算资源不到原来的十分之一
**2. 能力跃迁**
- **长文本理解质变**：在“大海捞针”测试中（从6.4万字里找特定事实），准确率100%碾压传统方案（全注意力机制仅35%）
- **数学推理暴涨**：在AIME数学竞赛题上，NSA模型正确率14.6%，比全注意力模型（9.2%）高出58%
**3. 成本重构**
- 同等算力下可处理10倍长的文本
- 或用1/10的算力达到相同效果 → **这直接动摇了“大模型必须靠堆显卡”的行业逻辑**
---
### 五、**为什么说这事比Grok-3更重要？**
马斯克的Grok-3尚未公布细节，但根据其宣传方向（更智能、更多模态），大概率还是在走“扩大参数规模+增加数据量”的老路。而DeepSeek的论文指向一个更本质的问题：
**当前大模型的架构，可能从根子上就错了。**
我们一直用“全注意力机制”是因为它简单粗暴有效，但这就像为了喝牛奶养一头奶牛——现在有人发明了奶粉，而奶粉可能比鲜奶更适合长途运输。NSA技术的意义在于：
- **证明稀疏注意力可以端到端训练**（传统方案只能训练后裁剪）
- **首次实现算法与硬件的深度协同**（直接针对GPU内存特性优化）
- **打开“长文本场景”的商业化大门**：医疗病历、法律卷宗、金融年报...这些需要处理百万字级文本的场景，终于有了可行的AI方案
---
### 六、**冷静思考：狂欢背后的挑战**
当然，这项技术并非完美无缺：
**1. 动态筛选的可靠性**
- AI自主选择“重点信息”时，会不会漏掉某些反常识的关键点？（比如侦探小说里的隐蔽线索）
- 论文中的测试场景相对理想，真实世界的长文本往往充满干扰信息
**2. 训练成本转移**
- 虽然推理阶段省钱了，但训练NSA模型需要设计新的课程学习策略（如何教会AI“抓重点”仍是难题）
**3. 生态适配成本**
- 现有的大模型工具链（如Hugging Face生态）需要针对NSA做深度改造
---
### 七、**普通人会感受到什么变化？**
如果NSA技术普及，我们可能会在1-2年内看到：
- **文档助手**：上传1000页的行业报告，AI能在10秒内提炼出核心趋势和风险点
- **教育革命**：学生用AI快速解析百万字文献，但需要警惕思维惰性
- **代码开发**：AI真正理解整个代码库的架构，而不只是片段补全
- **内容审核**：平台能实时分析超长视频的完整上下文，而不只是截取片段
更重要的是，**中国团队这次抢到了算法创新的先手**——在注意力机制这个最核心的领域，我们第一次提出了被国际学界认可的基础架构改进。
---
### 八、**写在最后：AI竞争进入“抠细节”时代**
过去几年，大模型的竞争像是“军备竞赛”：比参数、比数据量、比显卡数量。但DeepSeek的论文揭示了一个趋势：**下一阶段的胜负手，在于对基础组件的重新发明**。
就像燃油车时代比的是发动机排量，电动车时代却开始比拼电池管理算法——当行业意识到算力不是唯一壁垒时，真正的创新才刚刚开始。
至于马斯克的Grok-3？它或许很强大，但至少在今天，这场对话的主动权，握在了重新定义游戏规则的人手里。