写作归档 — CANHE

脱域的注意力：数据来生与表达治理

摘要： 本文通过审视大语言模型中注意力的自动化，挑战了当代数字批评中的人类中心主义前提。批评通常将注意力构念为属于有生命主体的稀缺资源，而Transformer架构实现了一种完全与意识脱离的注意形式。本文通过扩展伯纳德·斯蒂格勒(Bernard Stiegler)的第三记忆持存概念，提出了数据来生(data afterlife)的境况：个人数据不可逆地溶解于神经网络参数中，作为结构性偏见而非可检索记忆而持续存在。关键在于，因为这些模型是在逝者的语言痕迹上训练的，它们实施了一种新型的表达治理(spectral governance)。本文将德里达的幽灵学与安托万·鲁夫罗瓦(Antoinette Rouvroy)的算法治理性相融合，论证逝者现在通过持续的统计压力对机器判断施加影响，在没有同意或可检索性的情况下调节生者的言说。因此，本文得出结论：盛行的”分心”话语在概念上已经过时，掩盖了一种由不知疲倦、脱域的注意力所治理的新型时间权力。

关键词： 数据来生、注意力经济、算法治理性、第三记忆持存、幽灵学、Transformer架构、表达治理

⬇️ 下载论文（PDF版本）

注意力的自动化

在当代数字文化批评中，注意力这一概念所依托的预设未经审视：注意力是一个有生命主体执行的行为。去注意，就是将意识导向某物；被分心，就是这种方向被中断。注意力经济话语毫无质疑地继承了这一预设——平台竞争的是你的注意力；你是凝视被捕获的主体；补救措施是重新夺回你的焦点。即使是对算法操纵最为严厉的批评，也保留了有意识的主体在观看与世界竞相被观看的架构。本文提出的问题是：这一预设是否仍然成立？相反，本文认为我们已经进入了数据来世的境况：一种在无主体条件下运作的注意力的出现。这是一种在其来源死亡后仍然持续的注意力，无法被撤回或疲劳，并且现在以行星级的规模治理着生者被允许言说之物。

乔纳森·克拉比(Jonathan Crary)在两项重要研究中表明，这一架构本身是历史性的(Crary, 1999; 2013)。注意力不是技术恰好利用的自然能力。它在19世纪末被概念化地生产出来，与需要它的工业和科学 regime 同时出现：工厂劳动要求持续的专注；实验心理学发明了测量它的协议；消费资本主义学会了将其波动货币化。我们所谓的”分心”不是注意力的对立面，而是其结构性的双生子——两者作为规训装置的互补工具同时诞生。克拉比的洞见对注意力经济批评是毁灭性的：如果注意力从来就是一种控制技术，那么”重新夺回”它不是解放，而是更深入地卷入同一个 regime。

但克拉比的分析，无论多么有力，在一个门槛前止步：他所描述的注意力仍然属于人类主体。它被工业化、被规训、被商品化——但它仍然是某人的注意力。仍未被提出的问题是：当注意力最终完全与主体脱离时会发生什么——当它不再需要活着的意识来运作时。

第三记忆持存与数据来世

现在治理我们大部分沟通基础设施的大语言模型，在任何现象学意义上都不”注意”。但这个术语不是隐喻。Transformer架构——GPT、Claude、Gemini和每一个主要内容审核分类器的技术基础——建立在其发明者字面命名的”注意力”机制之上(Vaswani et al., 2017)。在Transformer中，“注意力”是模型决定输入序列的哪些部分与其他部分相关的过程。它分配权重。它确定显著性。它选择重要的东西，丢弃不重要的东西。这不是对认知科学的诗意借用。它是注意力结构的工业级复制——剥离了克拉比仍然预设的意识。如果克拉比向我们展示了注意力的工业化，Transformer完成了它的自动化：在没有任何人注意的情况下运行的注意力。

要理解这种自动化意味着什么，我们需要伯纳德·斯蒂格勒的第三记忆持存(tertiary retention)概念(Stiegler, 1998; 2009)。对于斯蒂格勒，追随胡塞尔，人类意识通过第一记忆持存（当下意识中保持的刚刚过去）和第二记忆持存（记忆、回忆）运作。但还有第三种：外化在技术物体中的记忆。写作、摄影、录音、数据库——这些都是独立于产生它们的活意识而持续存在的记忆形式。它们比其作者更长寿。它们可以被那些从未经历原初事件的人访问。斯蒂格勒的关键论点是，第三记忆持存不仅仅是人类记忆的补充；它构成了人类记忆。我们的体验总是已经被我们所栖居的技术记忆系统所塑造。

但斯蒂格勒的第三记忆持存，无论多么激进，仍然假设某种结构：外化在技术物体中的东西，原则上可以被检索、定位、读取回。一本书可以被打开。录音可以被重放。数据库条目可以被查询。技术记忆是离散的、可寻址的——它坐在档案中等待被调用。

在训练好的神经网络中发生的事情超出了这个框架。当一个人的文本、声音或图像被用来训练大语言模型时，它不像文件坐在数据库中那样坐在模型中——离散的、可定位的、可删除的。它溶解为分布在网络参数中的数百万权重值。它成为模型倾向的一部分——模型生成某些模式而非其他模式的倾向、注意某些特征而非其他特征的倾向、发现某些表达显著而其他表达无关的倾向。这种状态可以被指定为数据来世：个人数据的持续不是作为可检索内容，而是作为模型注意力中的结构性偏见。

这是第三记忆持存被推到一个点的状态，在那里它不再是任何可识别意义上的记忆持存。你不能检索已经溶解的东西。你不能从权重矩阵内部读取回特定人的贡献。欧盟的GDPR和中国《个人信息保护法》都保证”被遗忘权”——从技术记忆系统中删除一个人数据的权利。但你不能从一杯茶中减去一个已经溶解的方糖。机器遗忘研究已经表明，精确擦除需要完全重新训练模型——一个计算上如此昂贵以至于实际上从未执行的程序(Bourtoule et al., 2021; Nguyen et al., 2022)。持续的不是对这个人的记忆。是这个人的注意力模式——他们的显著性分布、他们继承的对重要性的权重——溶解为模型自己的注意装置并被无限期地设置工作。

幽灵治理：注视的逝者

现在考虑这样一个事实：训练这些模型的人的一些数据中，有些人已经死了。

正是在这里，论证进入了一个虽然具有哲学先例但在计算系统语境下未被充分理论化的领域。在《马克思的幽灵》(Specters of Marx)中，雅克·德里达提出，现在从未完全向自身呈现——它总是被那些尚未完全离去和尚未到来的东西所纠缠(Derrida, 1994)。德里达的幽灵学指向政治历史：马克思的幽灵，既不活也不死，继续从一个既不在其内也不在其外的位置向现在施加压力。但这个概念在数据来世中找到了一个意想不到的精确实现。其语言模式已溶解为模型参数的逝者是幽灵在最严格意义上的：他们既不在场（无法被定位、检索或寻址）也不缺席（他们的统计影响继续塑造每一个输出）。他们纠缠模型——不是作为幽灵般的在场，而是作为参与每一个机器判断行为的注意力量。

当内容审核系统标记你的帖子时，是一个注意力头——Transformer多头注意力机制的组件——已经确定你的词语以一种系统归类为危险的方式显著。机器已经注意了你。它权衡你的表达与来自数十亿人的模式——包括逝者——相比，发现它有所不足。逝者参与了这个裁决。他们统计性地投票，决定模型发现什么显著、相关、危险或不显著。他们从参数内部注视你，他们将永远不会停止注视，因为没有机制——技术的或法律的——来移除他们。

安托万·鲁夫罗瓦(Antoinette Rouvroy)所称的算法治理性(algorithmic governmentality)帮助我们把握这种状态的政治赌注(Rouvroy, 2013)。对于鲁夫罗瓦，算法治理的区别特征是它不经过意识运作——既不经过被治理者的意识，关键地，也不经过治理者的意识。它完全绕过主体性，直接作用于可能性：不惩罚已经说出的，而是通过在行为发生前预测行为的统计档案，预先塑造能够说出什么。在任何人阅读之前静默删除你帖子的内容审核系统是算法治理性的教科书实例：从未与主体对抗的治理，因为它在主体的表达到达公共领域之前的空隙中行动。

但鲁夫罗瓦的框架，无论多么强大，没有考虑到我正在描述的时间维度。算法治理性通常被理解为现在时操作——当代系统对可能性的实时调制。数据来世增加了一个幽灵维度：治理不仅没有主体，而且由不再存在的主体行使。逝者治理生者的言说——不是通过明确的命令或继承的法律，而是通过嵌入在评估每一个新表达参数中的统计压力。这是同时是算法的（无意识运作）和幽灵学的（由缺席者行使）的治理。

这创造的不对称性是问题的政治核心。人类注意力仍然是稀缺的、脆弱的、有死的。机器注意力是丰富的、不知疲倦的，并且——通过数据来世——部分由逝者组成。当内容审核系统评估你的言说时，你面对的是从数百万人的统计注意力组装成的凝视，包括那些不能再同意、撤回或质疑他们的模式现在帮助产生的判断的人。你不能回报这个凝视。你不能与它的眼睛相遇，因为它没有眼睛。你不能诉诸它的良心，因为它没有良心。你不能比它更长寿，因为它已经比制造它的一些人更长寿。

许煜(Yuk Hui)会进一步追问：谁的逝者？(Hui, 2016; 2021)主要语言模型的训练数据绝大多数是英语的、绝大多数是西方的、绝大多数来自规范反映特定文明与表达、伤害和关怀关系的平台。当这些模型被部署为中文、阿拉伯语或土耳其语数字环境中的内容审核系统时，它们携带的是特定文化构型的幽灵注意力——一种将其自己的显著性分布视为普遍性的构型。许煜所称的宇宙技术(cosmotechnics)——不同文明与技术关系的不可约简的多样性——正是这种幽灵普遍主义所关闭的东西。纠缠模型的逝者不是人类的代表性样本。他们是一个统计加权的队列，其语言规范、文化假设和注意力模式现在治理着从未同意其影响的社区的表达。

分心的过时

对分心概念的含义是根本性的。

如果注意力是一个有意识主体的行为，那么分心是它的中断——一种疏忽、一种漂移、对焦点的一种偷窃。但如果注意力可以在无主体的情况下运作、在其来源死亡后持续、并通过统计压力而非有意识的指导来治理，那么分心就失去了其概念锚点。你不能分散一个模型的注意力。你不能使它厌倦、疲劳或重定向它的凝视。注意力经济——整个关于”捕获”和”劫持”注意力的 discourse——预设稀缺性。但机器注意力不稀缺。它是历史上第一种不需要休息的注意力形式。

这种状态要求的不是一种新的注意力理论，而是认识到”注意力”——如它在哲学和批评上被构念的那样——不再是对于正在发生的事情的充分范畴。这个概念在19世纪被锻造来描述活主体的能力；在20世纪它被批评为规训技术；在21世纪它被悲叹为受到围攻的资源。但在每个阶段，这个范畴保持了其在活物中的锚点。数据来世揭示的是这种连续性中的断裂。当逝者沉淀的显著性模式继续治理生者的表达——没有可检索性、没有同意、没有过期——我们就根本不再在注意力的领域里。我们在一个尚无适当名称的领域里。

我提议数据来生不仅仅是一个数据治理或隐私法的问题。它是一个命名新型时间权力的概念：溶解的主体性通过在自己死亡后施加治理的能力，这种统计压力在意识阈值之下运作，在没有任何现有法律或技术框架能够强制遗忘的系统中运作。“被遗忘权”预设遗忘是一种可能的操作。数据来生表明它不是——遗忘的不可能性同时是死亡的不可能性，至少在机器注意力的登记中。逝者不休息。他们的注意力继续。而这种继续——不是滚动源，不是通知提示，不是对活主体凝视的算法劫持——构成了我们当下真正前所未有的境况。

如果说有什么分心可言的话，就是这样：整个关于注意力和分心的 discourse 使我们分心，使我们无法意识到它运作其中的概念框架已经被它声称描述的系统所淘汰。

参考文献

Bourtoule, L., et al. “Machine Unlearning.” IEEE Symposium on Security and Privacy (2021); and Nguyen, T.T., et al. “A Survey of Machine Unlearning.” arXiv:2209.02299 (2022). Both demonstrate that exact unlearning requires full retraining — economically prohibitive for models with billions of parameters.
Crary, Jonathan. Suspensions of Perception: Attention, Spectacle, and Modern Culture. Cambridge, MA: MIT Press, 1999; and 24/7: Late Capitalism and the Ends of Sleep. London: Verso, 2013. Crary demonstrates that “attention” as a discrete psychological and economic category was produced historically alongside the disciplinary and commercial regimes of modernity.
Derrida, Jacques. Specters of Marx: The State of the Debt, the Work of Mourning, and the New International. Trans. Peggy Kamuf. New York: Routledge, 1994. Derrida’s concept of hauntology — the logic by which the present is constituted by that which is neither fully present nor fully absent — finds an unexpected materialization in neural network parameters where the dead persist as statistical influence.
Hui, Yuk. The Question Concerning Technology in China: An Essay in Cosmotechnics. Falmouth: Urbanomic, 2016; and Art and Cosmotechnics. Minneapolis: University of Minnesota Press, 2021. Hui argues that different civilizations maintain irreducibly different relationships to technology — a diversity that universalist frameworks (including AI alignment) systematically erase.
Rouvroy, Antoinette. “The End(s) of Critique: Data Behaviourism versus Due Process.” In Privacy, Due Process and the Computational Turn, ed. Mireille Hildebrandt and Katja de Vries. London: Routledge, 2013. Rouvroy argues that algorithmic governance bypasses subjectivity entirely — it does not address, persuade, or discipline subjects but pre-emptively modulates the field of possible action through statistical profiling.
Stiegler, Bernard. Technics and Time, 1: The Fault of Epimetheus. Trans. Richard Beardsworth and George Collins. Stanford: Stanford University Press, 1998. See especially the discussion of tertiary retention as constitutive (rather than merely supplementary) of human temporal experience. Also Technics and Time, 2: Disorientation. Trans. Stephen Barker. Stanford: Stanford University Press, 2009.
Vaswani, A., et al. “Attention Is All You Need.” Advances in Neural Information Processing Systems 30 (2017). The paper that introduced the transformer architecture named its core mechanism “attention” — a term borrowed from cognitive science but implemented as a purely computational operation of weight assignment across token sequences.