Anthropic 推出自然语言自编码器，将 Claude 内部活动直接转化为人类可读的文本解释

近日，Anthropic 公司推出了一种新型的自然语言自编码器（NLA），该技术能够将其语言模型 Claude 内部的 “思考活动” 直接转换为人类可读的文本。这一创新将为模型的可解释性打开新的大门，解决了以往难以理解内部激活状态的问题。当用户与 Claude 进行交流时，输入的信息会被转化为长长的数字列表，这些数字称为 “激活”，用于模型的上下文处理和…