OpenAI今天通过发布他们的操作员代理确认了我对AI的北极星理论。
这不仅是我对$CODEC的指导理论,也是我在AI狂热期间年初所做的每一项AI投资的基础。
关于Codec与机器人技术的讨论很多,虽然这个领域很快会有自己的叙述,但我从第一天起对Codec如此看好的根本原因在于它的架构如何支持操作员代理。
人们仍然低估了通过构建能够自主运行的软件而占据的市场份额,这些软件能够超越人类工作者,而无需不断的提示或监督。
我看到很多与$NUIT的比较。首先,我想说我非常喜欢Nuit正在构建的东西,并祝愿他们成功。如果你在我的电报中输入“nuit”,你会看到我在四月时说过,如果我必须持有一种币几个月,那就是Nuit,因为我的操作员理论。
Nuit在纸面上是最有前景的操作员项目,但经过广泛的研究,我发现他们的架构缺乏深度,无法证明进行重大投资或将我的声誉置于其后面是合理的。
考虑到这一点,我已经意识到现有操作员代理团队中的架构缺口,并积极寻找一个能够解决这些问题的项目。Codec出现后不久(多亏了@0xdetweiler坚持让我更深入地了解他们),这就是两者之间的区别:
$CODEC与$NUIT
Codec的架构分为三个层次:机器、系统和智能,分别分离基础设施、环境接口和AI逻辑。Codec中的每个操作员代理都在自己的隔离虚拟机或容器中运行,允许接近本地的性能和故障隔离。这种分层设计意味着组件可以独立扩展或演变,而不会破坏系统。
Nuit的架构采取了不同的路径,更加单一化。他们的堆栈围绕一个专门的网页浏览器代理展开,结合了解析、AI推理和行动。这意味着他们将网页深度解析为AI可以消费的结构化数据,并依赖云处理来完成重的AI任务。
Codec将轻量级的视觉-语言-行动(VLA)模型嵌入到每个代理中,这意味着它可以完全本地运行。这不需要不断地回到云端获取指令,减少了延迟,避免了对正常运行时间和带宽的依赖。
Nuit的代理通过首先将网页转换为语义格式,然后使用LLM大脑来决定该做什么,这一过程随着强化学习而不断改进。虽然这种流程对于网页自动化有效,但它依赖于重的云端AI处理和预定义的页面结构。Codec的本地设备智能意味着决策发生在离数据更近的地方,减少了开销,使系统在意外变化时更加稳定(没有脆弱的脚本或DOM假设)。
Codec的操作员遵循一个持续的感知-思考-行动循环。机器层通过系统层的优化通道将环境(例如实时应用或机器人馈送)流式传输到智能层,为AI提供“眼睛”以观察当前状态。代理的VLA模型然后将视觉和指令结合起来进行解释,以决定行动,系统层通过键盘/鼠标事件或机器人控制来执行。这种集成循环意味着它能够适应实时事件,即使UI发生变化,你也不会打断流程。
用一个更简单的类比来说明,想象Codec的操作员就像一个能够适应工作中意外情况的自给自足的员工。Nuit的代理就像一个需要暂停、通过电话向主管描述情况并等待指示的员工。
不深入技术细节,这应该能让你对我为什么选择Codec作为我在操作员领域的主要投资有一个高层次的了解。
是的,Nuit得到了YC的支持,拥有强大的团队和S级的github。尽管Codec的架构是以水平扩展为目标构建的,这意味着你可以并行部署数千个代理,而代理之间没有共享内存或执行上下文。Codec的团队也不是普通的开发者。
他们的VLA架构打开了许多以前的代理模型无法实现的用例,因为它能够透过像素而不是截图进行观察。
我可以继续说下去,但我会把这些留到未来的帖子中。
操作代理的虚拟环境:$CODEC
我对AI爆炸的核心论点一直围绕着操作代理的崛起。
但为了让这些代理成功,它们需要深度的系统访问,实际上赋予它们对个人计算机和敏感数据的控制权,这引入了严重的安全问题。
我们已经看到像OpenAI和其他科技巨头如何处理用户数据。虽然大多数人不在乎,但那些最有可能从操作代理中受益的人,即前1%,绝对在乎。
就我个人而言,我绝对不会给像OpenAI这样的公司完全访问我的机器的机会,即使这意味着生产力提高10倍。
那么为什么选择Codec?
Codec的架构以为AI代理启动隔离的、按需的“云桌面”为中心。其核心是一个基于Kubernetes的编排服务(代号Captain),在Kubernetes pods中提供轻量级虚拟机(VM)。
每个代理都有自己的操作系统级别的隔离环境(一个完整的Linux操作系统实例),可以在其中运行应用程序、浏览器或任何代码,完全与其他代理和主机隔离。Kubernetes负责这些代理pods的调度、自动扩展和自愈,确保可靠性并根据负载需求启动/关闭多个代理实例。
可信执行环境(TEEs)用于保护这些VM,这意味着代理的机器可以被加密隔离,其内存和执行可以受到主机操作系统或云提供商的保护。这对于敏感任务至关重要:例如,在一个封闭环境中运行的VM可以安全地保存API密钥或加密钱包密钥。
当AI代理(基于LLM的“脑”)需要执行操作时,它会向Captain服务发送API请求,然后Captain服务启动或管理代理的VM pod。工作流程:代理请求一台机器,Captain(通过Kubernetes)分配一个pod并附加一个持久卷(用于VM的磁盘)。然后代理可以通过安全通道或流接口连接到其VM以发出命令。Captain为代理提供执行shell命令、上传/下载文件、检索日志,甚至快照VM以供以后恢复的端点。
这种设计为代理提供了一个完整的操作系统来工作,但具有受控、审计的访问。因为它是基于Kubernetes构建的,Codec可以水平自动扩展,如果100个代理需要环境,它可以在集群中调度100个pods,并通过重启pods来处理故障。
代理的VM可以配备各种MCP服务器(如AI的“USB端口”)。例如,Codec的Conductor模块是一个运行Chrome浏览器和Microsoft Playwright MCP服务器的容器,用于浏览器控制。这允许AI代理打开网页、点击链接、填写表单,并通过标准MCP调用抓取内容,就像人类控制浏览器一样。
其他MCP集成可能包括文件系统/终端MCP(让代理安全地运行CLI命令)或特定应用程序的MCP(用于云API、数据库等)。本质上,Codec提供了基础设施“包装器”(VMs、封闭环境、网络),以便高级代理计划可以安全地在真实软件和网络上执行。
用例
钱包自动化:
Codec可以在TEE保护的VM中嵌入钱包或密钥,允许AI代理与区块链网络交互(在DeFi上交易,管理加密资产)而不暴露秘密密钥。
这种架构使得链上金融代理能够安全地执行真实交易,这在典型的代理设置中是非常危险的。平台的标语明确列出了对“钱包”的支持作为关键能力。
例如,代理可以在其封闭环境中运行以太坊钱包的CLI,签署交易并发送它们,确保如果代理行为不当,它被限制在其VM中,密钥永远不会离开TEE。
浏览器和网络自动化:
CodecFlow代理可以在其VM中控制完整的网络浏览器。Conductor示例展示了代理启动Chrome并实时将其屏幕流式传输到Twitch。通过Playwright MCP,代理可以像人类用户一样浏览网站、点击按钮和抓取数据。这对于在登录后进行网页抓取、自动化网络交易或测试网络应用程序等任务非常理想。
传统框架通常依赖于API调用或简单的无头浏览器脚本;相比之下,CodecFlow可以运行一个具有可见UI的真实浏览器,使其更容易处理复杂的网络应用程序(例如,具有大量JavaScript或CAPTCHA挑战)在AI控制下。
真实世界的GUI自动化(遗留系统):
因为每个代理都有一个实际的桌面操作系统,它可以自动化遗留的GUI应用程序或远程桌面会话,基本上像机器人流程自动化(RPA)一样工作,但由AI驱动。例如,代理可以在其Windows VM中打开Excel电子表格,或与没有API的旧终端应用程序进行接口。
Codec的网站明确提到启用“遗留自动化”。这为使用AI操作无法通过现代API访问的软件打开了大门,这在没有封闭环境的情况下将是非常麻烦或不安全的。包含的noVNC集成表明代理可以通过VNC进行观察或控制,这对于监控AI驱动的GUI非常有用。
模拟SaaS工作流程:
公司通常有涉及多个SaaS应用程序或遗留系统的复杂流程。例如,员工可能会从Salesforce中获取数据,将其与内部ERP中的数据结合,然后将摘要通过电子邮件发送给客户。Codec可以使AI代理通过其VM中的浏览器或客户端软件实际登录这些应用程序来执行整个序列,就像人类一样。这就像RPA,但由可以做出决策和处理变化的LLM驱动。
重要的是,这些应用程序的凭据可以安全地提供给VM(甚至封闭在TEE中),因此代理可以使用它们而不必“看到”明文凭据或将其暴露在外部。这可以加速例行后台任务的自动化,同时满足IT的要求,即每个代理都以最低权限和完全可审计性运行(因为VM中的每个操作都可以被记录或记录)。
路线图
- 本月底推出公开演示
- 与其他类似平台的功能比较(无web3竞争对手)
- TAO集成
- 大型游戏合作伙伴关系
在原创性方面,Codec建立在现有技术的基础上,但以一种新颖的方式集成它们以供AI代理使用。隔离执行环境的想法并不新鲜(容器、VM和TEE在云计算中是标准的),但将它们应用于具有无缝API层(MCP)的自主AI代理是非常新颖的。
该平台尽可能利用开放标准和工具:它使用像Microsoft的Playwright这样的MCP服务器进行浏览器控制,而不是重新发明轮子,并计划支持AWS的Firecracker微VM以实现更快的虚拟化。它还分叉了现有的解决方案,如noVNC用于流式传输桌面。展示了该项目站在经过验证的技术(Kubernetes、封闭硬件、开源库)的基础上,将其原创开发集中在粘合逻辑和编排上(“秘密武器”是它如何一起工作)。
开源组件和即将推出的云服务的结合(通过提到$CODEC代币实用性和公共产品访问暗示)意味着Codec很快将在多种形式中可访问(既作为服务也可自托管)。
团队
Moyai:15年以上开发经验,目前在Elixir Games领导AI开发。
lil’km:5年以上AI开发者,目前在HuggingFace参与LeRobot项目。
HuggingFace是一家大型机器人公司,Moyai在Elixir Games担任AI负责人(由Square Enix和Solanafdn支持)。
我亲自视频通话了整个团队,真的很喜欢他们带来的能量。把他们放在我雷达上的朋友也在Token2049上见过他们,并且只有好话要说。
最后的想法
还有很多内容要覆盖,我会在未来的更新和我在Telegram频道的帖子中保存。
我一直相信云基础设施是操作代理的未来。我一直尊重Nuit正在构建的东西,但Codec是第一个向我展示我所寻找的全栈信念的项目。
团队显然是顶级工程师。他们公开表示营销不是他们的强项,这可能是为什么这一直被忽视的原因。我将与他们密切合作,帮助塑造真正反映他们正在构建的深度的GTM策略。
以400万美元的市值和这种水平的基础设施,它感觉被严重低估了。如果他们能交付一个可用的产品,我认为这可能很容易标志着下一个AI基础设施周期的开始。
一如既往,存在风险,虽然我在过去几周内秘密审查了团队,但没有项目是完全防止骗局的。
价格目标?高得多。

关于我为什么选择 Codec 而不是 Nuit 作为操作员的简要总结:
Codec 使用三层架构(机器、系统、智能),使得高性能的代理能够独立运行并具备本地控制能力。
每个 Codec 代理在本地运行,采用视觉-语言-行动(VLA)循环,减少延迟并提高可靠性。
Nuit 的模型依赖于浏览器解析和云 AI 调用,这限制了灵活性并引入了脆弱性。
Codec 在数千个代理之间水平扩展,没有共享状态,并具备容错的模块化特性。
1.02万
56
本页面内容由第三方提供。除非另有说明,欧易不是所引用文章的作者,也不对此类材料主张任何版权。该内容仅供参考,并不代表欧易观点,不作为任何形式的认可,也不应被视为投资建议或购买或出售数字资产的招揽。在使用生成式人工智能提供摘要或其他信息的情况下,此类人工智能生成的内容可能不准确或不一致。请阅读链接文章,了解更多详情和信息。欧易不对第三方网站上的内容负责。包含稳定币、NFTs 等在内的数字资产涉及较高程度的风险,其价值可能会产生较大波动。请根据自身财务状况,仔细考虑交易或持有数字资产是否适合您。