OpenAI今天通过发布他们的操作员代理确认了我对... | Trissy OKX Feed

OpenAI今天通过发布他们的操作员代理确认了我对AI的北极星理论。这不仅是我对$CODEC的指导理论，也是我在AI狂热期间年初所做的每一项AI投资的基础。关于Codec与机器人技术的讨论很多，虽然这个领域很快会有自己的叙述，但我从第一天起对Codec如此看好的根本原因在于它的架构如何支持操作员代理。人们仍然低估了通过构建能够自主运行的软件而占据的市场份额，这些软件能够超越人类工作者，而无需不断的提示或监督。我看到很多与$NUIT的比较。首先，我想说我非常喜欢Nuit正在构建的东西，并祝愿他们成功。如果你在我的电报中输入“nuit”，你会看到我在四月时说过，如果我必须持有一种币几个月，那就是Nuit，因为我的操作员理论。 Nuit在纸面上是最有前景的操作员项目，但经过广泛的研究，我发现他们的架构缺乏深度，无法证明进行重大投资或将我的声誉置于其后面是合理的。考虑到这一点，我已经意识到现有操作员代理团队中的架构缺口，并积极寻找一个能够解决这些问题的项目。Codec出现后不久（多亏了@0xdetweiler坚持让我更深入地了解他们），这就是两者之间的区别： $CODEC与$NUIT Codec的架构分为三个层次：机器、系统和智能，分别分离基础设施、环境接口和AI逻辑。Codec中的每个操作员代理都在自己的隔离虚拟机或容器中运行，允许接近本地的性能和故障隔离。这种分层设计意味着组件可以独立扩展或演变，而不会破坏系统。 Nuit的架构采取了不同的路径，更加单一化。他们的堆栈围绕一个专门的网页浏览器代理展开，结合了解析、AI推理和行动。这意味着他们将网页深度解析为AI可以消费的结构化数据，并依赖云处理来完成重的AI任务。 Codec将轻量级的视觉-语言-行动（VLA）模型嵌入到每个代理中，这意味着它可以完全本地运行。这不需要不断地回到云端获取指令，减少了延迟，避免了对正常运行时间和带宽的依赖。 Nuit的代理通过首先将网页转换为语义格式，然后使用LLM大脑来决定该做什么，这一过程随着强化学习而不断改进。虽然这种流程对于网页自动化有效，但它依赖于重的云端AI处理和预定义的页面结构。Codec的本地设备智能意味着决策发生在离数据更近的地方，减少了开销，使系统在意外变化时更加稳定（没有脆弱的脚本或DOM假设）。 Codec的操作员遵循一个持续的感知-思考-行动循环。机器层通过系统层的优化通道将环境（例如实时应用或机器人馈送）流式传输到智能层，为AI提供“眼睛”以观察当前状态。代理的VLA模型然后将视觉和指令结合起来进行解释，以决定行动，系统层通过键盘/鼠标事件或机器人控制来执行。这种集成循环意味着它能够适应实时事件，即使UI发生变化，你也不会打断流程。用一个更简单的类比来说明，想象Codec的操作员就像一个能够适应工作中意外情况的自给自足的员工。Nuit的代理就像一个需要暂停、通过电话向主管描述情况并等待指示的员工。不深入技术细节，这应该能让你对我为什么选择Codec作为我在操作员领域的主要投资有一个高层次的了解。是的，Nuit得到了YC的支持，拥有强大的团队和S级的github。尽管Codec的架构是以水平扩展为目标构建的，这意味着你可以并行部署数千个代理，而代理之间没有共享内存或执行上下文。Codec的团队也不是普通的开发者。他们的VLA架构打开了许多以前的代理模型无法实现的用例，因为它能够透过像素而不是截图进行观察。我可以继续说下去，但我会把这些留到未来的帖子中。

操作代理的虚拟环境：$CODEC 我对AI爆炸的核心论点一直围绕着操作代理的崛起。但为了让这些代理成功，它们需要深度的系统访问，实际上赋予它们对个人计算机和敏感数据的控制权，这引入了严重的安全问题。我们已经看到像OpenAI和其他科技巨头如何处理用户数据。虽然大多数人不在乎，但那些最有可能从操作代理中受益的人，即前1%，绝对在乎。就我个人而言，我绝对不会给像OpenAI这样的公司完全访问我的机器的机会，即使这意味着生产力提高10倍。那么为什么选择Codec？ Codec的架构以为AI代理启动隔离的、按需的“云桌面”为中心。其核心是一个基于Kubernetes的编排服务（代号Captain），在Kubernetes pods中提供轻量级虚拟机（VM）。每个代理都有自己的操作系统级别的隔离环境（一个完整的Linux操作系统实例），可以在其中运行应用程序、浏览器或任何代码，完全与其他代理和主机隔离。Kubernetes负责这些代理pods的调度、自动扩展和自愈，确保可靠性并根据负载需求启动/关闭多个代理实例。可信执行环境（TEEs）用于保护这些VM，这意味着代理的机器可以被加密隔离，其内存和执行可以受到主机操作系统或云提供商的保护。这对于敏感任务至关重要：例如，在一个封闭环境中运行的VM可以安全地保存API密钥或加密钱包密钥。当AI代理（基于LLM的“脑”）需要执行操作时，它会向Captain服务发送API请求，然后Captain服务启动或管理代理的VM pod。工作流程：代理请求一台机器，Captain（通过Kubernetes）分配一个pod并附加一个持久卷（用于VM的磁盘）。然后代理可以通过安全通道或流接口连接到其VM以发出命令。Captain为代理提供执行shell命令、上传/下载文件、检索日志，甚至快照VM以供以后恢复的端点。这种设计为代理提供了一个完整的操作系统来工作，但具有受控、审计的访问。因为它是基于Kubernetes构建的，Codec可以水平自动扩展，如果100个代理需要环境，它可以在集群中调度100个pods，并通过重启pods来处理故障。代理的VM可以配备各种MCP服务器（如AI的“USB端口”）。例如，Codec的Conductor模块是一个运行Chrome浏览器和Microsoft Playwright MCP服务器的容器，用于浏览器控制。这允许AI代理打开网页、点击链接、填写表单，并通过标准MCP调用抓取内容，就像人类控制浏览器一样。其他MCP集成可能包括文件系统/终端MCP（让代理安全地运行CLI命令）或特定应用程序的MCP（用于云API、数据库等）。本质上，Codec提供了基础设施“包装器”（VMs、封闭环境、网络），以便高级代理计划可以安全地在真实软件和网络上执行。用例钱包自动化： Codec可以在TEE保护的VM中嵌入钱包或密钥，允许AI代理与区块链网络交互（在DeFi上交易，管理加密资产）而不暴露秘密密钥。这种架构使得链上金融代理能够安全地执行真实交易，这在典型的代理设置中是非常危险的。平台的标语明确列出了对“钱包”的支持作为关键能力。例如，代理可以在其封闭环境中运行以太坊钱包的CLI，签署交易并发送它们，确保如果代理行为不当，它被限制在其VM中，密钥永远不会离开TEE。浏览器和网络自动化： CodecFlow代理可以在其VM中控制完整的网络浏览器。Conductor示例展示了代理启动Chrome并实时将其屏幕流式传输到Twitch。通过Playwright MCP，代理可以像人类用户一样浏览网站、点击按钮和抓取数据。这对于在登录后进行网页抓取、自动化网络交易或测试网络应用程序等任务非常理想。传统框架通常依赖于API调用或简单的无头浏览器脚本；相比之下，CodecFlow可以运行一个具有可见UI的真实浏览器，使其更容易处理复杂的网络应用程序（例如，具有大量JavaScript或CAPTCHA挑战）在AI控制下。真实世界的GUI自动化（遗留系统）：因为每个代理都有一个实际的桌面操作系统，它可以自动化遗留的GUI应用程序或远程桌面会话，基本上像机器人流程自动化（RPA）一样工作，但由AI驱动。例如，代理可以在其Windows VM中打开Excel电子表格，或与没有API的旧终端应用程序进行接口。 Codec的网站明确提到启用“遗留自动化”。这为使用AI操作无法通过现代API访问的软件打开了大门，这在没有封闭环境的情况下将是非常麻烦或不安全的。包含的noVNC集成表明代理可以通过VNC进行观察或控制，这对于监控AI驱动的GUI非常有用。模拟SaaS工作流程：公司通常有涉及多个SaaS应用程序或遗留系统的复杂流程。例如，员工可能会从Salesforce中获取数据，将其与内部ERP中的数据结合，然后将摘要通过电子邮件发送给客户。Codec可以使AI代理通过其VM中的浏览器或客户端软件实际登录这些应用程序来执行整个序列，就像人类一样。这就像RPA，但由可以做出决策和处理变化的LLM驱动。重要的是，这些应用程序的凭据可以安全地提供给VM（甚至封闭在TEE中），因此代理可以使用它们而不必“看到”明文凭据或将其暴露在外部。这可以加速例行后台任务的自动化，同时满足IT的要求，即每个代理都以最低权限和完全可审计性运行（因为VM中的每个操作都可以被记录或记录）。路线图 - 本月底推出公开演示 - 与其他类似平台的功能比较（无web3竞争对手） - TAO集成 - 大型游戏合作伙伴关系在原创性方面，Codec建立在现有技术的基础上，但以一种新颖的方式集成它们以供AI代理使用。隔离执行环境的想法并不新鲜（容器、VM和TEE在云计算中是标准的），但将它们应用于具有无缝API层（MCP）的自主AI代理是非常新颖的。该平台尽可能利用开放标准和工具：它使用像Microsoft的Playwright这样的MCP服务器进行浏览器控制，而不是重新发明轮子，并计划支持AWS的Firecracker微VM以实现更快的虚拟化。它还分叉了现有的解决方案，如noVNC用于流式传输桌面。展示了该项目站在经过验证的技术（Kubernetes、封闭硬件、开源库）的基础上，将其原创开发集中在粘合逻辑和编排上（“秘密武器”是它如何一起工作）。开源组件和即将推出的云服务的结合（通过提到$CODEC代币实用性和公共产品访问暗示）意味着Codec很快将在多种形式中可访问（既作为服务也可自托管）。团队 Moyai：15年以上开发经验，目前在Elixir Games领导AI开发。 lil’km：5年以上AI开发者，目前在HuggingFace参与LeRobot项目。 HuggingFace是一家大型机器人公司，Moyai在Elixir Games担任AI负责人（由Square Enix和Solanafdn支持）。我亲自视频通话了整个团队，真的很喜欢他们带来的能量。把他们放在我雷达上的朋友也在Token2049上见过他们，并且只有好话要说。最后的想法还有很多内容要覆盖，我会在未来的更新和我在Telegram频道的帖子中保存。我一直相信云基础设施是操作代理的未来。我一直尊重Nuit正在构建的东西，但Codec是第一个向我展示我所寻找的全栈信念的项目。团队显然是顶级工程师。他们公开表示营销不是他们的强项，这可能是为什么这一直被忽视的原因。我将与他们密切合作，帮助塑造真正反映他们正在构建的深度的GTM策略。以400万美元的市值和这种水平的基础设施，它感觉被严重低估了。如果他们能交付一个可用的产品，我认为这可能很容易标志着下一个AI基础设施周期的开始。一如既往，存在风险，虽然我在过去几周内秘密审查了团队，但没有项目是完全防止骗局的。价格目标？高得多。

关于我为什么选择 Codec 而不是 Nuit 作为操作员的简要总结： Codec 使用三层架构（机器、系统、智能），使得高性能的代理能够独立运行并具备本地控制能力。每个 Codec 代理在本地运行，采用视觉-语言-行动（VLA）循环，减少延迟并提高可靠性。 Nuit 的模型依赖于浏览器解析和云 AI 调用，这限制了灵活性并引入了脆弱性。 Codec 在数千个代理之间水平扩展，没有共享状态，并具备容错的模块化特性。

1.02万

本页面内容由第三方提供。除非另有说明，欧易不是所引用文章的作者，也不对此类材料主张任何版权。该内容仅供参考，并不代表欧易观点，不作为任何形式的认可，也不应被视为投资建议或购买或出售数字资产的招揽。在使用生成式人工智能提供摘要或其他信息的情况下，此类人工智能生成的内容可能不准确或不一致。请阅读链接文章，了解更多详情和信息。欧易不对第三方网站上的内容负责。包含稳定币、NFTs 等在内的数字资产涉及较高程度的风险，其价值可能会产生较大波动。请根据自身财务状况，仔细考虑交易或持有数字资产是否适合您。