OpenAI acaba de confirmar mi tesis de estrella del norte para la IA hoy al lanzar su agente operador. No solo fue esta mi tesis guía para $CODEC, sino para cada otra inversión en IA que hice, incluidas las de principios de año durante la locura de la IA. Ha habido mucha discusión con Codec en relación a la robótica, mientras que ese vertical tendrá su propia narrativa muy pronto, la razón subyacente por la que fui tan optimista sobre Codec desde el primer día es debido a cómo su arquitectura potencia a los agentes operadores. La gente todavía subestima cuánto mercado está en juego al construir software que funciona de manera autónoma, superando a los trabajadores humanos sin necesidad de constantes indicaciones o supervisión. He visto muchas comparaciones con $NUIT. Primero quiero decir que soy un gran fan de lo que Nuit está construyendo y deseo nada más que su éxito. Si escribes "nuit" en mi telegram, verás que en abril dije que si tuviera que mantener una moneda durante varios meses, habría sido Nuit debido a mi tesis de operador. Nuit era el proyecto de operador más prometedor en papel, pero después de una extensa investigación, encontré que su arquitectura carecía de la profundidad necesaria para justificar una inversión importante o poner mi reputación detrás de ella. Con esto en mente, ya estaba consciente de las brechas arquitectónicas en los equipos de agentes operadores existentes y buscando activamente un proyecto que las abordara. Poco después apareció Codec (gracias a @0xdetweiler por insistir en que profundizara en ellos) y esta es la diferencia entre los dos: $CODEC vs $NUIT La arquitectura de Codec está construida en tres capas; Máquina, Sistema e Inteligencia, que separan la infraestructura, la interfaz del entorno y la lógica de IA. Cada agente operador en Codec funciona en su propia VM o contenedor aislado, lo que permite un rendimiento casi nativo y aislamiento de fallos. Este diseño en capas significa que los componentes pueden escalar o evolucionar de manera independiente sin romper el sistema. La arquitectura de Nuit toma un camino diferente al ser más monolítica. Su pila gira en torno a un agente de navegador web especializado que combina análisis, razonamiento de IA y acción. Esto significa que analizan profundamente las páginas web en datos estructurados para que la IA los consuma y depende del procesamiento en la nube para tareas pesadas de IA. El enfoque de Codec de incrustar un modelo ligero de Visión-Lenguaje-Acción (VLA) dentro de cada agente significa que puede funcionar completamente local. Lo que no requiere constantes pings de vuelta a la nube para instrucciones, eliminando la latencia y evitando la dependencia de tiempo de actividad y ancho de banda. El agente de Nuit procesa tareas convirtiendo primero las páginas web en un formato semántico y luego usando un cerebro LLM para averiguar qué hacer, lo que mejora con el tiempo con el aprendizaje por refuerzo. Si bien es efectivo para la automatización web, este flujo depende del procesamiento de IA en la nube y de estructuras de página predefinidas. La inteligencia del dispositivo local de Codec significa que las decisiones se toman más cerca de los datos, reduciendo la sobrecarga y haciendo que el sistema sea más estable ante cambios inesperados (sin scripts frágiles o suposiciones de DOM). Los operadores de Codec siguen un bucle continuo de percibir–pensar–actuar. La capa de máquina transmite el entorno (por ejemplo, un feed de aplicación en vivo o robot) a la capa de inteligencia a través de los canales optimizados de la capa del sistema, dando a la IA "ojos" sobre el estado actual. El modelo VLA del agente luego interpreta las visuales y las instrucciones juntas para decidir una acción, que la capa del sistema ejecuta a través de eventos de teclado/rato o control de robot. Este bucle integrado significa que se adapta a eventos en vivo, incluso si la interfaz de usuario cambia, no romperás el flujo. Para poner todo esto en una analogía más simple, piensa en los operadores de Codec como un empleado autosuficiente que se adapta a sorpresas en el trabajo. El agente de Nuit es como un empleado que necesita pausar, describir la situación a un supervisor por teléfono y esperar instrucciones. Sin entrar demasiado en un agujero técnico, esto debería darte una idea de alto nivel sobre por qué elegí Codec como mi apuesta principal en Operadores. Sí, Nuit tiene respaldo de YC, un equipo impresionante y un github de nivel S. Aunque la arquitectura de Codec ha sido construida con escalabilidad horizontal en mente, lo que significa que puedes desplegar miles de agentes en paralelo sin memoria compartida o contexto de ejecución entre agentes. El equipo de Codec tampoco es de desarrolladores promedio. Su arquitectura VLA abre una multitud de casos de uso que no eran posibles con modelos de agentes anteriores debido a ver a través de píxeles, no capturas de pantalla. Podría seguir, pero lo dejaré para futuras publicaciones.
Entornos Virtuales para Agentes Operadores: $CODEC Mi tesis central en torno a la explosión de la IA siempre se ha centrado en el aumento de los agentes operadores. Pero para que estos agentes tengan éxito, requieren un acceso profundo al sistema, lo que les otorga efectivamente el control sobre su computadora personal y los datos confidenciales, lo que presenta serios problemas de seguridad. Ya hemos visto cómo empresas como OpenAI y otros gigantes tecnológicos manejan los datos de los usuarios. Si bien a la mayoría de la gente no le importa, a las personas que más se benefician de los agentes operadores, el 1% superior, sí lo hacen. Personalmente, no hay ninguna posibilidad de que le esté dando a una empresa como OpenAI acceso completo a mi máquina, incluso si eso significa un aumento del 10× en la productividad. Entonces, ¿por qué Codec? La arquitectura de Codec se centra en el lanzamiento de "escritorios en la nube" aislados y bajo demanda para agentes de IA. En su núcleo se encuentra un servicio de orquestación basado en Kubernetes (nombre en clave Captain) que aprovisiona máquinas virtuales ligeras (VM) dentro de pods de Kubernetes. Cada agente obtiene su propio entorno aislado a nivel de sistema operativo (una instancia completa del sistema operativo Linux) donde puede ejecutar aplicaciones, navegadores o cualquier código, completamente aislado de otros agentes y del host. Kubernetes se encarga de la programación, el escalado automático y la autorreparación de estos pods de agentes, lo que garantiza la fiabilidad y la capacidad de aumentar o reducir rápidamente muchas instancias de agentes según las demandas de carga Los entornos de ejecución de confianza (TEE) se utilizan para proteger estas máquinas virtuales, lo que significa que la máquina del agente se puede aislar criptográficamente, su memoria y ejecución se pueden proteger del sistema operativo host o del proveedor de la nube. Esto es crucial para tareas confidenciales: por ejemplo, una máquina virtual que se ejecuta en un enclave podría contener claves API o secretos de billeteras criptográficas de forma segura. Cuando un agente de IA (un "cerebro" basado en LLM) necesita realizar acciones, envía solicitudes de API al servicio Capitán, que luego inicia o administra el pod de VM del agente. El flujo de trabajo: el agente solicita una máquina, Captain (a través de Kubernetes) asigna un pod y adjunta un volumen persistente (para el disco de la VM). A continuación, el agente puede conectarse a su máquina virtual (a través de un canal seguro o una interfaz de streaming) para emitir comandos. Captain expone los puntos finales para que el agente ejecute comandos de shell, cargue o descargue archivos, recupere registros e incluso tome una instantánea de la máquina virtual para su posterior restauración. Este diseño proporciona al agente un sistema operativo completo en el que trabajar, pero con acceso controlado y auditado. Debido a que se basa en Kubernetes, Codec puede escalar automáticamente horizontalmente, si 100 agentes necesitan entornos, puede programar 100 pods en todo el clúster y controlar los errores reiniciando los pods. La VM del agente puede equiparse con varios servidores MCP (como un "puerto USB" para IA). Por ejemplo, el módulo Conductor de Codec es un contenedor que ejecuta un navegador Chrome junto con un servidor MCP de Microsoft Playwright para el control del navegador. Esto permite a un agente de IA abrir páginas web, hacer clic en enlaces, rellenar formularios y extraer contenido a través de llamadas MCP estándar, como si fuera un humano controlando el navegador. Otras integraciones de MCP podrían incluir un MCP de sistema de archivos/terminal (para permitir que un agente ejecute comandos CLI de forma segura) o MCP específicos de la aplicación (para API en la nube, bases de datos, etc.). Esencialmente, Codec proporciona los "envoltorios" de infraestructura (VM, enclaves, redes) para que los planes de agentes de alto nivel se puedan ejecutar de forma segura en software y redes reales. Casos de uso Automatización de billeteras: El códec puede incrustar billeteras o claves dentro de una máquina virtual protegida por TEE, lo que permite a un agente de IA interactuar con las redes blockchain (comerciar en DeFi, administrar criptoactivos) sin exponer claves secretas. Esta arquitectura permite a los agentes financieros en cadena ejecutar transacciones reales de forma segura, algo que sería muy peligroso en una configuración de agente típica. El eslogan de la plataforma enumera explícitamente el soporte para "billeteras" como una capacidad clave. Un agente podría, por ejemplo, ejecutar una CLI para una billetera Ethereum dentro de su enclave, firmar transacciones y enviarlas, con la seguridad de que si el agente se comporta mal, se limita a su VM y las claves nunca salen del TEE. Navegador y automatización web: Los agentes de CodecFlow pueden controlar exploradores web completos en su máquina virtual. En el ejemplo de Conductor, un agente inicia Chrome y transmite su pantalla a Twitch en tiempo real. A través de Playwright MCP, el agente puede navegar por sitios web, hacer clic en botones y extraer datos como un usuario humano. Esto es ideal para tareas como el raspado web detrás de inicios de sesión, transacciones web automatizadas o pruebas de aplicaciones web. Los frameworks tradicionales suelen basarse en llamadas a la API o en simples scripts de navegador sin cabeza; por el contrario, CodecFlow puede ejecutar un navegador real con una interfaz de usuario visible, lo que facilita el manejo de aplicaciones web complejas (por ejemplo, con desafíos pesados de JavaScript o CAPTCHA) bajo el control de la IA. Automatización de GUI en el mundo real (sistemas heredados): Debido a que cada agente tiene un sistema operativo de escritorio real, puede automatizar aplicaciones GUI heredadas o sesiones de escritorio remoto, funcionando esencialmente como la automatización robótica de procesos (RPA) pero impulsada por IA. Por ejemplo, un agente podría abrir una hoja de cálculo de Excel en su máquina virtual de Windows o interactuar con una aplicación de terminal antigua que no tiene API. El sitio de Codec menciona explícitamente la habilitación de la "automatización heredada". Esto abre la puerta al uso de la IA para operar software al que no se puede acceder a través de las API modernas, una tarea que sería muy complicada o insegura sin un entorno contenido. La integración noVNC incluida sugiere que los agentes pueden ser observados o controlados a través de VNC, lo cual es útil para monitorear una IA que maneja una GUI. Simulación de flujos de trabajo SaaS: Las empresas a menudo tienen procesos complejos que involucran múltiples aplicaciones SaaS o sistemas heredados. por ejemplo, un empleado puede tomar datos de Salesforce, combinarlos con datos de un ERP interno y luego enviar un resumen por correo electrónico a un cliente. El códec puede permitir que un agente de IA realice toda esta secuencia iniciando sesión en estas aplicaciones a través de un navegador o software cliente en su máquina virtual, al igual que lo haría un humano. Esto es como RPA, pero impulsado por un LLM que puede tomar decisiones y manejar la variabilidad. Es importante destacar que las credenciales de estas aplicaciones se pueden proporcionar a la máquina virtual de forma segura (e incluso incluirse en un TEE), por lo que el agente puede usarlas sin tener que "ver" las credenciales de texto sin formato ni exponerlas externamente. Esto podría acelerar la automatización de las tareas rutinarias de back office, al tiempo que satisface al departamento de TI que cada agente se ejecuta con el mínimo privilegio y la auditabilidad total (ya que cada acción en la máquina virtual se puede registrar o grabar). Hoja de ruta - Lanzamiento de la demo pública a finales de mes - Comparación de características con otras plataformas similares (sin competidor de web3) - Integración de TAO - Gran asociación de juegos En términos de originalidad, Codec se basa en una base de tecnologías existentes, pero las integra de una manera novedosa para el uso de agentes de IA. La idea de los entornos de ejecución aislados no es nueva (los contenedores, las máquinas virtuales y los TEE son estándar en la computación en la nube), pero aplicarlos a agentes de IA autónomos con una capa de API (MCP) sin interrupciones es extremadamente novedoso. La plataforma aprovecha los estándares y herramientas abiertos siempre que sea posible: utiliza servidores MCP como Playwright de Microsoft para el control del navegador en lugar de reinventar esa rueda, y planea admitir las micro-VM Firecracker de AWS para una virtualización más rápida. También bifurcó soluciones existentes como noVNC para escritorios de transmisión. Lo que demuestra es que el proyecto se asienta sobre los cimientos de una tecnología probada (Kubernetes, hardware de enclave, bibliotecas de código abierto), centrando su desarrollo original en la lógica de pegamento y la orquestación (la "salsa secreta" es cómo funciona todo en conjunto). La combinación de componentes de código abierto y un próximo servicio en la nube (insinuado por la mención de una utilidad de token $CODEC y acceso público a productos) significa que Codec pronto será accesible en múltiples formas (tanto como servicio como autoalojado). Equipo Moyai: 15+ años de experiencia en desarrollo, actualmente liderando el desarrollo de IA en Elixir Games. lil'km: 5+ años desarrollador de IA, actualmente trabajando con HuggingFace en el proyecto LeRobot. HuggingFace es una gran empresa de robótica y Moyai trabaja como jefe de inteligencia artificial en elixir games (respaldado por Square Enix y solanafdn. Personalmente, he hecho videollamadas a todo el equipo y me gusta mucho la energía que aportan. Mi amigo que los puso en mi radar también los conoció a todos en Token2049 y solo tenía cosas buenas que decir. Reflexiones finales Todavía queda mucho por cubrir, que guardaré para futuras actualizaciones y publicaciones en mi canal de Telegram. Durante mucho tiempo he creído que la infraestructura en la nube es el futuro para los agentes operadores. Siempre he respetado lo que Nuit está construyendo, pero Codec es el primer proyecto que me ha demostrado la convicción full-stack que estaba buscando. El equipo está formado por ingenieros de primer nivel. Han dicho abiertamente que el marketing no es su fuerte, lo que probablemente sea la razón por la que esto ha pasado desapercibido. Trabajaré estrechamente con ellos para ayudar a dar forma a la estrategia de GTM que realmente refleje la profundidad de lo que están construyendo. Con una capitalización de mercado de 4 millones de dólares y este nivel de infraestructura, se siente enormemente infravalorado. Si pueden ofrecer un producto utilizable, creo que podría marcar fácilmente el comienzo del próximo ciclo de infraestructura de IA. Como siempre, hay riesgos y, aunque he examinado al equipo en sigilo durante las últimas semanas, ningún proyecto es completamente a prueba de alfombras. ¿Objetivos de precios? Mucho más alto.
Resumen sobre por qué elegí Codec > Nuit para Operadores: Codec utiliza una arquitectura de tres capas (Máquina, Sistema, Inteligencia) que permite agentes aislados y de alto rendimiento con control nativo. Cada agente de Codec se ejecuta localmente utilizando un bucle de Visión-Lenguaje-Acción (VLA), lo que reduce la latencia y aumenta la fiabilidad. El modelo de Nuit depende del análisis del navegador + llamadas a la IA en la nube, lo que limita la flexibilidad e introduce fragilidad. Codec se escala horizontalmente a través de miles de agentes, sin estado compartido y con modularidad tolerante a fallos.
Mostrar original
11,14 mil
61
El contenido de esta página lo proporcionan terceros. A menos que se indique lo contrario, OKX no es el autor de los artículos citados y no reclama ningún derecho de autor sobre los materiales. El contenido se proporciona únicamente con fines informativos y no representa las opiniones de OKX. No pretende ser un respaldo de ningún tipo y no debe ser considerado como un consejo de inversión o una solicitud para comprar o vender activos digitales. En la medida en que la IA generativa se utiliza para proporcionar resúmenes u otra información, dicho contenido generado por IA puede ser inexacto o incoherente. Lee el artículo vinculado para obtener más detalles e información. OKX no es responsable del contenido alojado en sitios de terceros. El holding de activos digitales, incluyendo stablecoins y NFT, implican un alto grado de riesgo y pueden fluctuar en gran medida. Debes considerar cuidadosamente si el trading o holding de activos digitales es adecuado para ti a la luz de tu situación financiera.