OpenAI acaba de confirmar mi ... | Trissy OKX Feed

OpenAI acaba de confirmar mi tesis de la estrella del norte para la IA hoy al lanzar su agente operador. No solo fue esta mi tesis rectora para $CODEC, sino para todas las demás inversiones en IA que hice, incluidas las de principios de año durante la manía de la IA. Ha habido mucha discusión con Codec con respecto a la robótica, aunque esa vertical tendrá su propia narrativa muy pronto, la razón subyacente por la que fui tan optimista sobre Codec desde el día 1 se debe a cómo su arquitectura impulsa a los agentes operadores. La gente todavía subestima cuánta participación de mercado está en juego al crear software que se ejecuta de forma autónoma, superando a los trabajadores humanos sin la necesidad de indicaciones o supervisión constantes. He visto muchas comparaciones con $NUIT. En primer lugar, quiero decir que soy un gran admirador de lo que Nuit está construyendo y no deseo nada más que su éxito. Si escribes "nuit" en mi telegrama, verás que en abril dije que si tuviera que mantener una moneda durante varios meses, habría sido Nuit debido a mi tesis de operador. Nuit era el proyecto de operador más prometedor sobre el papel, pero después de una extensa investigación, descubrí que su arquitectura carecía de la profundidad necesaria para justificar una inversión importante o poner mi reputación detrás de ella. Con esto en mente, ya era consciente de las brechas arquitectónicas en los equipos de agentes operadores existentes y buscaba activamente un proyecto que las abordara. Poco después apareció Codec (gracias a @0xdetweiler insistiendo en que los investigara más profundamente) y esta es la diferencia entre los dos: $CODEC frente a $NUIT La arquitectura de Codec se construye en tres capas; Máquina, sistema e inteligencia, que separan la infraestructura, la interfaz del entorno y la lógica de IA. Cada agente de operador en Codec se ejecuta en su propia máquina virtual o contenedor aislado, lo que permite un rendimiento casi nativo y aislamiento de fallas. Este diseño en capas significa que los componentes pueden escalar o evolucionar de forma independiente sin romper el sistema. La arquitectura de Nuit toma un camino diferente al ser más monolítica. Su pila gira en torno a un agente de navegador web especializado que combina análisis, razonamiento de IA y acción. Lo que significa que analizan profundamente las páginas web en datos estructurados para que la IA los consuma y se basan en el procesamiento en la nube para tareas pesadas de IA. El enfoque de Codec de incrustar un modelo ligero de Visión-Lenguaje-Acción (VLA) dentro de cada agente significa que puede ejecutarse completamente local. Lo que no requiere un ping constante a la nube para obtener instrucciones, lo que reduce la latencia y evita la dependencia del tiempo de actividad y el ancho de banda. El agente de Nuit procesa las tareas convirtiendo primero las páginas web a un formato semántico y luego usando un cerebro LLM para averiguar qué hacer, lo que mejora con el tiempo con el aprendizaje por refuerzo. Si bien es efectivo para la automatización web, este flujo depende del procesamiento pesado de IA del lado de la nube y las estructuras de página predefinidas. La inteligencia de dispositivos locales de Codec significa que las decisiones ocurren más cerca de los datos, lo que reduce la sobrecarga y hace que el sistema sea más estable ante cambios inesperados (sin scripts frágiles ni suposiciones DOM). Los operadores de Codec siguen un bucle continuo de percibir-pensar-actuar. La capa de la máquina transmite el entorno (por ejemplo, una aplicación en vivo o una fuente de robot) a la capa de inteligencia a través de los canales optimizados de la capa del sistema, lo que le da a la IA "ojos" en el estado actual. Luego, el modelo VLA del agente interpreta las imágenes y las instrucciones juntas para decidir una acción, que la capa del sistema ejecuta a través de eventos de teclado / mouse o control de robot. Este bucle integrado significa que se adapta a eventos en vivo, incluso si la interfaz de usuario cambia, no interrumpirá el flujo. Para poner todo esto en una analogía más simple, piense en los operadores de Codec como un empleado autosuficiente que se adapta a las sorpresas en el trabajo. El agente de Nuit es como un empleado que necesita hacer una pausa, describir la situación a un supervisor por teléfono y esperar instrucciones. Sin caer demasiado en una madriguera de conejo técnica, esto debería darle una idea de alto nivel de por qué elegí Codec como mi apuesta principal en Operadores. Sí, Nuit cuenta con el respaldo de YC, un equipo apilado y un github de nivel S. Aunque la arquitectura de Codec se ha construido teniendo en cuenta el escalado horizontal, lo que significa que puede implementar miles de agentes en paralelo sin memoria compartida ni contexto de ejecución entre agentes. El equipo de Codec tampoco es un desarrollador promedio. Su arquitectura VLA abre una multitud de casos de uso que no eran posibles con los modelos de agentes anteriores debido a la visión a través de píxeles, no capturas de pantalla. Podría continuar, pero lo guardaré para futuras publicaciones.

Entornos Virtuales para Agentes Operadores: $CODEC Mi tesis central en torno a la explosión de la IA siempre se ha centrado en el aumento de los agentes operadores. Pero para que estos agentes tengan éxito, requieren un acceso profundo al sistema, lo que les otorga efectivamente el control sobre su computadora personal y los datos confidenciales, lo que presenta serios problemas de seguridad. Ya hemos visto cómo empresas como OpenAI y otros gigantes tecnológicos manejan los datos de los usuarios. Si bien a la mayoría de la gente no le importa, a las personas que más se benefician de los agentes operadores, el 1% superior, sí lo hacen. Personalmente, no hay ninguna posibilidad de que le esté dando a una empresa como OpenAI acceso completo a mi máquina, incluso si eso significa un aumento del 10× en la productividad. Entonces, ¿por qué Codec? La arquitectura de Codec se centra en el lanzamiento de "escritorios en la nube" aislados y bajo demanda para agentes de IA. En su núcleo se encuentra un servicio de orquestación basado en Kubernetes (nombre en clave Captain) que aprovisiona máquinas virtuales ligeras (VM) dentro de pods de Kubernetes. Cada agente obtiene su propio entorno aislado a nivel de sistema operativo (una instancia completa del sistema operativo Linux) donde puede ejecutar aplicaciones, navegadores o cualquier código, completamente aislado de otros agentes y del host. Kubernetes se encarga de la programación, el escalado automático y la autorreparación de estos pods de agentes, lo que garantiza la fiabilidad y la capacidad de aumentar o reducir rápidamente muchas instancias de agentes según las demandas de carga Los entornos de ejecución de confianza (TEE) se utilizan para proteger estas máquinas virtuales, lo que significa que la máquina del agente se puede aislar criptográficamente, su memoria y ejecución se pueden proteger del sistema operativo host o del proveedor de la nube. Esto es crucial para tareas confidenciales: por ejemplo, una máquina virtual que se ejecuta en un enclave podría contener claves API o secretos de billeteras criptográficas de forma segura. Cuando un agente de IA (un "cerebro" basado en LLM) necesita realizar acciones, envía solicitudes de API al servicio Capitán, que luego inicia o administra el pod de VM del agente. El flujo de trabajo: el agente solicita una máquina, Captain (a través de Kubernetes) asigna un pod y adjunta un volumen persistente (para el disco de la VM). A continuación, el agente puede conectarse a su máquina virtual (a través de un canal seguro o una interfaz de streaming) para emitir comandos. Captain expone los puntos finales para que el agente ejecute comandos de shell, cargue o descargue archivos, recupere registros e incluso tome una instantánea de la máquina virtual para su posterior restauración. Este diseño proporciona al agente un sistema operativo completo en el que trabajar, pero con acceso controlado y auditado. Debido a que se basa en Kubernetes, Codec puede escalar automáticamente horizontalmente, si 100 agentes necesitan entornos, puede programar 100 pods en todo el clúster y controlar los errores reiniciando los pods. La VM del agente puede equiparse con varios servidores MCP (como un "puerto USB" para IA). Por ejemplo, el módulo Conductor de Codec es un contenedor que ejecuta un navegador Chrome junto con un servidor MCP de Microsoft Playwright para el control del navegador. Esto permite a un agente de IA abrir páginas web, hacer clic en enlaces, rellenar formularios y extraer contenido a través de llamadas MCP estándar, como si fuera un humano controlando el navegador. Otras integraciones de MCP podrían incluir un MCP de sistema de archivos/terminal (para permitir que un agente ejecute comandos CLI de forma segura) o MCP específicos de la aplicación (para API en la nube, bases de datos, etc.). Esencialmente, Codec proporciona los "envoltorios" de infraestructura (VM, enclaves, redes) para que los planes de agentes de alto nivel se puedan ejecutar de forma segura en software y redes reales. Casos de uso Automatización de billeteras: El códec puede incrustar billeteras o claves dentro de una máquina virtual protegida por TEE, lo que permite a un agente de IA interactuar con las redes blockchain (comerciar en DeFi, administrar criptoactivos) sin exponer claves secretas. Esta arquitectura permite a los agentes financieros en cadena ejecutar transacciones reales de forma segura, algo que sería muy peligroso en una configuración de agente típica. El eslogan de la plataforma enumera explícitamente el soporte para "billeteras" como una capacidad clave. Un agente podría, por ejemplo, ejecutar una CLI para una billetera Ethereum dentro de su enclave, firmar transacciones y enviarlas, con la seguridad de que si el agente se comporta mal, se limita a su VM y las claves nunca salen del TEE. Navegador y automatización web: Los agentes de CodecFlow pueden controlar exploradores web completos en su máquina virtual. En el ejemplo de Conductor, un agente inicia Chrome y transmite su pantalla a Twitch en tiempo real. A través de Playwright MCP, el agente puede navegar por sitios web, hacer clic en botones y extraer datos como un usuario humano. Esto es ideal para tareas como el raspado web detrás de inicios de sesión, transacciones web automatizadas o pruebas de aplicaciones web. Los frameworks tradicionales suelen basarse en llamadas a la API o en simples scripts de navegador sin cabeza; por el contrario, CodecFlow puede ejecutar un navegador real con una interfaz de usuario visible, lo que facilita el manejo de aplicaciones web complejas (por ejemplo, con desafíos pesados de JavaScript o CAPTCHA) bajo el control de la IA. Automatización de GUI en el mundo real (sistemas heredados): Debido a que cada agente tiene un sistema operativo de escritorio real, puede automatizar aplicaciones GUI heredadas o sesiones de escritorio remoto, funcionando esencialmente como la automatización robótica de procesos (RPA) pero impulsada por IA. Por ejemplo, un agente podría abrir una hoja de cálculo de Excel en su máquina virtual de Windows o interactuar con una aplicación de terminal antigua que no tiene API. El sitio de Codec menciona explícitamente la habilitación de la "automatización heredada". Esto abre la puerta al uso de la IA para operar software al que no se puede acceder a través de las API modernas, una tarea que sería muy complicada o insegura sin un entorno contenido. La integración noVNC incluida sugiere que los agentes pueden ser observados o controlados a través de VNC, lo cual es útil para monitorear una IA que maneja una GUI. Simulación de flujos de trabajo SaaS: Las empresas a menudo tienen procesos complejos que involucran múltiples aplicaciones SaaS o sistemas heredados. por ejemplo, un empleado puede tomar datos de Salesforce, combinarlos con datos de un ERP interno y luego enviar un resumen por correo electrónico a un cliente. El códec puede permitir que un agente de IA realice toda esta secuencia iniciando sesión en estas aplicaciones a través de un navegador o software cliente en su máquina virtual, al igual que lo haría un humano. Esto es como RPA, pero impulsado por un LLM que puede tomar decisiones y manejar la variabilidad. Es importante destacar que las credenciales de estas aplicaciones se pueden proporcionar a la máquina virtual de forma segura (e incluso incluirse en un TEE), por lo que el agente puede usarlas sin tener que "ver" las credenciales de texto sin formato ni exponerlas externamente. Esto podría acelerar la automatización de las tareas rutinarias de back office, al tiempo que satisface al departamento de TI que cada agente se ejecuta con el mínimo privilegio y la auditabilidad total (ya que cada acción en la máquina virtual se puede registrar o grabar). Hoja de ruta - Lanzamiento de la demo pública a finales de mes - Comparación de características con otras plataformas similares (sin competidor de web3) - Integración de TAO - Gran asociación de juegos En términos de originalidad, Codec se basa en una base de tecnologías existentes, pero las integra de una manera novedosa para el uso de agentes de IA. La idea de los entornos de ejecución aislados no es nueva (los contenedores, las máquinas virtuales y los TEE son estándar en la computación en la nube), pero aplicarlos a agentes de IA autónomos con una capa de API (MCP) sin interrupciones es extremadamente novedoso. La plataforma aprovecha los estándares y herramientas abiertos siempre que sea posible: utiliza servidores MCP como Playwright de Microsoft para el control del navegador en lugar de reinventar esa rueda, y planea admitir las micro-VM Firecracker de AWS para una virtualización más rápida. También bifurcó soluciones existentes como noVNC para escritorios de transmisión. Lo que demuestra es que el proyecto se asienta sobre los cimientos de una tecnología probada (Kubernetes, hardware de enclave, bibliotecas de código abierto), centrando su desarrollo original en la lógica de pegamento y la orquestación (la "salsa secreta" es cómo funciona todo en conjunto). La combinación de componentes de código abierto y un próximo servicio en la nube (insinuado por la mención de una utilidad de token $CODEC y acceso público a productos) significa que Codec pronto será accesible en múltiples formas (tanto como servicio como autoalojado). Equipo Moyai: 15+ años de experiencia en desarrollo, actualmente liderando el desarrollo de IA en Elixir Games. lil'km: 5+ años desarrollador de IA, actualmente trabajando con HuggingFace en el proyecto LeRobot. HuggingFace es una gran empresa de robótica y Moyai trabaja como jefe de inteligencia artificial en elixir games (respaldado por Square Enix y solanafdn. Personalmente, he hecho videollamadas a todo el equipo y me gusta mucho la energía que aportan. Mi amigo que los puso en mi radar también los conoció a todos en Token2049 y solo tenía cosas buenas que decir. Reflexiones finales Todavía queda mucho por cubrir, que guardaré para futuras actualizaciones y publicaciones en mi canal de Telegram. Durante mucho tiempo he creído que la infraestructura en la nube es el futuro para los agentes operadores. Siempre he respetado lo que Nuit está construyendo, pero Codec es el primer proyecto que me ha demostrado la convicción full-stack que estaba buscando. El equipo está formado por ingenieros de primer nivel. Han dicho abiertamente que el marketing no es su fuerte, lo que probablemente sea la razón por la que esto ha pasado desapercibido. Trabajaré estrechamente con ellos para ayudar a dar forma a la estrategia de GTM que realmente refleje la profundidad de lo que están construyendo. Con una capitalización de mercado de 4 millones de dólares y este nivel de infraestructura, se siente enormemente infravalorado. Si pueden ofrecer un producto utilizable, creo que podría marcar fácilmente el comienzo del próximo ciclo de infraestructura de IA. Como siempre, hay riesgos y, aunque he examinado al equipo en sigilo durante las últimas semanas, ningún proyecto es completamente a prueba de alfombras. ¿Objetivos de precios? Mucho más alto.

Tldr sobre por qué elegí Codec > Nuit para operadores: El códec utiliza una arquitectura de tres capas (máquina, sistema, inteligencia) que permite agentes aislados y de alto rendimiento con control nativo. Cada agente de códec se ejecuta localmente mediante un bucle Vision-Language-Action (VLA), lo que reduce la latencia y aumenta la confiabilidad. El modelo de Nuit depende del análisis del navegador + llamadas de IA en la nube, lo que limita la flexibilidad e introduce fragilidad. El códec se escala horizontalmente a través de miles de agentes, sin estado compartido y modularidad tolerante a fallas.

10.24 k

El contenido al que estás accediendo se ofrece por terceros. A menos que se indique lo contrario, OKX no es autor de la información y no reclama ningún derecho de autor sobre los materiales. El contenido solo se proporciona con fines informativos y no representa las opiniones de OKX. No pretende ser un respaldo de ningún tipo y no debe ser considerado como un consejo de inversión o una solicitud para comprar o vender activos digitales. En la medida en que la IA generativa se utiliza para proporcionar resúmenes u otra información, dicho contenido generado por IA puede ser inexacto o incoherente. Lee el artículo enlazado para más detalles e información. OKX no es responsable del contenido alojado en sitios de terceros. Los holdings de activos digitales, incluidos stablecoins y NFT, suponen un alto nivel de riesgo y pueden fluctuar mucho. Debes considerar cuidadosamente si el trading o holding de activos digitales es adecuado para ti según tu situación financiera.