Сьогодні OpenAI щойно підтвердила мою тезу про північну зірку щодо штучного інтелекту, випустивши свого оператора-агента. Не тільки це була моя керівна теза для $CODEC, але й усі інші інвестиції в штучний інтелект, які я робив, включно з тими, що були зроблені на початку року під час манії штучного інтелекту. Було багато дискусій з Codec щодо робототехніки, хоча ця вертикаль дуже скоро матиме свій власний наратив, основна причина, через яку я так оптимістично оцінював Codec з першого дня, полягає в тому, як його архітектура впливає на операторів-агентів. Люди все ще недооцінюють, яка частка ринку поставлена на карту, створюючи програмне забезпечення, яке працює автономно, перевершуючи людських працівників без необхідності постійних підказок або контролю. Я бачив багато порівнянь з $NUIT. По-перше, я хочу сказати, що я великий шанувальник того, що будує Nuit, і бажаю лише їхнього успіху. Якщо ви наберете "nuit" у мій телеграм, то побачите, що ще у квітні я сказав, що якби мені довелося тримати одну монету протягом кількох місяців, то це була б Nuit через мою операторську дисертацію. Nuit був найперспективнішим проектом оператора на папері, але після ретельного дослідження я виявив, що їхній архітектурі не вистачає глибини, необхідної для виправдання великих інвестицій або забезпечення моєї репутації. Маючи це на увазі, я вже усвідомлював архітектурні прогалини в існуючих командах операторів-агентів і активно шукав проект, який би їх вирішував. Незабаром після цього з'явилися Codec (дякуючи @0xdetweiler наполягаю, я дивлюся на них глибше), і ось різниця між ними: $CODEC проти $NUIT Архітектура Codec побудована на трьох рівнях; Машина, система та інтелект, які розділяють інфраструктуру, інтерфейс середовища та логіку штучного інтелекту. Кожен операторський агент у Codec працює у власній ізольованій віртуальній машині або контейнері, що забезпечує майже вбудовану продуктивність та ізоляцію несправностей. Така багаторівнева конструкція означає, що компоненти можуть масштабуватися або розвиватися незалежно без порушення системи. Архітектура Nuit йде іншим шляхом, будучи більш монолітною. Їхній стек обертається навколо спеціалізованого агента веб-браузера, який поєднує в собі парсинг, міркування штучного інтелекту та дії. Це означає, що вони глибоко аналізують веб-сторінки в структуровані дані для споживання штучним інтелектом і покладаються на хмарну обробку для важких завдань штучного інтелекту. Підхід Codec, який полягає у вбудовуванні легкої моделі Vision-Language-Action (VLA) у кожен агент, означає, що вона може працювати повністю локально. Що не вимагає постійного зворотного зв'язку з поверненням у хмару для отримання інструкцій, що дозволяє скоротити затримку та уникнути залежності від часу безвідмовної роботи та пропускної здатності. Агент Nuit обробляє завдання, спочатку перетворюючи веб-сторінки в семантичний формат, а потім використовуючи мозок LLM, щоб з'ясувати, що робити, що з часом покращується завдяки навчанню з підкріпленням. Хоча цей процес ефективний для веб-автоматизації, він залежить від важкої обробки штучного інтелекту на стороні хмари та попередньо визначеної структури сторінок. Локальний інтелект пристрою Codec означає, що рішення приймаються ближче до даних, зменшуючи накладні витрати та роблячи систему більш стабільною до несподіваних змін (без крихких сценаріїв або припущень DOM). Оператори кодека слідують безперервному циклу сприйняття-мислення-дія. Машинний рівень передає потокову передачу навколишнього середовища (наприклад, живий додаток або канал робота) на рівень інтелекту через оптимізовані канали системного рівня, надаючи штучному інтелекту «очі» на поточний стан. Потім модель VLA агента інтерпретує візуальні ефекти та інструкції разом, щоб прийняти рішення про дію, яку системний рівень виконує за допомогою подій клавіатури/миші або керування роботом. Цей інтегрований цикл означає, що він адаптується до подій у реальному часі, навіть якщо інтерфейс користувача зміниться, ви не перервете потік. Щоб провести більш просту аналогію, подумайте про операторів Codec як про самодостатнього працівника, який пристосовується до сюрпризів на роботі. Агент Nuit схожий на співробітника, якому потрібно зробити паузу, описати ситуацію керівнику по телефону і дочекатися вказівок. Не заглиблюючись у технічну кролячу нору, це повинно дати вам загальне уявлення про те, чому я обрав Codec як основну ставку на операторів. Так, Nuit має підтримку від YC, складеної команди та github рівня S. Хоча архітектура Codec була побудована з урахуванням горизонтального масштабування, що означає, що ви можете розгортати тисячі агентів паралельно без спільного використання пам'яті або контексту виконання між агентами. Команда Codec — це не звичайні розробники. Їхня архітектура VLA відкриває безліч варіантів використання, що було неможливо з попередніми моделями агентів через бачення через пікселі, а не скріншоти. Я міг би продовжувати, але я збережу це для майбутніх постів.
Віртуальні середовища для операторів-агентів: $CODEC Моя основна теза про вибух штучного інтелекту завжди зосереджувалася на зростанні кількості операторів. Але для того, щоб ці агенти досягли успіху, їм потрібен глибокий системний доступ, що фактично надає їм контроль над вашим персональним комп'ютером і конфіденційними даними, що створює серйозні проблеми з безпекою. Ми вже бачили, як такі компанії, як OpenAI та інші технологічні гіганти, обробляють дані користувачів. У той час як більшості людей все одно, люди, які отримують найбільшу вигоду від операторських агентів, 1% найбагатших абсолютно це роблять. Особисто я не маю шансів надати такій компанії, як OpenAI, повний доступ до своєї машини, навіть якщо це означатиме підвищення продуктивності на 10×. Так чому ж Codec? Архітектура Codec зосереджена на запуску ізольованих «хмарних робочих столів» на вимогу для агентів штучного інтелекту. В його основі лежить сервіс оркестрації на основі Kubernetes (кодова назва Captain), який надає легкі віртуальні машини (VM) у блоках Kubernetes. Кожен агент отримує власне ізольоване середовище на рівні ОС (повноцінний екземпляр ОС Linux), де він може запускати програми, браузери або будь-який код, повністю ізольований від інших агентів і хоста. Kubernetes керує плануванням, автоматичним масштабуванням та самовідновленням цих контейнерів агента, забезпечуючи надійність та можливість збільшувати/зменшувати багато екземплярів агента відповідно до навантаження Для захисту цих віртуальних машин використовуються довірені середовища виконання (TEE), що означає, що машина агента може бути криптографічно ізольована, її пам'ять і виконання можуть бути захищені від хостової ОС або постачальника хмарних послуг. Це має вирішальне значення для чутливих завдань: наприклад, віртуальна машина, що працює в анклаві, може надійно зберігати ключі API або секрети криптогаманця. Коли агенту штучного інтелекту («мозку» на основі LLM) потрібно виконати дії, він надсилає запити API до служби Captain, яка потім запускає або керує блоком віртуальної машини агента. Робочий процес: агент запитує машину, Капітан (через Kubernetes) виділяє под і приєднує постійний том (для диска ВМ). Потім агент може підключатися до своєї віртуальної машини (через захищений канал або потоковий інтерфейс) для виконання команд. Captain надає кінцеві точки, щоб агент міг виконувати команди оболонки, завантажувати/завантажувати файли, отримувати журнали та навіть робити знімки віртуальної машини для подальшого відновлення. Така конструкція дає агенту повноцінну операційну систему для роботи, але з контрольованим, перевіреним доступом. Оскільки він побудований на Kubernetes, Codec може автоматично масштабуватися по горизонталі, якщо 100 агентам потрібні середовища, він може запланувати 100 подів по всьому кластеру та обробляти збої, перезапускаючи модулі. Віртуальна машина агента може бути оснащена різними MCP-серверами (наприклад, «USB-портом» для ШІ). Наприклад, модуль Conductor від Codec – це контейнер, який запускає браузер Chrome разом із MCP-сервером Microsoft Playwright для керування браузером. Це дозволяє агенту штучного інтелекту відкривати веб-сторінки, переходити за посиланнями, заповнювати форми та вилучати контент за допомогою стандартних дзвінків MCP, ніби він є людиною, яка керує браузером. Інші інтеграції MCP можуть включати MCP файлової системи/терміналу (щоб дозволити агенту безпечно виконувати команди CLI) або MCP для конкретних додатків (для хмарних API, баз даних тощо). По суті, Codec надає «обгортки» інфраструктури (віртуальні машини, анклави, мережі), щоб плани агентів високого рівня могли безпечно виконуватися на реальному програмному забезпеченні та мережах. Випадки використання Автоматизація гаманця: Кодек може вбудовувати гаманці або ключі в віртуальну машину, захищену TEE, що дозволяє агенту штучного інтелекту взаємодіяти з блокчейн-мережами (торгувати на DeFi, керувати криптоактивами) без розкриття секретних ключів. Ця архітектура дозволяє ончейн-фінансовим агентам безпечно виконувати реальні транзакції, що було б дуже небезпечно в типовій конфігурації агентів. Слоган платформи прямо вказує підтримку «гаманців» як ключову можливість. Агент може, наприклад, запустити CLI для гаманця Ethereum у своєму анклаві, підписувати транзакції та надсилати їх із впевненістю, що якщо агент поводиться неправильно, він обмежується його віртуальною машиною, а ключі ніколи не залишають TEE. Автоматизація браузера та веб-сайту: Агенти CodecFlow можуть керувати повними веб-браузерами у своїй віртуальній машині. У прикладі Conductor показано, як агент запускає Chrome і транслює його екран на Twitch у режимі реального часу. За допомогою MCP Playwright агент може переміщатися по веб-сайтах, натискати кнопки та збирати дані так само, як людина-користувач. Це ідеально підходить для таких завдань, як веб-скрейпінг за логінами, автоматизовані веб-транзакції або тестування веб-додатків. Традиційні фреймворки зазвичай покладаються на виклики API або прості скрипти браузера без голови; навпаки, CodecFlow може запускати реальний браузер із видимим інтерфейсом користувача, що полегшує роботу зі складними веб-програмами (наприклад, із важкими завданнями JavaScript або CAPTCHA) під контролем штучного інтелекту. Автоматизація реального графічного інтерфейсу (застарілі системи): Оскільки кожен агент має реальну настільну ОС, він може автоматизувати застарілі програми з графічним інтерфейсом або сеанси віддаленого робочого столу, по суті, функціонуючи як роботизована автоматизація процесів (RPA), але керуючись штучним інтелектом. Наприклад, агент може відкрити електронну таблицю Excel у віртуальній машині Windows або взаємодіяти зі старою термінальною програмою, яка не має API. На сайті Codec прямо згадується включення «застарілої автоматизації». Це відкриває можливість використання штучного інтелекту для роботи з програмним забезпеченням, яке недоступне через сучасні API, завдання, яке було б дуже хакерським або небезпечним без обмеженого середовища. Включена інтеграція з noVNC передбачає, що агентів можна спостерігати або керувати за допомогою VNC, що корисно для моніторингу штучного інтелекту, який керує графічним інтерфейсом. Моделювання робочих процесів SaaS: Компанії часто стикаються зі складними процесами, які включають кілька SaaS-додатків або застарілих систем. наприклад, співробітник може взяти дані з Salesforce, об'єднати їх із даними з внутрішньої ERP-системи, а потім надіслати зведення клієнту електронною поштою. Кодек може дозволити агенту штучного інтелекту виконати всю цю послідовність, фактично увійшовши в ці програми через браузер або клієнтське програмне забезпечення у своїй віртуальній машині, подібно до того, як це зробила б людина. Це схоже на RPA, але працює на основі LLM, який може приймати рішення та обробляти варіативність. Важливо, що облікові дані цих додатків можуть бути надійно надані віртуальній машині (і навіть укладені в TEE), тому агент може використовувати їх, навіть не «бачачи» облікові дані у відкритому тексті та не розкриваючи їх ззовні. Це може прискорити автоматизацію рутинних завдань бек-офісу, одночасно задовольняючи ІТ, які кожен агент виконує з мінімальними привілеями та повною можливістю контролю (оскільки кожна дія у віртуальній машині може бути записана або записана). Дорожня карта - Запустіть публічну демоверсію в кінці місяця - Порівняння характеристик з іншими аналогічними платформами (немає конкурента web3) - Інтеграція з TAO - Велике ігрове партнерство З точки зору оригінальності, Codec побудований на основі існуючих технологій, але інтегрує їх новим способом для використання агентами штучного інтелекту. Ідея ізольованих середовищ виконання не нова (контейнери, віртуальні машини та TEE є стандартними в хмарних обчисленнях), але застосування їх до автономних агентів штучного інтелекту з безшовним рівнем API (MCP) є надзвичайно новим. Платформа використовує відкриті стандарти та інструменти скрізь, де це можливо: вона використовує MCP-сервери, такі як Microsoft Playwright, для керування браузером замість того, щоб заново винаходити це колесо, і планує підтримувати мікровіртуальні машини Firecracker від AWS для швидшої віртуалізації. Він також розширив існуючі рішення, такі як noVNC для потокових настільних комп'ютерів. Демонстрація того, що проєкт стоїть на фундаменті перевірених технологій (Kubernetes, анклавне обладнання, бібліотеки з відкритим вихідним кодом), зосереджуючи свій оригінальний розвиток на логіці клею та оркестровці («секретний соус» — це те, як все це працює разом). Поєднання компонентів з відкритим вихідним кодом і майбутнього хмарного сервісу (на що натякає згадка про утиліту $CODEC токенів і доступ до загальнодоступного продукту) означає, що Codec скоро буде доступний у різних формах (як у вигляді сервісу, так і на власному хостингу). Команда Moyai: 15+ років досвіду розробки, зараз очолює розробку штучного інтелекту в Elixir Games. lil'km: 5+ років розробник штучного інтелекту, зараз працює з HuggingFace над проектом LeRobot. HuggingFace — це величезна компанія-робототехніка, і Мояй працює керівником відділу штучного інтелекту в elixir games (за підтримки square enix і solanafdn). Я особисто обдзвонив по відеозв'язку з усією командою, і мені дуже подобається енергія, яку вони приносять. Мій друг, який привернув їх увагу до мене, також зустрівся з ними всіма на Token2049 і мав лише хороші речі. Заключні думки Попереду ще багато чого потрібно охопити, і я збережу для майбутніх оновлень і публікацій у своєму Telegram-каналі. Я давно вважав, що хмарна інфраструктура – це майбутнє за операторами. Я завжди з повагою ставився до того, що створює Nuit, але Codec — це перший проект, який показав мені впевненість у повному стеку, якого я так прагнув. Команда – це однозначно інженери найвищого рівня. Вони відкрито заявили, що маркетинг не є їхньою сильною стороною, і, ймовірно, саме тому це залишилося поза увагою. Я буду тісно співпрацювати з ними, щоб допомогти сформувати стратегію GTM, яка насправді відображає глибину того, що вони будують. З ринковою капіталізацією в $4 млн і таким рівнем інфраструктури він відчуває себе значно недооціненим. Якщо вони зможуть надати придатний для використання продукт, я думаю, це може легко ознаменувати початок наступного циклу штучного інтелекту. Як завжди, є ризик, і хоча я перевіряв команду непомітно протягом останніх кількох тижнів, жоден проект ніколи не є повністю захищеним. Цінові цілі? Набагато вище.
Про те, чому я вибрав Codec > Nuit for Operators: Кодек використовує трирівневу архітектуру (Machine, System, Intelligence), що дозволяє використовувати ізольовані, високопродуктивні агенти з власним керуванням. Кожен агент кодека працює локально за допомогою циклу Vision-Language-Action (VLA), зменшуючи затримку та підвищуючи надійність. Модель Nuit залежить від парсингу браузера + дзвінків хмарного штучного інтелекту, що обмежує гнучкість і створює крихкість. Кодек масштабується по горизонталі на тисячі агентів, без спільного стану та відмовостійкої модульності.
Показати оригінал
10,23 тис.
56
Вміст на цій сторінці надається третіми сторонами. Якщо не вказано інше, OKX не є автором цитованих статей і не претендує на авторські права на матеріали. Вміст надається виключно з інформаційною метою і не відображає поглядів OKX. Він не є схваленням жодних дій і не має розглядатися як інвестиційна порада або заохочення купувати чи продавати цифрові активи. Короткий виклад вмісту чи інша інформація, створена генеративним ШІ, можуть бути неточними або суперечливими. Прочитайте статтю за посиланням, щоб дізнатися більше. OKX не несе відповідальності за вміст, розміщений на сторонніх сайтах. Утримування цифрових активів, зокрема стейблкоїнів і NFT, пов’язане з високим ризиком, а вартість таких активів може сильно коливатися. Перш ніж торгувати цифровими активами або утримувати їх, ретельно оцініть свій фінансовий стан.