OpenAI właśnie potwierdziło moją tezę o gwieździe północnej dla AI, wydając dzisiaj swojego agenta operatora. Nie tylko była to moja przewodnia teza dla $CODEC, ale także dla każdej innej inwestycji w AI, którą poczyniłem, w tym tych z początku roku podczas szaleństwa AI. Było wiele dyskusji z Codec w odniesieniu do robotyki, podczas gdy ten sektor wkrótce będzie miał swoją własną narrację, podstawowym powodem, dla którego od samego początku byłem tak optymistyczny wobec Codec, jest to, jak jego architektura napędza agentów operatorów. Ludzie wciąż niedoceniają, jak wiele udziału w rynku jest na szali, budując oprogramowanie, które działa autonomicznie, przewyższając ludzkich pracowników bez potrzeby ciągłych wskazówek czy nadzoru. Widziałem wiele porównań do $NUIT. Po pierwsze, chcę powiedzieć, że jestem wielkim fanem tego, co buduje Nuit i życzę im tylko sukcesów. Jeśli wpiszesz „nuit” w moim telegramie, zobaczysz, że w kwietniu powiedziałem, że gdybym miał trzymać jedną monetę przez kilka miesięcy, byłaby to Nuit z powodu mojej tezy o operatorach. Nuit był najbardziej obiecującym projektem operatora na papierze, ale po dokładnych badaniach odkryłem, że ich architektura nie miała głębokości potrzebnej do uzasadnienia dużej inwestycji lub postawienia za nią mojej reputacji. Mając to na uwadze, byłem już świadomy luk architektonicznych w istniejących zespołach agentów operatorów i aktywnie szukałem projektu, który by je adresował. Niedługo po tym pojawił się Codec (dzięki @0xdetweiler, który nalegał, żebym przyjrzał się im bliżej) i to jest różnica między tymi dwoma: $CODEC vs $NUIT Architektura Codec jest zbudowana na trzech warstwach: Maszyna, System i Inteligencja, które oddzielają infrastrukturę, interfejs środowiska i logikę AI. Każdy agent operatora w Codec działa w swoim własnym izolowanym VM lub kontenerze, co pozwala na niemal natywną wydajność i izolację błędów. Ten warstwowy projekt oznacza, że komponenty mogą skalować się lub ewoluować niezależnie, nie łamiąc systemu. Architektura Nuit podąża inną drogą, będąc bardziej monolityczna. Ich stos opiera się na wyspecjalizowanym agencie przeglądarki internetowej, który łączy analizę, rozumowanie AI i działanie. Oznacza to, że głęboko analizują strony internetowe na strukturalne dane, które AI może konsumować, i polegają na przetwarzaniu w chmurze dla ciężkich zadań AI. Podejście Codec do osadzania lekkiego modelu Vision-Language-Action (VLA) w każdym agencie oznacza, że może działać całkowicie lokalnie. Co nie wymaga ciągłego pingowania do chmury po instrukcje, eliminując opóźnienia i unikając zależności od dostępności i przepustowości. Agent Nuit przetwarza zadania, najpierw przekształcając strony internetowe w semantyczny format, a następnie używając mózgu LLM, aby ustalić, co zrobić, co poprawia się z czasem dzięki uczeniu przez wzmocnienie. Chociaż skuteczne w automatyzacji sieci, ten proces zależy od ciężkiego przetwarzania AI po stronie chmury i zdefiniowanych struktur stron. Inteligencja lokalnego urządzenia Codec oznacza, że decyzje podejmowane są bliżej danych, co zmniejsza obciążenie i sprawia, że system jest bardziej stabilny na nieoczekiwane zmiany (brak kruchych skryptów lub założeń DOM). Operatorzy Codec podążają za ciągłym cyklem postrzegania–myślenia–działania. Warstwa maszyny przesyła środowisko (np. na żywo aplikację lub feed robota) do warstwy inteligencji za pośrednictwem zoptymalizowanych kanałów warstwy systemu, dając AI „oczy” na aktualny stan. Model VLA agenta następnie interpretuje wizualizacje i instrukcje razem, aby zdecydować o działaniu, które warstwa systemu wykonuje za pomocą zdarzeń klawiatury/myszy lub kontroli robota. Ta zintegrowana pętla oznacza, że dostosowuje się do wydarzeń na żywo, nawet jeśli UI się zmienia, nie przerwie to przepływu. Aby to wszystko uprościć, pomyśl o operatorach Codec jak o samowystarczalnym pracowniku, który dostosowuje się do niespodzianek w pracy. Agent Nuit jest jak pracownik, który musi się zatrzymać, opisać sytuację przełożonemu przez telefon i czekać na instrukcje. Nie chcąc zbytnio zagłębiać się w techniczne szczegóły, to powinno dać ci ogólny pomysł, dlaczego wybrałem Codec jako moją główną stawkę na operatorów. Tak, Nuit ma wsparcie od YC, zespół z doświadczeniem i S tier github. Chociaż architektura Codec została zbudowana z myślą o poziomej skali, co oznacza, że możesz wdrożyć tysiące agentów równolegle bez dzielenia pamięci lub kontekstu wykonania między agentami. Zespół Codec również nie jest przeciętnymi programistami. Ich architektura VLA otwiera wiele przypadków użycia, które nie były możliwe z wcześniejszymi modelami agentów z powodu widzenia przez piksele, a nie zrzuty ekranu. Mógłbym kontynuować, ale to zostawię na przyszłe posty.
Środowiska wirtualne dla agentów operatorów: $CODEC Moja główna teza związana z eksplozją sztucznej inteligencji zawsze koncentrowała się na wzroście liczby agentów operatorskich. Aby jednak ci agenci odnieśli sukces, wymagają głębokiego dostępu do systemu, co skutecznie zapewnia im kontrolę nad komputerem osobistym i poufnymi danymi, co stwarza poważne obawy dotyczące bezpieczeństwa. Widzieliśmy już, jak firmy takie jak OpenAI i inni giganci technologiczni radzą sobie z danymi użytkowników. Podczas gdy większość ludzi nie dba o to, osoby, które mogą odnieść największe korzyści z agentów operatorów, 1% najlepszych absolutnie to robi. Osobiście nie ma szans, żebym dał firmie takiej jak OpenAI pełny dostęp do mojej maszyny, nawet jeśli oznacza to 10× wzrost produktywności. Dlaczego więc kodek? Architektura kodeka koncentruje się na uruchamianiu izolowanych, dostępnych na żądanie "pulpitów w chmurze" dla agentów AI. Jego rdzeniem jest usługa orkiestracji oparta na platformie Kubernetes (o nazwie kodowej Captain), która aprowizuje lekkie maszyny wirtualne (VM) w zasobnikach Kubernetes. Każdy agent otrzymuje własne izolowane środowisko na poziomie systemu operacyjnego (pełne wystąpienie systemu operacyjnego Linux), w którym może uruchamiać aplikacje, przeglądarki lub dowolny kod, całkowicie odizolowany od innych agentów i hosta. Kubernetes obsługuje planowanie, automatyczne skalowanie i samonaprawianie tych zasobników agentów, zapewniając niezawodność i możliwość zwiększania/zmniejszania liczby instancji agentów w zależności od wymagań obciążenia Zaufane środowiska wykonawcze (TEE) są używane do zabezpieczania tych maszyn wirtualnych, co oznacza, że maszyna agenta może być kryptograficznie odizolowana, a jej pamięć i wykonanie mogą być chronione przed systemem operacyjnym hosta lub dostawcą chmury. Ma to kluczowe znaczenie w przypadku wrażliwych zadań: na przykład maszyna wirtualna działająca w enklawie może bezpiecznie przechowywać klucze API lub sekrety portfela kryptowalutowego. Gdy agent AI ("mózg" oparty na LLM) musi wykonać działania, wysyła żądania API do usługi Captain, która następnie uruchamia lub zarządza zasobnikiem VM agenta. Przepływ pracy: agent żąda maszyny, Captain (za pośrednictwem platformy Kubernetes) przydziela zasobnik i dołącza wolumin trwały (dla dysku maszyny wirtualnej). Agent może następnie połączyć się ze swoją maszyną wirtualną (za pośrednictwem bezpiecznego kanału lub interfejsu przesyłania strumieniowego) w celu wydania poleceń. Captain uwidacznia punkty końcowe dla agenta w celu wykonywania poleceń powłoki, przesyłania/pobierania plików, pobierania dzienników, a nawet tworzenia migawki maszyny wirtualnej w celu późniejszego przywrócenia. Taki projekt zapewnia agentowi pełny system operacyjny do pracy, ale z kontrolowanym, audytowanym dostępem. Ponieważ jest zbudowany na platformie Kubernetes, kodek może automatycznie skalować się w poziomie, jeśli 100 agentów potrzebuje środowisk, może zaplanować 100 zasobników w klastrze i obsługiwać awarie, ponownie uruchamiając zasobniki. Maszyna wirtualna agenta może być wyposażona w różne serwery MCP (np. "port USB" dla AI). Na przykład moduł Conductor kodeka to kontener, który uruchamia przeglądarkę Chrome wraz z serwerem MCP Microsoft Playwright do sterowania przeglądarką. Dzięki temu agent AI może otwierać strony internetowe, klikać linki, wypełniać formularze i zeskrobywać zawartość za pomocą standardowych wywołań MCP, tak jakby był to człowiek kontrolujący przeglądarkę. Inne integracje MCP mogą obejmować MCP systemu plików/terminala (aby umożliwić agentowi bezpieczne uruchamianie poleceń CLI) lub MCP specyficzne dla aplikacji (dla interfejsów API w chmurze, baz danych itp.). Zasadniczo Codec zapewnia "opakowania" infrastruktury (maszyny wirtualne, enklawy, sieć), dzięki czemu plany agentów wysokiego poziomu mogą być bezpiecznie wykonywane na rzeczywistym oprogramowaniu i sieciach. Przypadki użycia Automatyzacja portfela: Kodek może osadzać portfele lub klucze w maszynie wirtualnej chronionej przez TEE, umożliwiając agentowi AI interakcję z sieciami blockchain (handel na DeFi, zarządzanie aktywami kryptowalutowymi) bez ujawniania tajnych kluczy. Ta architektura umożliwia agentom finansowym onchain, którzy bezpiecznie realizują rzeczywiste transakcje, co byłoby bardzo niebezpieczne w typowej konfiguracji agenta. Slogan platformy wyraźnie wymienia obsługę "portfeli" jako kluczową funkcję. Agent mógłby, na przykład, uruchomić CLI dla portfela Ethereum w swojej enklawie, podpisywać transakcje i wysyłać je, mając pewność, że jeśli agent będzie się źle zachowywał, zostanie ograniczony do swojej maszyny wirtualnej, a klucze nigdy nie opuszczą TEE. Automatyzacja przeglądarki i stron internetowych: Agenci CodecFlow mogą kontrolować pełne przeglądarki internetowe na swojej maszynie wirtualnej. Przykład Conductor pokazuje, że agent uruchamia Chrome i przesyła strumieniowo jego ekran do Twitcha w czasie rzeczywistym. Za pomocą Playwright MCP agent może poruszać się po stronach internetowych, klikać przyciski i zeskrobywać dane, tak jak człowiek. Jest to idealne rozwiązanie do zadań takich jak skrobanie stron internetowych za loginami, zautomatyzowane transakcje internetowe lub testowanie aplikacji internetowych. Tradycyjne frameworki zwykle opierają się na wywołaniach API lub prostych skryptach przeglądarki headless; w przeciwieństwie do tego, CodecFlow może uruchomić prawdziwą przeglądarkę z widocznym interfejsem użytkownika, co ułatwia obsługę złożonych aplikacji internetowych (np. z ciężkimi wyzwaniami JavaScript lub CAPTCHA) pod kontrolą AI. Automatyzacja graficznego interfejsu użytkownika w świecie rzeczywistym (starsze systemy): Ponieważ każdy agent ma rzeczywisty system operacyjny dla komputerów stacjonarnych, może automatyzować starsze aplikacje z graficznym interfejsem użytkownika lub sesje pulpitu zdalnego, zasadniczo działając jak zrobotyzowana automatyzacja procesów (RPA), ale napędzana przez sztuczną inteligencję. Na przykład agent może otworzyć arkusz kalkulacyjny programu Excel na maszynie wirtualnej z systemem Windows lub interfejs ze starą aplikacją terminala, która nie ma interfejsu API. Witryna Codec wyraźnie wspomina o włączeniu "starszej automatyzacji". Otwiera to możliwość wykorzystania sztucznej inteligencji do obsługi oprogramowania, które nie jest dostępne za pośrednictwem nowoczesnych interfejsów API, co byłoby bardzo trudne lub niebezpieczne bez zamkniętego środowiska. Dołączona integracja z noVNC sugeruje, że agenci mogą być obserwowani lub kontrolowani przez VNC, co jest przydatne do monitorowania sztucznej inteligencji kierującej graficznym interfejsem użytkownika. Symulowanie przepływów pracy SaaS: Firmy często mają złożone procesy, które obejmują wiele aplikacji SaaS lub starszych systemów. Na przykład pracownik może pobrać dane z Salesforce, połączyć je z danymi z wewnętrznego systemu ERP, a następnie wysłać podsumowanie e-mailem do klienta. Kodek może umożliwić agentowi AI wykonanie całej tej sekwencji, faktycznie logując się do tych aplikacji za pomocą przeglądarki lub oprogramowania klienckiego na maszynie wirtualnej, podobnie jak zrobiłby to człowiek. Jest to jak RPA, ale zasilane przez LLM, który może podejmować decyzje i radzić sobie ze zmiennością. Co ważne, poświadczenia do tych aplikacji mogą być bezpiecznie dostarczane do maszyny wirtualnej (a nawet ujęte w TEE), dzięki czemu agent może z nich korzystać bez "widzenia" poświadczeń w postaci zwykłego tekstu lub ujawniania ich na zewnątrz. Może to przyspieszyć automatyzację rutynowych zadań zaplecza, jednocześnie zapewniając działowi IT, że każdy agent działa z najmniejszymi uprawnieniami i pełną możliwością audytu (ponieważ każda akcja na maszynie wirtualnej może być rejestrowana lub rejestrowana). Mapa drogowa - Uruchomienie publicznej wersji demonstracyjnej pod koniec miesiąca - Porównanie funkcji z innymi podobnymi platformami (brak konkurenta web3) - Integracja z TAO - Partnerstwo w zakresie dużych gier Jeśli chodzi o oryginalność, Codec jest zbudowany na fundamencie istniejących technologii, ale integruje je w nowatorski sposób do wykorzystania przez agentów AI. Idea izolowanych środowisk wykonawczych nie jest nowa (kontenery, maszyny wirtualne i TEE są standardem w przetwarzaniu w chmurze), ale zastosowanie ich do autonomicznych agentów AI z bezproblemową warstwą API (MCP) jest niezwykle nowatorskie. Platforma wykorzystuje otwarte standardy i narzędzia wszędzie tam, gdzie to możliwe: wykorzystuje serwery MCP, takie jak Playwright firmy Microsoft, do sterowania przeglądarką, zamiast wymyślać to koło na nowo, i planuje obsługiwać mikromaszyny wirtualne Firecracker firmy AWS w celu szybszej wirtualizacji. Rozwidlił również istniejące rozwiązania, takie jak noVNC dla komputerów stacjonarnych do przesyłania strumieniowego. Demonstracja, że projekt stoi na fundamentach sprawdzonej technologii (Kubernetes, sprzęt enklawy, biblioteki open-source), koncentrując swój oryginalny rozwój na logice kleju i orkiestracji ("sekretny sos" to sposób, w jaki to wszystko działa razem). Połączenie komponentów open source i nadchodzącej usługi w chmurze (zasugerowanej przez wzmiankę o narzędziu tokena $CODEC i publicznym dostępie do produktu) oznacza, że kodek będzie wkrótce dostępny w wielu formach (zarówno jako usługa, jak i samoobsługowy). Zespół Moyai: 15+ lat doświadczenia w programowaniu, obecnie lider rozwoju AI w Elixir Games. lil'km: 5+ lat programista AI, obecnie współpracujący z HuggingFace nad projektem LeRobot. HuggingFace to ogromna firma zajmująca się robotyką, a Moyai pracuje jako szef sztucznej inteligencji w elixir games (wspieranym przez Square Enix i solanafdn). Osobiście rozmawiałem z całym zespołem i naprawdę podoba mi się energia, którą wnoszą. Mój przyjaciel, który umieścił je na moim radarze, również spotkał się z nimi wszystkimi na Token2049 i miał tylko dobre rzeczy do powiedzenia. Końcowe przemyślenia Wciąż jest wiele do omówienia, które zachowam na przyszłe aktualizacje i posty na moim kanale Telegram. Od dawna uważam, że infrastruktura chmurowa to przyszłość dla agentów operatorów. Zawsze szanowałem to, co buduje Nuit, ale Codec jest pierwszym projektem, który pokazał mi przekonanie do full-stack, którego szukałem. Zespół to bez wątpienia inżynierowie z najwyższej półki. Otwarcie mówili, że marketing nie jest ich mocną stroną, co prawdopodobnie dlatego przeleciało to pod radarem. Będę z nimi ściśle współpracował, aby pomóc w kształtowaniu strategii GTM, która faktycznie odzwierciedla głębię tego, co budują. Przy kapitalizacji rynkowej wynoszącej 4 miliony dolarów i takim poziomie infrastruktury wydaje się znacznie niedoceniony. Jeśli uda im się dostarczyć użyteczny produkt, myślę, że może to z łatwością oznaczać początek kolejnego cyklu infra AI. Jak zawsze, wiąże się to z ryzykiem i chociaż w ciągu ostatnich kilku tygodni sprawdzałem zespół w ukryciu, żaden projekt nigdy nie jest całkowicie odporny na dywany. Cele cenowe? Dużo wyżej.
Podsumowanie, dlaczego wybrałem Codec > Nuit dla Operatorów: Codec wykorzystuje architekturę trzech warstw (Maszyna, System, Inteligencja), co umożliwia izolowane, wysokowydajne agenty z natywną kontrolą. Każdy agent Codec działa lokalnie, korzystając z pętli Wizja-Język-Działanie (VLA), co zmniejsza opóźnienia i zwiększa niezawodność. Model Nuit opiera się na analizie przeglądarki + wywołaniach AI w chmurze, co ogranicza elastyczność i wprowadza kruchość. Codec skaluje się poziomo w tysiącach agentów, bez wspólnego stanu i tolerancyjnej na błędy modularności.
Pokaż oryginał
12,45 tys.
66
Treści na tej stronie są dostarczane przez strony trzecie. O ile nie zaznaczono inaczej, OKX nie jest autorem cytowanych artykułów i nie rości sobie żadnych praw autorskich do tych materiałów. Treść jest dostarczana wyłącznie w celach informacyjnych i nie reprezentuje poglądów OKX. Nie mają one na celu jakiejkolwiek rekomendacji i nie powinny być traktowane jako porada inwestycyjna lub zachęta do zakupu lub sprzedaży aktywów cyfrowych. Treści, w zakresie w jakim jest wykorzystywana generatywna sztuczna inteligencja do dostarczania podsumowań lub innych informacji, mogą być niedokładne lub niespójne. Przeczytaj podlinkowany artykuł, aby uzyskać więcej szczegółów i informacji. OKX nie ponosi odpowiedzialności za treści hostowane na stronach osób trzecich. Posiadanie aktywów cyfrowych, w tym stablecoinów i NFT, wiąże się z wysokim stopniem ryzyka i może podlegać znacznym wahaniom. Musisz dokładnie rozważyć, czy handel lub posiadanie aktywów cyfrowych jest dla Ciebie odpowiednie w świetle Twojej sytuacji finansowej.