OpenAI vahvisti juuri tänään tekoälyn pohjantähden teesini julkaisemalla operaattoriagenttinsa. Tämä ei ollut vain ohjaava opinnäytetyöni $CODEC, vaan kaikki muutkin tekoälyinvestoinnit, mukaan lukien aiemmin tänä vuonna tekoälymanian aikana tehdyt investoinnit. Codecin kanssa on käyty paljon keskustelua robotiikasta, vaikka tällä vertikaalilla on oma tarinansa hyvin pian, perimmäinen syy siihen, miksi olin niin optimistinen Codecin suhteen ensimmäisestä päivästä lähtien, johtuu siitä, miten sen arkkitehtuuri käyttää operaattoriagentteja. Ihmiset aliarvioivat edelleen, kuinka suuri markkinaosuus on vaakalaudalla, kun rakennetaan ohjelmistoja, jotka toimivat itsenäisesti ja suoriutuvat paremmin kuin ihmistyöntekijät ilman jatkuvaa kehotusta tai valvontaa. Olen nähnyt paljon vertailuja $NUIT. Ensinnäkin haluan sanoa, että olen suuri fani siitä, mitä Nuit rakentaa, enkä toivo muuta kuin heidän menestystään. Jos kirjoitat sähkeeseeni "nuit", huomaat, että huhtikuussa sanoin, että jos minun olisi pitänyt pitää yhtä kolikkoa useita kuukausia, se olisi ollut Nuit operaattoriopinnäytetyöni vuoksi. Nuit oli paperilla lupaavin operaattoriprojekti, mutta laajan tutkimuksen jälkeen huomasin, että heidän arkkitehtuuristaan puuttui tarvittava syvyys perustella suurta investointia tai laittaa maineeni sen taakse. Tätä silmällä pitäen olin jo tietoinen olemassa olevien operaattoriagenttitiimien arkkitehtonisista puutteista ja etsin aktiivisesti projektia, joka vastaisi niihin. Pian Codecin ilmestymisen jälkeen (kiitos @0xdetweiler vaatia minua tutkimaan niitä syvemmälle) ja tämä on ero näiden kahden välillä: $CODEC vastaan $NUIT Codecin arkkitehtuuri on rakennettu kolmeen kerrokseen; Kone, järjestelmä ja älykkyys, jotka erottavat infrastruktuurin, ympäristörajapinnan ja tekoälylogiikan. Jokainen Codecin operaattoriagentti toimii omassa eristetyssä näennäiskoneessaan tai säilössään, mikä mahdollistaa lähes alkuperäisen suorituskyvyn ja vikojen eristämisen. Tämä kerrostettu rakenne tarkoittaa, että komponentit voivat skaalautua tai kehittyä itsenäisesti rikkomatta järjestelmää. Nuitin arkkitehtuuri kulkee erilaista polkua olemalla monoliittisempaa. Heidän pinonsa pyörii erikoistuneen verkkoselainagentin ympärillä, joka yhdistää jäsentämisen, tekoälypäättelyn ja toiminnan. Tämä tarkoittaa, että ne jäsentävät verkkosivut syvästi jäsennellyksi dataksi tekoälyn kulutettavaksi ja luottavat pilvikäsittelyyn raskaissa tekoälytehtävissä. Codecin lähestymistapa, jossa jokaiseen agenttiin upotetaan kevyt Vision-Language-Action (VLA) -malli, tarkoittaa, että se voi toimia täysin paikallisesti. Tämä ei vaadi jatkuvaa pingausta takaisin pilveen ohjeiden saamiseksi, viiveen leikkaamista ja käytettävyydestä ja kaistanleveydestä riippuvuuden välttämistä. Nuitin agentti käsittelee tehtäviä muuntamalla ensin verkkosivut semanttiseen muotoon ja käyttämällä sitten LLM-aivoja selvittääkseen, mitä tehdä, mikä paranee ajan myötä vahvistusoppimisen myötä. Vaikka tämä virta on tehokas verkkoautomaatiossa, se riippuu raskaasta pilvipuolen tekoälyn käsittelystä ja ennalta määritetyistä sivurakenteista. Codecin paikallinen laiteäly tarkoittaa, että päätökset tehdään lähempänä tietoja, mikä vähentää yleiskustannuksia ja tekee järjestelmästä vakaamman odottamattomille muutoksille (ei hauraita komentosarjoja tai DOM-oletuksia). Koodekin operaattorit seuraavat jatkuvaa havaitse-ajattele-toimi-silmukkaa. Konekerros suoratoistaa ympäristön (esim. live-sovelluksen tai robottisyötteen) älykkyyskerrokseen järjestelmäkerroksen optimoitujen kanavien kautta, jolloin tekoäly näkee senhetkisen tilan. Agentin VLA-malli tulkitsee sitten visualisointeja ja ohjeita yhdessä päättääkseen toiminnosta, jonka järjestelmäkerros suorittaa näppäimistö/hiiri-tapahtumien tai robottiohjauksen avulla. Tämä integroitu silmukka tarkoittaa, että se mukautuu live-tapahtumiin, vaikka käyttöliittymä siirtyisi, et katkaise virtaa. Yksinkertaisemmin sanottuna ajattele Codecin operaattoreita omavaraisena työntekijänä, joka sopeutuu yllätyksiin työssään. Nuitin agentti on kuin työntekijä, jonka pitää pysähtyä, kuvailla tilannetta esimiehelle puhelimitse ja odottaa ohjeita. Menemättä liikaa tekniseen kaninkoloon, tämän pitäisi antaa sinulle korkeatasoinen käsitys siitä, miksi valitsin koodekin ensisijaiseksi vedoksi operaattoreille. Kyllä, Nuitilla on YC:n, pinotun tiimin ja S-tason githubin tuki. Vaikka Codecin arkkitehtuuri on rakennettu horisontaalista skaalausta ajatellen, mikä tarkoittaa, että voit ottaa käyttöön tuhansia agentteja rinnakkain ilman jaettua muistia tai suorituskontekstia agenttien välillä. Codecin tiimi ei myöskään ole tavallisia kehittäjiä. Heidän VLA-arkkitehtuurinsa avaa lukuisia käyttötapauksia, jotka eivät olleet mahdollisia aiemmilla agenttimalleilla, koska he näkivät pikselien, ei kuvakaappausten läpi. Voisin jatkaa, mutta säästän sen tulevia postauksia varten.
Virtuaaliympäristöt operaattoriagenteille: $CODEC Ydinväitöskirjani tekoälyn räjähdysmäisestä kasvusta on aina keskittynyt operaattoriagenttien nousuun. Mutta jotta nämä agentit menestyisivät, ne tarvitsevat syvän pääsyn järjestelmään, mikä antaa heille tehokkaasti hallinnan henkilökohtaiseen tietokoneeseesi ja arkaluonteisiin tietoihisi, mikä aiheuttaa vakavia turvallisuusongelmia. Olemme jo nähneet, kuinka OpenAI:n ja muiden teknologiajättien kaltaiset yritykset käsittelevät käyttäjätietoja. Vaikka useimmat ihmiset eivät välitä, henkilöt, jotka hyötyvät eniten operaattoriagenteista, ylin 1 % ehdottomasti hyötyvät. Henkilökohtaisesti ei ole mitään mahdollisuutta, että annan OpenAI:n kaltaiselle yritykselle täyden pääsyn koneeseeni, vaikka se tarkoittaisi 10 × tuottavuuden lisäystä. Joten miksi koodekki? Codecin arkkitehtuuri keskittyy eristettyjen, on-demand-"pilvityöpöytien" käynnistämiseen tekoälyagenteille. Sen ytimessä on Kubernetes-pohjainen orkestrointipalvelu (koodinimeltään Captain), joka tarjoaa kevyitä virtuaalikoneita (VM) Kubernetes-podien sisällä. Jokainen agentti saa oman käyttöjärjestelmätason eristetyn ympäristön (täyden Linux-käyttöjärjestelmäesiintymän), jossa se voi suorittaa sovelluksia, selaimia tai mitä tahansa koodia, joka on täysin eristetty muilta agenteilta ja isännältä. Kubernetes hoitaa näiden agenttikapseleiden ajoituksen, automaattisen skaalauksen ja itsekorjauksen, mikä varmistaa luotettavuuden ja kyvyn pyörittää useita agenttiesiintymiä kuormituksen mukaan Näiden virtuaalikoneiden suojaamiseen käytetään luotettuja suoritusympäristöjä (TEE), mikä tarkoittaa, että agentin kone voidaan eristää kryptografisesti, sen muisti ja suoritus voidaan suojata isäntäkäyttöjärjestelmältä tai pilvipalveluntarjoajalta. Tämä on ratkaisevan tärkeää arkaluonteisissa tehtävissä: esimerkiksi erillisalueella toimiva virtuaalikone voi säilyttää API-avaimia tai kryptolompakon salaisuuksia turvallisesti. Kun tekoälyagentin (LLM-pohjaisten "aivojen") on suoritettava toimintoja, se lähettää API-pyyntöjä Captain-palveluun, joka sitten käynnistää tai hallitsee agentin VM-podia. Työnkulku: agentti pyytää konetta, Captain (Kubernetesin kautta) varaa podin ja liittää pysyvän taltion (VM:n levylle). Agentti voi sitten muodostaa yhteyden virtuaalikoneeseensa (suojatun kanavan tai suoratoistoliittymän kautta) komentojen antamiseksi. Captain paljastaa päätepisteet, jotta agentti voi suorittaa komentotulkkikomentoja, ladata/ladata tiedostoja, noutaa lokeja ja jopa ottaa tilannekuvan virtuaalikoneesta myöhempää palautusta varten. Tämä rakenne antaa agentille täyden käyttöjärjestelmän, jossa hän voi työskennellä, mutta valvotulla ja tarkastetulla käyttöoikeudella. Koska Codec on rakennettu Kubernetesiin, se voi skaalautua automaattisesti vaakasuunnassa, jos 100 agenttia tarvitsee ympäristöjä, se voi ajoittaa 100 podia klusterissa ja käsitellä vikoja käynnistämällä podit uudelleen. Agentin VM voidaan varustaa erilaisilla MCP-palvelimilla (kuten "USB-portti" tekoälyä varten). Esimerkiksi Codecin Conductor-moduuli on säilö, joka käyttää Chrome-selainta yhdessä Microsoft Playwright MCP -palvelimen kanssa selaimen hallintaa varten. Tämän avulla tekoälyagentti voi avata verkkosivuja, napsauttaa linkkejä, täyttää lomakkeita ja kaapata sisältöä tavallisten MCP-kutsujen kautta, ikään kuin se olisi selainta ohjaava ihminen. Muita MCP-integraatioita voivat olla tiedostojärjestelmä/pääte MCP (jotta agentti voi suorittaa CLI-komentoja turvallisesti) tai sovelluskohtaiset MCP:t (pilvisovellusliittymille, tietokannoille jne.). Pohjimmiltaan Codec tarjoaa infrastruktuurin "kääreet" (virtuaalikoneet, erillisalueet, verkot), jotta korkean tason agenttisuunnitelmat voidaan toteuttaa turvallisesti todellisissa ohjelmistoissa ja verkoissa. Käyttötapaukset Lompakon automaatio: Koodekki voi upottaa lompakoita tai avaimia TEE-suojattuun virtuaalikoneeseen, jolloin tekoälyagentti voi olla vuorovaikutuksessa lohkoketjuverkkojen kanssa (käydä kauppaa DeFi:llä, hallita kryptovaroja) paljastamatta salaisia avaimia. Tämä arkkitehtuuri mahdollistaa ketjun rahoitusagentit, jotka suorittavat todellisia transaktioita turvallisesti, mikä olisi erittäin vaarallista tyypillisessä agenttiasetelmassa. Alustan tunnuslauseessa mainitaan nimenomaisesti tuki "lompakoille" keskeisenä ominaisuutena. Agentti voi esimerkiksi suorittaa CLI:n Ethereum-lompakolle erillisalueellaan, allekirjoittaa transaktioita ja lähettää ne varmasti, että jos agentti käyttäytyy väärin, se rajoittuu virtuaalikoneeseensa eivätkä avaimet koskaan poistu TEE:stä. Selain ja verkkoautomaatio: CodecFlow-agentit voivat hallita virtuaalikoneensa täydellisiä verkkoselaimia. Conductor-esimerkki osoittaa, että agentti käynnistää Chromen ja suoratoistaa sen näytön Twitchiin reaaliajassa. Playwright MCP:n kautta agentti voi navigoida verkkosivustoilla, napsauttaa painikkeita ja kaapata tietoja aivan kuten ihmiskäyttäjä. Tämä on ihanteellinen tehtäviin, kuten kirjautumisten takana tapahtuvaan web-kaavintaan, automatisoituihin verkkotapahtumiin tai verkkosovellusten testaamiseen. Perinteiset kehykset luottavat yleensä API-kutsuihin tai yksinkertaisiin päättömiin selainkomentosarjoihin; sitä vastoin CodecFlow voi käyttää oikeaa selainta, jossa on näkyvä käyttöliittymä, mikä helpottaa monimutkaisten verkkosovellusten käsittelyä (esim. raskaat JavaScript- tai CAPTCHA-haasteet) tekoälyn ohjauksessa. Reaalimaailman graafisen käyttöliittymän automatisointi (vanhat järjestelmät): Koska jokaisella agentilla on varsinainen työpöytäkäyttöjärjestelmä, se voi automatisoida vanhoja graafisia käyttöliittymäsovelluksia tai etätyöpöytäistuntoja, jotka toimivat pohjimmiltaan robottiprosessiautomaation (RPA) tavoin, mutta joita ohjaa tekoäly. Agentti voi esimerkiksi avata Excel-laskentataulukon Windows-näennäiskoneessaan tai liittyä vanhaan päätesovellukseen, jossa ei ole ohjelmointirajapintaa. Codecin sivustolla mainitaan nimenomaisesti "vanhan automaation" mahdollistaminen. Tämä avaa tekoälyn käytön sellaisten ohjelmistojen käyttämiseen, joihin ei pääse käsiksi nykyaikaisten sovellusliittymien kautta, mikä olisi erittäin hakkerointia tai vaarallista ilman suljettua ympäristöä. Mukana oleva noVNC-integraatio viittaa siihen, että agentteja voidaan tarkkailla tai ohjata VNC:n kautta, mikä on hyödyllistä graafista käyttöliittymää käyttävän tekoälyn seurannassa. SaaS-työnkulkujen simulointi: Yrityksillä on usein monimutkaisia prosesseja, joihin liittyy useita SaaS-sovelluksia tai vanhoja järjestelmiä. Työntekijä voi esimerkiksi ottaa tietoja Salesforcesta, yhdistää ne sisäisen ERP:n tietoihin ja lähettää sitten yhteenvedon asiakkaalle sähköpostitse. Koodekin avulla tekoälyagentti voi suorittaa koko tämän jakson kirjautumalla näihin sovelluksiin virtuaalikoneensa selaimen tai asiakasohjelmiston kautta, aivan kuten ihminen tekisi. Tämä on kuin RPA, mutta sen voimanlähteenä on LLM, joka pystyy tekemään päätöksiä ja käsittelemään vaihtelua. Tärkeää on, että näiden sovellusten tunnistetiedot voidaan antaa virtuaalikoneelle turvallisesti (ja jopa suljettuna TEE:hen), jotta agentti voi käyttää niitä "näkemättä" selkokielisiä tunnistetietoja tai paljastamatta niitä ulkoisesti. Tämä voisi nopeuttaa rutiininomaisten back office -tehtävien automatisointia ja samalla tyydyttää IT-osaston siitä, että jokainen agentti toimii vähiten oikeuksilla ja täydellä tarkastettavuudella (koska jokainen VM:n toiminto voidaan kirjata tai tallentaa). Etenemissuunnitelma - Käynnistä julkinen demo kuun lopussa - Ominaisuuksien vertailu muihin vastaaviin alustoihin (ei web3-kilpailijaa) - TAO:n integrointi - Laaja pelikumppanuus Omaperäisyyden kannalta Codec on rakennettu olemassa olevien teknologioiden perustalle, mutta integroi ne uudella tavalla tekoälyagenttien käyttöön. Ajatus eristetyistä suoritusympäristöistä ei ole uusi (kontit, virtuaalikoneet ja TEE:t ovat vakiona pilvipalveluissa), mutta niiden soveltaminen autonomisiin tekoälyagentteihin, joissa on saumaton API-kerros (MCP), on erittäin uutta. Alusta hyödyntää avoimia standardeja ja työkaluja aina kun mahdollista: se käyttää MCP-palvelimia, kuten Microsoftin Playwrightia, selaimen hallintaan sen sijaan, että keksisi pyörän uudelleen, ja aikoo tukea AWS:n Firecracker-mikrovirtuaalikoneita nopeampaa virtualisointia varten. Se myös haarautui olemassa oleviin ratkaisuihin, kuten noVNC pöytätietokoneiden suoratoistoon. Projektin osoittaminen seisoo todistetun teknologian (Kubernetes, enklaavilaitteisto, avoimen lähdekoodin kirjastot) perustalla ja keskittyy alkuperäiseen kehitykseensä liimalogiikkaan ja orkestrointiin ("salainen kastike" on se, miten kaikki toimii yhdessä). Avoimen lähdekoodin komponenttien ja tulevan pilvipalvelun yhdistelmä (johon viittasi maininta $CODEC token-apuohjelmasta ja julkisesta tuotteen käytöstä) tarkoittaa, että koodekki on pian käytettävissä useissa muodoissa (sekä palveluna että itse isännöitynä). Joukkue Moyai: 15+ vuoden kehityskokemus, tällä hetkellä tekoälykehityksen johtaja Elixir Gamesissa. lil'km: 5+ vuotta tekoälykehittäjä, työskentelee tällä hetkellä HuggingFacen kanssa LeRobot-projektissa. HuggingFace on valtava robotiikkayritys, ja Moyai työskentelee tekoälyjohtajana Elixir Gamesissa (jota tukevat Square Enix ja Solanafdn. Olen henkilökohtaisesti soittanut videopuhelun koko tiimille ja pidän todella heidän tuomasta energiastaan. Ystäväni, joka laittoi ne tutkaani, tapasi heidät myös kaikki Token2049:ssä ja hänellä oli vain hyvää sanottavaa. Lopulliset ajatukset Vielä on paljon käsiteltävää, jonka säästän tulevia päivityksiä ja viestejä varten Telegram-kanavallani. Olen pitkään uskonut, että pilvi-infrastruktuuri on operaattoriagenttien tulevaisuus. Olen aina kunnioittanut sitä, mitä Nuit rakentaa, mutta Codec on ensimmäinen projekti, joka on osoittanut minulle etsimäni full-stack-vakaumuksen. Tiimi on selvästi huipputason insinöörejä. He ovat avoimesti sanoneet, että markkinointi ei ole heidän vahvuutensa, minkä vuoksi tämä on todennäköisesti lentänyt tutkan alle. Teen tiivistä yhteistyötä heidän kanssaan auttaakseni muotoilemaan GTM-strategiaa, joka todella heijastaa heidän rakentamansa syvyyttä. 4 miljoonan dollarin markkina-arvolla ja tällä infrastruktuurin tasolla se tuntuu valtavasti alihinnoitellulta. Jos he pystyvät toimittamaan käyttökelpoisen tuotteen, uskon, että se voi helposti merkitä seuraavan tekoälyn infrasyklin alkua. Kuten aina, riski on olemassa, ja vaikka olen tarkistanut tiimin vaivihkaa viime viikkoina, mikään projekti ei ole koskaan täysin mattovarma. Hintatavoitteet? Paljon korkeampi.
Tldr siitä, miksi valitsin koodekin > Nuitin operaattoreille: Koodekki käyttää kolmikerroksista arkkitehtuuria (kone, järjestelmä, älykkyys), joka mahdollistaa eristetyt, tehokkaat agentit alkuperäisellä ohjauksella. Jokainen koodekkiagentti toimii paikallisesti käyttämällä Vision-Language-Action (VLA) -silmukkaa, mikä vähentää viivettä ja lisää luotettavuutta. Nuitin malli perustuu selaimen jäsentämiseen + pilvipohjaisiin tekoälykutsuihin, mikä rajoittaa joustavuutta ja tuo haurautta. Pakkauksenhallinta skaalautuu vaakasuunnassa tuhansien agenttien kesken ilman jaettua tilaa ja vikasietoisaa modulaarisuutta.
Näytä alkuperäinen
14,93 t.
74
Tällä sivulla näytettävä sisältö on kolmansien osapuolten tarjoamaa. Ellei toisin mainita, OKX ei ole lainatun artikkelin / lainattujen artikkelien kirjoittaja, eikä OKX väitä olevansa materiaalin tekijänoikeuksien haltija. Sisältö on tarkoitettu vain tiedoksi, eikä se edusta OKX:n näkemyksiä. Sitä ei ole tarkoitettu minkäänlaiseksi suositukseksi, eikä sitä tule pitää sijoitusneuvontana tai kehotuksena ostaa tai myydä digitaalisia varoja. Siltä osin kuin yhteenvetojen tai muiden tietojen tuottamiseen käytetään generatiivista tekoälyä, tällainen tekoälyn tuottama sisältö voi olla epätarkkaa tai epäjohdonmukaista. Lue aiheesta lisätietoa linkitetystä artikkelista. OKX ei ole vastuussa kolmansien osapuolten sivustojen sisällöstä. Digitaalisten varojen, kuten vakaakolikoiden ja NFT:iden, omistukseen liittyy suuri riski, ja niiden arvo voi vaihdella merkittävästi. Sinun tulee huolellisesti harkita, sopiiko digitaalisten varojen treidaus tai omistus sinulle taloudellisessa tilanteessasi.