أكدت OpenAI للتو أطروحة النجم الشمالي الخاصة بي عن الذكاء الاصطناعي اليوم من خلال إطلاق سراح وكيل المشغل. لم تكن هذه أطروحتي التوجيهية $CODEC فحسب ، بل كانت كل استثمار الذكاء الاصطناعي آخر قمت به ، بما في ذلك تلك التي وقعت في وقت سابق من العام خلال هوس الذكاء الاصطناعي. كان هناك الكثير من النقاش مع برنامج الترميز فيما يتعلق بالروبوتات ، في حين أن هذا العمودي سيكون له روايته الخاصة قريبا جدا ، فإن السبب الأساسي الذي جعلني متفائلا جدا بشأن برنامج الترميز منذ اليوم الأول يرجع إلى كيفية قيام بنيتها بتشغيل وكلاء المشغلين. لا يزال الناس يقللون من شأن مقدار الحصة السوقية المعرضة للخطر من خلال بناء برامج تعمل بشكل مستقل ، ويتفوق على العمال البشريين دون الحاجة إلى مطالبات أو رقابة مستمرة. لقد رأيت الكثير من المقارنات مع $NUIT. أولا ، أريد أن أقول إنني من أشد المعجبين بما تبنيه Nuit ولا أتمنى شيئا سوى نجاحهم. إذا كتبت "nuit" في برقيتي ، فسترى أنه في أبريل قلت إنه إذا اضطررت إلى الاحتفاظ بعملة واحدة لعدة أشهر ، فستكون Nuit بسبب أطروحة المشغل الخاصة بي. كان Nuit أكثر مشاريع المشغل الواعد على الورق ، ولكن بعد بحث مكثف ، وجدت أن هندسته المعمارية تفتقر إلى العمق اللازم لتبرير استثمار كبير أو وضع سمعتي وراءه. مع وضع ذلك في الاعتبار ، كنت بالفعل على دراية بالثغرات المعمارية في فرق وكلاء المشغل الحالية والبحث بنشاط عن مشروع يعالجها. بعد فترة وجيزة من ظهور برنامج الترميز (بفضل إصرار @0xdetweiler على النظر بشكل أعمق) وهذا هو الفرق بين الاثنين: $CODEC مقابل $NUIT تم بناء بنية برنامج الترميز عبر ثلاث طبقات. الآلة والنظام والذكاء، التي تفصل بين البنية التحتية وواجهة البيئة ومنطق الذكاء الاصطناعي. يعمل كل عامل عميل في برنامج الترميز في الجهاز الظاهري أو الحاوية المعزولة الخاصة به، مما يسمح بالأداء الأصلي القريب وعزل الأخطاء. يعني هذا التصميم متعدد الطبقات أن المكونات يمكن أن تتوسع أو تتطور بشكل مستقل دون كسر النظام. تأخذ الهندسة المعمارية ل Nuit مسارا مختلفا من خلال كونها أكثر تجانسا. تدور مجموعتها حول وكيل متصفح ويب متخصص يجمع بين التحليل والتفكير في الذكاء الاصطناعي والعمل. بمعنى أنها تحلل صفحات الويب بعمق إلى بيانات منظمة ليستهلكها الذكاء الاصطناعي وتعتمد على المعالجة السحابية لمهام الذكاء الاصطناعي الثقيلة. إن نهج برنامج الترميز لتضمين نموذج Vision-Language-Action خفيف الوزن (VLA) داخل كل وكيل يعني أنه يمكن تشغيله محليا بالكامل. الأمر الذي لا يتطلب إعادة اتصال مستمر إلى السحابة للحصول على التعليمات ، والتخلص من زمن الوصول وتجنب الاعتماد على وقت التشغيل والنطاق الترددي. يعالج وكيل Nuit المهام عن طريق تحويل صفحات الويب أولا إلى تنسيق دلالي ثم استخدام دماغ LLM لمعرفة ما يجب القيام به ، والذي يتحسن بمرور الوقت مع التعلم المعزز. على الرغم من فعاليته في أتمتة الويب ، إلا أن هذا التدفق يعتمد على معالجة الذكاء الاصطناعي الثقيلة من جانب السحابة وهياكل الصفحات المحددة مسبقا. يعني ذكاء الجهاز المحلي لبرنامج الترميز أن القرارات تحدث بالقرب من البيانات ، مما يقلل من النفقات العامة ويجعل النظام أكثر استقرارا للتغييرات غير المتوقعة (لا توجد نصوص هشة أو افتراضات DOM). يتبع مشغلو برنامج الترميز حلقة مستمرة للإدراك والتفكير والفعل. تقوم طبقة الجهاز ببث البيئة (على سبيل المثال تطبيق مباشر أو تغذية روبوت) إلى طبقة الذكاء عبر القنوات المحسنة لطبقة النظام ، مما يمنح الذكاء الاصطناعي "عيون" على الحالة الحالية. يقوم نموذج VLA الخاص بالوكيل بعد ذلك بتفسير العناصر المرئية والتعليمات معا لاتخاذ قرار بشأن الإجراء ، والذي تنفذه طبقة النظام من خلال أحداث لوحة المفاتيح / الماوس أو التحكم في الروبوت. تعني هذه الحلقة المدمجة أنها تتكيف مع الأحداث الحية ، حتى إذا تحولت واجهة المستخدم ، فلن تكسر التدفق. لوضع كل هذا في تشبيه أكثر بساطة ، فكر في مشغلي برنامج الترميز كموظف مكتف ذاتيا يتكيف مع المفاجآت في الوظيفة. يشبه وكيل Nuit الموظف الذي يحتاج إلى التوقف ، ووصف الموقف للمشرف عبر الهاتف ، وانتظار التعليمات. دون النزول كثيرا في حفرة الأرانب الفنية ، يجب أن يمنحك هذا فكرة عالية المستوى عن سبب اختياري ل Codec كرهاني الأساسي على العملاء. نعم ، يتمتع Nuit بدعم من YC ، وهو فريق مكدس و github من المستوى S. على الرغم من أن بنية برنامج الترميز قد تم إنشاؤها مع وضع القياس الأفقي في الاعتبار ، مما يعني أنه يمكنك نشر الآلاف من الوكلاء بالتوازي مع عدم وجود ذاكرة مشتركة أو سياق تنفيذ بين الوكلاء. فريق الترميز ليس مطورين عاديين أيضا. تفتح بنية VLA الخاصة بهم العديد من حالات الاستخدام التي لم تكن ممكنة مع نماذج الوكلاء السابقة بسبب الرؤية من خلال وحدات البكسل ، وليس لقطات الشاشة. يمكنني الاستمرار ولكني سأحفظ ذلك للمشاركات المستقبلية.
البيئات الظاهرية لوكلاء المشغلين: $CODEC لطالما تركزت أطروحتي الأساسية حول انفجار الذكاء الاصطناعي على صعود وكلاء المشغلين. ولكن لكي ينجح هؤلاء الوكلاء ، فإنهم يحتاجون إلى وصول عميق إلى النظام ، مما يمنحهم بشكل فعال التحكم في جهاز الكمبيوتر الشخصي والبيانات الحساسة ، مما يؤدي إلى مخاوف أمنية خطيرة. لقد رأينا بالفعل كيف تتعامل شركات مثل OpenAI وعمالقة التكنولوجيا الآخرين مع بيانات المستخدم. في حين أن معظم الناس لا يهتمون ، فإن الأفراد الذين سيستفيدون أكثر من وكلاء المشغلين ، فإن أعلى 1٪ يفعلون ذلك تماما. شخصيا ، ليس هناك أي فرصة لمنح شركة مثل OpenAI وصولا كاملا إلى جهازي ، حتى لو كان ذلك يعني زيادة الإنتاجية بمقدار 10×. فلماذا برنامج الترميز؟ تتمحور بنية برنامج الترميز على إطلاق "أجهزة سطح المكتب السحابية" المعزولة عند الطلب لوكلاء الذكاء الاصطناعي. في جوهرها ، توجد خدمة تنسيق مستندة إلى Kubernetes (تحمل الاسم الرمزي Captain) والتي توفر أجهزة افتراضية خفيفة الوزن (VMs) داخل كبسولات Kubernetes. يحصل كل عامل على بيئة معزولة خاصة به على مستوى نظام التشغيل (مثيل نظام تشغيل Linux كامل) حيث يمكنه تشغيل التطبيقات أو المستعرضات أو أي تعليمات برمجية ، في وضع الحماية بالكامل من الوكلاء الآخرين والمضيف. يتعامل Kubernetes مع الجدولة والقياس التلقائي والإصلاح الذاتي لكبسولات الوكيل هذه ، مما يضمن الموثوقية والقدرة على تدوير العديد من مثيلات العامل لأعلى / لأسفل حسب متطلبات التحميل يتم استخدام بيئات التنفيذ الموثوق بها (TEEs) لتأمين هذه الأجهزة الظاهرية، مما يعني أنه يمكن عزل جهاز العامل بشكل مشفر، ويمكن حماية ذاكرته وتنفيذه من نظام التشغيل المضيف أو موفر السحابة. هذا أمر بالغ الأهمية للمهام الحساسة: على سبيل المثال ، يمكن أن يحتفظ الجهاز الظاهري الذي يعمل في جيب بمفاتيح واجهة برمجة التطبيقات أو أسرار محفظة التشفير بشكل آمن. عندما يحتاج عامل الذكاء الاصطناعي ("دماغ") المستند إلى LLM إلى تنفيذ إجراءات، فإنه يرسل طلبات واجهة برمجة التطبيقات إلى خدمة Captain، والتي تقوم بعد ذلك بتشغيل أو إدارة جراب الجهاز الظاهري للعامل. سير العمل: يطلب العامل جهازا، ويخصص Captain (من خلال Kubernetes) جرابا ويعلق وحدة تخزين ثابتة (لقرص الجهاز الظاهري). يمكن للعامل بعد ذلك الاتصال بالجهاز الظاهري الخاص به (عبر قناة آمنة أو واجهة دفق) لإصدار الأوامر. يعرض Captain نقاط النهاية للعامل لتنفيذ أوامر shell وتحميل/تنزيل الملفات واسترداد السجلات وحتى لقطة الجهاز الظاهري لاستعادتها لاحقا. يمنح هذا التصميم العامل نظام تشغيل كامل للعمل فيه ، ولكن مع وصول متحكم فيه ومدقق. نظرا لأنه مبني على Kubernetes، يمكن ل Codec التوسع تلقائيا أفقيا، إذا احتاج 100 وكيل إلى بيئات، فيمكنه جدولة 100 pod عبر نظام المجموعة، ومعالجة حالات الفشل عن طريق إعادة تشغيل pods. يمكن تجهيز الجهاز الظاهري للوكيل بخوادم MCP مختلفة (مثل "منفذ USB" ل الذكاء الاصطناعي). على سبيل المثال ، وحدة Codec's Conductor هي حاوية تشغل متصفح Chrome جنبا إلى جنب مع خادم Microsoft Playwright MCP للتحكم في المتصفح. يسمح هذا لوكيل الذكاء الاصطناعي بفتح صفحات الويب والنقر فوق الروابط وملء النماذج وكشط المحتوى عبر مكالمات MCP القياسية ، كما لو كان إنسانا يتحكم في المتصفح. يمكن أن تتضمن عمليات تكامل MCP الأخرى نظام الملفات/المحطة الطرفية MCP (للسماح للوكيل بتشغيل أوامر CLI بشكل آمن) أو MCPs الخاصة بالتطبيق (لواجهات برمجة التطبيقات السحابية وقواعد البيانات وما إلى ذلك). بشكل أساسي ، يوفر برنامج الترميز "أغلفة" البنية التحتية (الأجهزة الافتراضية ، الجيوب ، الشبكات) بحيث يمكن تنفيذ خطط الوكيل عالية المستوى بأمان على البرامج والشبكات الحقيقية. حالات الاستخدام أتمتة المحفظة: يمكن لبرنامج الترميز تضمين محافظ أو مفاتيح داخل جهاز ظاهري محمي بواسطة TEE ، مما يسمح لوكيل الذكاء الاصطناعي بالتفاعل مع شبكات blockchain (التداول على DeFi ، وإدارة الأصول المشفرة) دون الكشف عن المفاتيح السرية. تمكن هذه البنية الوكلاء الماليين على السلسلة من تنفيذ معاملات حقيقية بشكل آمن ، وهو أمر قد يكون خطيرا للغاية في إعداد الوكيل النموذجي. يسرد شعار المنصة صراحة دعم "المحافظ" كقدرة رئيسية. يمكن للوكيل، على سبيل المثال، تشغيل واجهة سطر أوامر (CLI) لمحفظة Ethereum داخل جيبه، وتوقيع المعاملات، وإرسالها، مع التأكد من أنه إذا أساء العامل التصرف، فإنه يقتصر على الجهاز الظاهري الخاص به وأن المفاتيح لا تغادر TEE أبدا. أتمتة المتصفح والويب: يمكن لوكلاء CodecFlow التحكم في مستعرضات الويب الكاملة في الجهاز الظاهري الخاص بهم. يوضح مثال Conductor وكيلا يقوم بتشغيل Chrome وبث شاشته إلى Twitch في الوقت الفعلي. من خلال Playwright MCP ، يمكن للوكيل التنقل في مواقع الويب والنقر فوق الأزرار وكشط البيانات تماما مثل المستخدم البشري. يعد هذا مثاليا لمهام مثل تجريف الويب خلف عمليات تسجيل الدخول أو معاملات الويب الآلية أو اختبار تطبيقات الويب. تعتمد الأطر التقليدية عادة على استدعاءات واجهة برمجة التطبيقات أو نصوص المتصفح البسيطة مقطوعة الرأس. في المقابل ، يمكن ل CodecFlow تشغيل متصفح حقيقي بواجهة مستخدم مرئية ، مما يسهل التعامل مع تطبيقات الويب المعقدة (على سبيل المثال مع تحديات JavaScript أو CAPTCHA الثقيلة) تحت سيطرة الذكاء الاصطناعي. أتمتة واجهة المستخدم الرسومية في العالم الحقيقي (الأنظمة القديمة): نظرا لأن كل وكيل لديه نظام تشغيل سطح مكتب فعلي، يمكنه أتمتة تطبيقات واجهة المستخدم الرسومية القديمة أو جلسات سطح المكتب البعيد، وتعمل بشكل أساسي مثل أتمتة العمليات الروبوتية (RPA) ولكن مدفوعة ب الذكاء الاصطناعي. على سبيل المثال، يمكن للوكيل فتح جدول بيانات Excel في جهاز Windows الظاهري الخاص به، أو واجهة مع تطبيق طرفي قديم لا يحتوي على واجهة برمجة تطبيقات. يذكر موقع الترميز تمكين "الأتمتة القديمة" صراحة. يفتح هذا باستخدام الذكاء الاصطناعي لتشغيل البرامج التي لا يمكن الوصول إليها عبر واجهات برمجة التطبيقات الحديثة ، وهي مهمة ستكون مخترقة للغاية أو غير آمنة بدون بيئة مضمنة. يشير تكامل noVNC المضمن إلى أنه يمكن ملاحظة العوامل أو التحكم فيها عبر VNC ، وهو أمر مفيد لمراقبة الذكاء الاصطناعي الذي يقود واجهة المستخدم الرسومية. محاكاة مهام سير عمل SaaS: غالبا ما يكون لدى الشركات عمليات معقدة تتضمن تطبيقات SaaS متعددة أو أنظمة قديمة. على سبيل المثال ، قد يأخذ الموظف بيانات من Salesforce ، ويدمجها مع بيانات من تخطيط موارد المؤسسات الداخلي ، ثم يرسل ملخصا بالبريد الإلكتروني إلى العميل. يمكن أن يمكن برنامج الترميز عامل الذكاء الاصطناعي من تنفيذ هذا التسلسل بأكمله عن طريق تسجيل الدخول الفعلي إلى هذه التطبيقات من خلال متصفح أو برنامج عميل في الجهاز الظاهري الخاص به ، تماما كما يفعل الإنسان. هذا يشبه RPA ، ولكنه مدعوم ب LLM يمكنه اتخاذ القرارات والتعامل مع التباين. الأهم من ذلك ، يمكن توفير بيانات اعتماد هذه التطبيقات إلى الجهاز الظاهري بشكل آمن (وحتى مرفقة في TEE) ، بحيث يمكن للوكيل استخدامها دون "رؤية" بيانات اعتماد النص العادي أو تعريضها خارجيا. يمكن أن يؤدي ذلك إلى تسريع أتمتة مهام المكتب الخلفي الروتينية مع إرضاء تكنولوجيا المعلومات التي يقوم كل وكيل بتشغيلها بأقل امتياز وقابلية تدقيق كاملة (حيث يمكن تسجيل كل إجراء في الجهاز الظاهري أو تسجيله). خارطة الطريق - إطلاق العرض التوضيحي العام في نهاية الشهر - مقارنة الميزات مع الأنظمة الأساسية المماثلة الأخرى (لا يوجد منافس ل web3) - تكامل TAO - شراكة ألعاب كبيرة من حيث الأصالة ، تم بناء برنامج الترميز على أساس التقنيات الحالية ولكنه يدمجها بطريقة جديدة لاستخدام عامل الذكاء الاصطناعي. فكرة بيئات التنفيذ المعزولة ليست جديدة (الحاويات والأجهزة الافتراضية وTEEs قياسية في الحوسبة السحابية) ، ولكن تطبيقها على وكلاء الذكاء الاصطناعي المستقلين باستخدام طبقة واجهة برمجة التطبيقات السلسة (MCP) أمر جديد للغاية. تستفيد المنصة من المعايير والأدوات المفتوحة حيثما أمكن ذلك: فهي تستخدم خوادم MCP مثل Playwright من Microsoft للتحكم في المتصفح بدلا من إعادة اختراع تلك العجلة ، وتخطط لدعم أجهزة Firecracker الصغيرة من AWS للمحاكاة الافتراضية بشكل أسرع. كما أنها تشعبت الحلول الحالية مثل noVNC لبث أجهزة الكمبيوتر المكتبية. إثبات أن المشروع يقف على أسس التكنولوجيا التي أثبتت جدواها (Kubernetes ، وأجهزة الجيب ، والمكتبات مفتوحة المصدر) ، مع التركيز على تطويره الأصلي على منطق الغراء والتنسيق ("الصلصة السرية" هي الطريقة التي يعمل بها كل شيء معا). إن الجمع بين المكونات مفتوحة المصدر والخدمة السحابية القادمة (التي تم التلميح إليها من خلال ذكر أداة مساعدة $CODEC للرمز المميز والوصول إلى المنتج العام) يعني أن برنامج الترميز سيكون متاحا قريبا بأشكال متعددة (كخدمة ومستضاف ذاتيا). فريق Moyai: 15+ عاما من الخبرة في التطوير ، يقود حاليا تطوير الذكاء الاصطناعي في Elixir Games. lil'km: 5+ سنوات مطور الذكاء الاصطناعي ، يعمل حاليا مع HuggingFace في مشروع LeRobot. HuggingFace هي شركة روبوتات ضخمة ويعمل Moyai كرئيس للذكاء الاصطناعي في ألعاب الإكسير (بدعم من Square enix و solanafdn. لقد اتصلت شخصيا بالفيديو بالفريق بأكمله وأحب حقا الطاقة التي يجلبونها. صديقي الذي وضعهم على الرادار الخاص بي التقى بهم جميعا أيضا في Token2049 ولم يكن لديه سوى أشياء جيدة ليقولها. افكار اخيرة لا يزال هناك الكثير لتغطيته ، والذي سأحفظه للتحديثات والمنشورات المستقبلية في قناة Telegram الخاصة بي. لطالما اعتقدت أن البنية التحتية السحابية هي مستقبل وكلاء المشغلين. لطالما احترمت ما تقوم Nuit ببنائه ، لكن برنامج الترميز هو أول مشروع أظهر لي القناعة الكاملة التي كنت أبحث عنها. من الواضح أن الفريق من المهندسين من الدرجة الأولى. لقد قالوا صراحة إن التسويق ليس قوتهم ، وهذا على الأرجح هو السبب في أن هذا قد طار تحت الرادار. سأعمل معهم عن كثب للمساعدة في تشكيل استراتيجية GTM التي تعكس في الواقع عمق ما يبنونه. مع القيمة السوقية البالغة 4 ملايين دولار وهذا المستوى من البنية التحتية ، يبدو أنه أقل من قيمته بشكل كبير. إذا تمكنوا من تقديم منتج قابل للاستخدام ، أعتقد أنه يمكن أن يمثل بسهولة بداية دورة البنية التحتية التالية لنظام الذكاء الاصطناعي. كما هو الحال دائما ، هناك خطر ، وبينما قمت بفحص الفريق خلسة خلال الأسابيع القليلة الماضية ، لا يوجد مشروع مقاوم تماما على الإطلاق. أهداف الأسعار؟ أعلى بكثير.
Tldr حول سبب اختياري برنامج الترميز > Nuit للمشغلين: يستخدم برنامج الترميز بنية ثلاثية الطبقات (الآلة والنظام والذكاء) مما يتيح وكلاء معزولين وعالي الأداء مع التحكم الأصلي. يعمل كل عامل برنامج ترميز محليا باستخدام حلقة Vision-Language-Action (VLA)، مما يقلل من زمن الانتقال ويزيد من الموثوقية. يعتمد نموذج Nuit على تحليل المتصفح + مكالمات الذكاء الاصطناعي السحابي ، مما يحد من المرونة ويقدم الهشاشة. يتوسع برنامج الترميز أفقيا عبر آلاف الوكلاء ، مع عدم وجود نمطية مشتركة للحالة وتحمل الخطأ.
عرض الأصل
‏‎12.46 ألف‏
‏‎66‏
المحتوى الوارد في هذه الصفحة مُقدَّم من أطراف ثالثة. وما لم يُذكَر خلاف ذلك، فإن OKX ليست مُؤلِّفة المقالة (المقالات) المذكورة ولا تُطالِب بأي حقوق نشر وتأليف للمواد. المحتوى مٌقدَّم لأغراض إعلامية ولا يُمثِّل آراء OKX، وليس الغرض منه أن يكون تأييدًا من أي نوع، ولا يجب اعتباره مشورة استثمارية أو التماسًا لشراء الأصول الرقمية أو بيعها. إلى الحد الذي يُستخدَم فيه الذكاء الاصطناعي التوليدي لتقديم مُلخصَّات أو معلومات أخرى، قد يكون هذا المحتوى الناتج عن الذكاء الاصطناعي غير دقيق أو غير مُتسِق. من فضلك اقرأ المقالة ذات الصِلة بهذا الشأن لمزيدٍ من التفاصيل والمعلومات. OKX ليست مسؤولة عن المحتوى الوارد في مواقع الأطراف الثالثة. والاحتفاظ بالأصول الرقمية، بما في ذلك العملات المستقرة ورموز NFT، فيه درجة عالية من المخاطر وهو عُرضة للتقلُّب الشديد. وعليك التفكير جيِّدًا فيما إذا كان تداوُل الأصول الرقمية أو الاحتفاظ بها مناسبًا لك في ظل ظروفك المالية.