आज, एजेंट सॉफ़्टवेयर का उपयोग करते हैं। कल, वे सब कुछ उपयोग करेंगे।
हम एक ऐसी दुनिया की ओर बना रहे हैं जहां AI सिर्फ़ स्क्रीन पर बटन क्लिक नहीं करता — यह मशीनों को संचालित करता है, भौतिक स्थानों को नेविगेट करता है, और वास्तविक दुनिया में इंसानों के साथ काम करता है।
कंप्यूटर-यूज़
एजेंट जो स्क्रीन देखते हैं, बटन क्लिक करते हैं, और किसी भी सॉफ़्टवेयर को बिल्कुल इंसान की तरह चलाते हैं। कोई API नहीं चाहिए। यही वह जगह है जहां Deck आज है — और यह पहले से ही कंपनियों के काम करने के तरीके को बदल रहा है।
आज की सीमाओं के भीतर LLM को अधिकतम करना
वर्तमान मॉडल शक्तिशाली हैं लेकिन सीमित — कॉन्टेक्स्ट विंडो, हैल्यूसिनेशन, लागत। हम शोध कर रहे हैं कि कैसे आगे बढ़ें: मल्टी-एजेंट ऑर्केस्ट्रेशन, लंबे समय तक चलने वाली कार्य मेमोरी, स्व-उपचार वर्कफ़्लो जो मानव हस्तक्षेप के बिना त्रुटियों से उबरते हैं, और संरचित तर्क जो 100+ चरण वर्कफ़्लो में एजेंटों को ट्रैक पर रखता है।
रोबोटिक-यूज़
वही सिद्धांत जो एक एजेंट को वेबसाइट नेविगेट करने देते हैं, उसे गोदाम नेविगेट करने दे सकते हैं। वही विज़न मॉडल जो डैशबोर्ड पढ़ता है, फ़ैक्ट्री फ़्लोर पढ़ सकता है। हम खोज रहे हैं कि Computer Use स्क्रीन से परे कैसे विस्तारित होता है — कैमरों, सेंसरों, रोबोटिक आर्म्स, और भौतिक वातावरण में।
खुले प्रश्न जिन पर हम काम कर रहे हैं
API दुनिया के 1% सॉफ़्टवेयर को कवर करते हैं। बाकी 99% में केवल यूज़र इंटरफ़ेस है। आप एक ऐसा एजेंट कैसे बनाते हैं जो यह सब संचालित कर सके — इंटीग्रेशन कोड की एक भी लाइन के बिना?
अगर वेबसाइट नेविगेट करने का संज्ञानात्मक लूप वही है जो गोदाम नेविगेट करने का — देखो, निर्णय लो, कार्य करो — तो कौन सा इंफ्रास्ट्रक्चर डिजिटल और भौतिक वातावरण के बीच की खाई को पाटता है?
200-चरण वर्कफ़्लो में जहां प्रत्येक चरण 98% विश्वसनीय है, एंड-टू-एंड सफलता दर ~2% तक गिर जाती है। आप ऐसा एरर करेक्शन कैसे डिज़ाइन करते हैं जो क्वाड्रेटिक लागत के बिना विश्वसनीयता 95% से ऊपर रखे?
हर एंटरप्राइज़ के पास हज़ारों क्रेडेंशियल हैं और हर एजेंट को एक्सेस चाहिए। आप ऐसा क्रेडेंशियल आर्किटेक्चर कैसे बनाते हैं जहां एक VM का समझौता पूरे ग्राफ़ को उजागर न करे?
सॉफ़्टवेयर अपना UI किसी भी मॉडल के रीट्रेन करने से तेज़ बदलता है। आप ऐसे एजेंट कैसे बनाते हैं जो हर इंटरफ़ेस को नया मानें — और फिर भी पहली कोशिश में इसे सही तरीके से संचालित करें?
वह बड़ा सवाल क्या है जिसका उत्तर आप खोज रहे हैं?
अगर ये सवाल आपको उत्साहित करते हैं