फेसबुक मालिक मेटा शुक्रवार को कहा कि यह अपने अनुसंधान प्रभाग से नए एआई मॉडल के एक बैच को जारी कर रहा था, जिसमें एक “स्व-सिखाया मूल्यांकनकर्ता” भी शामिल है जो एआई विकास प्रक्रिया में कम मानव भागीदारी की ओर एक मार्ग प्रदान कर सकता है।
रिलीज मेटा के एक अगस्त पेपर में टूल के परिचय का अनुसरण करता है, जिसमें विस्तृत है कि यह ओपनईआई के हाल ही में जारी ओ 1 मॉडल द्वारा उपयोग की जाने वाली “चेन ऑफ थॉट” तकनीक पर कैसे निर्भर करता है ताकि मॉडल की प्रतिक्रियाओं के बारे में विश्वसनीय निर्णय लेने के लिए इसे प्राप्त किया जा सके।
उस तकनीक में जटिल समस्याओं को छोटे तार्किक चरणों में तोड़ना शामिल है और विज्ञान, कोडिंग और गणित जैसे विषयों में चुनौतीपूर्ण समस्याओं पर प्रतिक्रियाओं की सटीकता में सुधार करता है।
मेटा के शोधकर्ताओं ने मूल्यांकनकर्ता मॉडल को प्रशिक्षित करने के लिए पूरी तरह से एआई-जनित डेटा का उपयोग किया, साथ ही उस स्तर पर मानव इनपुट को भी समाप्त कर दिया।
एआई का मूल्यांकन करने के लिए एआई का उपयोग करने की क्षमता स्वायत्त एआई एजेंटों के निर्माण की दिशा में एक संभावित मार्ग पर एक झलक प्रदान करती है जो अपनी गलतियों से सीख सकते हैं, परियोजना के पीछे मेटा शोधकर्ताओं में से दो ने रायटर को बताया।
एआई फील्ड में कई लोग इस तरह के एजेंटों की कल्पना करते हैं जैसे कि डिजिटल सहायकों ने मानव हस्तक्षेप के बिना कार्यों की एक विशाल सरणी को पूरा करने के लिए पर्याप्त बुद्धिमान किया।
स्व-सुधार करने वाले मॉडल मानव प्रतिक्रिया से सुदृढीकरण सीखने वाले अक्सर महंगी और अक्षम प्रक्रिया की आवश्यकता को कम कर सकते हैं, जिसके लिए मानव एनोटेटर्स से इनपुट की आवश्यकता होती है, जिनके पास डेटा को सटीक रूप से लेबल करने के लिए विशेष विशेषज्ञता होनी चाहिए और यह सत्यापित करें कि जटिल गणित और लेखन प्रश्नों के उत्तर सही हैं।
शोधकर्ताओं में से एक, जेसन वेस्टन ने कहा, “हम आशा करते हैं, जैसा कि एआई अधिक से अधिक सुपर-ह्यूमन हो जाता है, कि यह अपने काम की जांच करने में बेहतर और बेहतर होगा, ताकि यह वास्तव में औसत मानव से बेहतर हो।”
उन्होंने कहा, “स्व-सिखाया जाने और आत्म-मूल्यांकन करने में सक्षम होने का विचार मूल रूप से एआई के इस तरह के सुपर-मानव स्तर तक पहुंचने के विचार के लिए महत्वपूर्ण है,” उन्होंने कहा।
Google और एन्थ्रोपिक सहित अन्य कंपनियों ने भी RLAIF की अवधारणा, या AI फीडबैक से सुदृढीकरण सीखने पर शोध प्रकाशित किया है। मेटा के विपरीत, हालांकि, वे कंपनियां सार्वजनिक उपयोग के लिए अपने मॉडल जारी नहीं करती हैं।
शुक्रवार को मेटा द्वारा जारी अन्य एआई टूल में कंपनी के छवि-पहचान खंड कुछ भी मॉडल के लिए एक अपडेट शामिल था, एक उपकरण जो एलएलएम प्रतिक्रिया जनरेशन टाइम्स और डेटासेट को गति देता है जिसका उपयोग नई अकार्बनिक सामग्री की खोज में सहायता के लिए किया जा सकता है।
© थॉमसन रॉयटर्स 2024