मेटा लोगो की फाइल फोटो | फोटो साभार: एपी
मेटा ने ‘स्टेट ऑफ द आर्ट’ जनरेटिव एआई मॉडल वॉयसबॉक्स की घोषणा की है जो टेक्स्ट को स्पीच में परिवर्तित करता है और इसमें ऑडियो संपादित करने और भाषाओं में काम करने की विशेषताएं शामिल हैं।
मेटा के सीईओ मार्क जुकरबर्ग द्वारा साझा किए गए एक इंस्टाग्राम चैनल पोस्ट में, एक वीडियो दिखाया गया है कि वॉयसबॉक्स विभिन्न प्रकार की मुखर शैलियों में पाठ कैसे पढ़ सकता है, ऑडियो ट्रैक से शोर विकर्षण को दूर कर सकता है, वक्ताओं की आवाज़ सीख सकता है और दोहरा सकता है, और यहां तक कि विभिन्न भाषाओं में आउटपुट भी उत्पन्न कर सकता है।
मेटा द्वारा शुक्रवार को एक ब्लॉग पोस्ट में बताया गया है कि मॉडल ऐसे कार्य कर सकता है जिन्हें करने के लिए उसे विशेष रूप से प्रशिक्षित नहीं किया गया था।
बहुभाषी मॉडल अंग्रेजी, फ्रेंच, जर्मन, स्पेनिश, पोलिश या पुर्तगाली में भी भाषण दे सकता है। अन्य सूचीबद्ध विशेषताओं में विविध टेक्स्ट-टू-स्पीच, स्टाइल ट्रांसफर, सामग्री सुधार, संदर्भ में टेक्स्ट-टू-स्पीच और शोर हटाने शामिल हैं।
(दिन की शीर्ष प्रौद्योगिकी समाचारों के लिए, हमारे तकनीकी न्यूज़लेटर टुडे कैश की सदस्यता लें)
मेटा ने कहा, “भविष्य में इस तरह की तकनीक का इस्तेमाल क्रिएटर्स को आसानी से ऑडियो ट्रैक संपादित करने में मदद करने के लिए किया जा सकता है, दृष्टिबाधित लोगों को उनकी आवाज में दोस्तों से लिखित संदेश सुनने की अनुमति देता है और लोगों को अपनी आवाज में कोई भी विदेशी भाषा बोलने में सक्षम बनाता है।” इसका ब्लॉग पोस्ट।
यह सुझाव दिया गया कि मॉडल मेटावर्स में आभासी सहायकों और गैर-खिलाड़ी-पात्रों के लिए अधिक प्राकृतिक आवाजें ला सकता है।
जुकरबर्ग ने कहा कि वॉयसबॉक्स अभी भी एक “अनुसंधान परियोजना” था, लेकिन मेटा इस पर और अधिक निर्माण करेगा।
वीडियो क्लिप एक आवाज़ के साथ बंद हुई जो मेटा प्रमुख की तरह लग रही थी, पोलिश में “जल्द ही” कह रही थी।
मेटा मीडिया के कई रूपों को संसाधित करने के लिए एआई मॉडल विकसित कर रहा है, और इनमें से कई को अनुसंधान उद्देश्यों के लिए खुला स्रोत बनाया है।
श्रेय: स्रोत लिंक
इस बारे में चर्चा post