मेटा ने स्पीच मॉडल के लिए 'वॉयसबॉक्स' नेक्स्ट-जेन एआई पेश किया

546
17 Jun 2023
min read

News Synopsis

मेटा ने 'स्टेट ऑफ द आर्ट' जनरेटिव एआई मॉडल वॉयसबॉक्स की घोषणा की है, जो टेक्स्ट को स्पीच में परिवर्तित करता है, और इसमें ऑडियो संपादित करने और भाषाओं में काम करने की विशेषताएं शामिल हैं।

मेटा के सीईओ मार्क जुकरबर्ग Meta CEO Mark Zuckerberg द्वारा साझा किए गए एक इंस्टाग्राम चैनल Instagram Channel पोस्ट में एक वीडियो दिखाया गया है, कि वॉयसबॉक्स विभिन्न प्रकार की मुखर शैलियों में पाठ कैसे पढ़ सकता है, ऑडियो ट्रैक्स से शोर विकर्षण को दूर कर सकता है, वक्ताओं की आवाज़ सीख सकता है, और दोहरा सकता है, यहां तक कि विभिन्न भाषाओं में आउटपुट भी उत्पन्न कर सकता है।

मेटा द्वारा शुक्रवार को एक ब्लॉग पोस्ट में बताया गया कि मॉडल ऐसे कार्य कर सकता है, जिन्हें करने के लिए उसे विशेष रूप से प्रशिक्षित नहीं किया गया था।

बहुभाषी मॉडल अंग्रेजी, फ्रेंच, जर्मन, स्पेनिश, पोलिश या पुर्तगाली में भी भाषण दे सकता है। अन्य सूचीबद्ध सुविधाओं में विविध टेक्स्ट-टू-स्पीच, स्टाइल ट्रांसफर, सामग्री सुधार, संदर्भ में टेक्स्ट-टू-स्पीच और शोर हटाने शामिल हैं।

मेटा ने कहा भविष्य में इस तरह की तकनीक का इस्तेमाल क्रिएटर्स को आसानी से ऑडियो ट्रैक संपादित करने में मदद करने के लिए किया जा सकता है, दृष्टिबाधित लोगों को अपनी आवाज़ में दोस्तों से लिखित संदेश सुनने की अनुमति देता है, और लोगों को अपनी आवाज़ में कोई भी विदेशी भाषा बोलने में सक्षम बनाता है। इसका ब्लॉग पोस्ट।

इसने सुझाव दिया कि मॉडल मेटावर्स में आभासी सहायकों और गैर-खिलाड़ी पात्रों के लिए अधिक प्राकृतिक आवाजें ला सकता है।

जुकरबर्ग ने कहा कि वॉयसबॉक्स अभी भी एक "अनुसंधान परियोजना" था, लेकिन मेटा इस पर और अधिक निर्माण करेगा।

वीडियो क्लिप एक आवाज़ के साथ बंद हुई जो मेटा प्रमुख की तरह लग रही थी, पोलिश में "जल्द ही" कह रही थी।

मेटा मीडिया के कई रूपों को संसाधित करने के लिए एआई मॉडल विकसित कर रहा है, और इनमें से कई को अनुसंधान उद्देश्यों के लिए ओपन-सोर्स बनाया है।

Podcast

TWN Ideas