Çinli araştırmacılar, konuşma ve görüntü arasında karşılıklı üretimi gerçekleştirmek için yeni bir üç modlu ön eğitim modeli oluşturdu. OPT-Omni-Perception pre-Trainer modeli, metin, konuşma, görüntü ve videonun çok modlu içeriğini ortaklaşa kullanımını ve dönüşümünü sağlıyor.
Mevcut ön eğitim modelleri, ortamdaki konuşma bilgisini göz ardı ederken genellikle görüntü, video ve metin modlarını kapsıyor. Sınırlamaları kaldırmak için geliştirilen bu yeni model, metinden görüntü oluşturma, görüntüden metin oluşturma ve konuşmadan görüntü oluşturma gibi fonksiyonları yerine getirebiliyor.
Modelin geliştiricisi Çin Bilimler Akademisi Otomasyon Enstitüsü’ne göre, yeni modelin yapımı yapay zekanın (AI) gelişimini destekleyecek ve metin, konuşma, görüntü ve videonun temel görevlerinin performansını önemli ölçüde artıracak. Konuşma tanıma ve sentezlemenin yanı sıra insan-bilgisayar etkileşimi ve insansız sürüş gibi ticari uygulamalarda büyük potansiyel değere sahip.
Yorumlar
Popüler Haberler
Yasadışı bahis operasyonu: Serdar Ortaç ve Mehmet Ali Erbil'e tutuklama talebi
Mahkeme tespit etti: Boğaziçi Üniversitesi, mülakatta usulsüzlük yapmış!
MSB kaynakları, Bosna'da görev yapan Türk askerinin pedofili suçunu doğruladı
Adaylık kulisi: 'İktidarı en mutsuz edecek' İmamoğlu-Yavaş formülü
Ahmak davası: AYM’nin İmamoğlu kararı 9 ay sonra Resmi Gazete'de
Otopsi raporu ortaya çıktı: Rojin'in ölüm nedeni belli oldu