Mozilla, 2017 yılında “Common Voice” adını verdiği bir proje başlatmıştı. Bu proje kapsamında dünyanın dört bir yanından gönüllülerin ses kayıtları toplanmıştı. Projenin amacı ise küresel olarak kullanılabilecek, ses tanıma yapay zekâ araçlarının eğitilmesini sağlayacak eğitim setleri oluşturmaktı. Proje kapsamında bugüne kadar 180 dilde 30 bin saatlik konuşma verisi toplanmıştı.
Mozilla bu veriyi kimin kullandığına dair çok fazla bilgiye sahip değil, zaten ses dosyaları da kamuya açık kaynak konumunda bulunuyor. Öte yandan firmadan gelen açıklamalara göre bu verileri kullananlar arasında büyük teknoloji firmaları, küçük bağımsız geliştiriciler ve farklı projelerde çalışan ekipler yer alıyor.
Her yerde Mozilla’nın topladığı sesler kullanılıyor
Mozilla’nın Common Voice projesinde topladığı örnekler her projede aynı oranda kullanılmıyor. Örneğin farklı dillerde hukuki danışmanlık veren modeller ya da müşteri temsilcisi sohbet botları için veri setinin daha küçük parçaları tercih ediliyor. Veri setinin şimdiye kadar milyonlarca defa indirildiği belirtiliyor.
Common Voice, farklı kültürlerden ve bölgelerden katılımcıların da dahil olmasıyla birlikte büyümeye de devam ediyor. Projeye yapay zekânın gelişmesini isteyen teknoloji meraklıları dışında, kendi dillerinin ya da kültürlerinin de korunmasını isteyen gruplar büyük ilgi gösteriyor. Örneğin kaybolmaya yüz tutmuş dillerden olan Gallerce’nin kayıtlarının tutulması için bu proje Galler tarafından da teşvik ediliyor.
Mozilla ayrıca Afrika dilleri için de bir proje geliştiriyor.