Apple, Cornell Üniversitesi'nin uzmanlarıyla işbirliği yaparak, kendi multimodal dil modeli olan Ferret'i ekim ayında GitHub üzerinden herkese açık hale getirdi. Bu dil modeli, sorgular olarak görüntü kesitlerini kabul edebilen özelliklere sahiptir.
Ferret: Multimodal Dil Modelinin GitHub'da Yayınlanması
Ferret'in ekim ayındaki GitHub'a yüklenmesi, Apple'dan büyük duyurular eşliğinde gelmedi, ancak proje daha sonra endüstri uzmanlarının dikkatini çekti. Ferret'in çalışma prensibi, modelin belirli bir görüntü kesitini inceleyerek bu alandaki nesneleri tanımlaması ve bunları çerçeve içine almasıdır. Görüntü kesitinde tanımlanan nesneler, sistem tarafından bir sorgunun bir parçası olarak algılanır ve bu soruya metin formatında cevap verilir. Örneğin, kullanıcı bir hayvanın resmini seçip Ferret'ten tanımasını isteyebilir. Model, hayvanın hangi türde olduğu konusunda cevap verecek ve kullanıcı başka nesneler veya eylemlerle ilgili bilgileri sormak için bağlam içinde ek sorular sorabilecektir.
Ferret'in Önemi ve Açıklık
Apple'ın AI bölümünden araştırmacı Zhe Gan, açık model Ferret'in "herhangi bir şeyi, herhangi bir yerde ve herhangi bir detayla açıklayabilen bir sistem" olduğunu belirtti. Endüstri uzmanları, projenin bu formatta açıklanmasının önemini vurguluyor; çünkü bu, geleneksel olarak kapalı bir şirket olan Apple'ın açıklık sergilemesini gösteriyor. Bir teoriye göre, Apple, Microsoft ve Google ile rekabet etme çabasında, ancak benzer hesaplama kaynaklarına sahip olmadığı için kendi ChatGPT rakibini çıkaramayacağını fark etti. Bu nedenle, bulut hizmetleri deviyle ortaklık yapma veya Meta'nın önceden yaptığı gibi projesini açık formatta yayınlama arasında seçim yapmak zorunda kaldı.
Apple'ın Ferret projesi, şirketin AI alanındaki adımlarını genişleterek, endüstride açıklık ve işbirliği konularında yeni bir bakış açısı sunmaktadır.