Haluk Tanrıkulu

 

Derin Öğrenme sistemleri bir bilgi sistemidir. Bilgi sistemleri ne kadar sinir ağları çok az ilişkisi olsa bu gerçek yadsınamaz. 

Kaynak: http://www.kierandkelly.com/what-is-complexity/

Kelly komplex nedir adlı yazısında belirtiği gibi "Evrimin kendiliğinden ve ilerici karmaşıklığını yönlendiren şey, yetersiz olumsuz geri bildirim ile güçlü olumlu geri bildirimin etkileşimi; ya da başka bir deyişle evrimi yönlendiren şey Rastgele İnovasyon ve Doğal Takviye Etkileşimi."

Buradaki olumsuz geribildirim, Termodinamiğin İkinci Yasasında (gerçekten büyük sayıların kanunu olan) doğal eğilimdir. Yani, sistemler maksimum entropiye eğilimlidir. Ancak olumlu geri bildirimler kaosa yol açabilecek bir mekanizmadır. Ancak sağ üst kadranda ortaya çıkan karmaşıklığı keşfediyoruz. Başka bir deyişle, kişi karşılıklı geribildirimin yanı sıra rasgeleliğin varlığını da kucaklamak zorundadır. Ne yazık ki, matematiksel mirasımız, güzel bağımsız Gauss dağılımları varsaymak ve rastgelelik üzerinde seyrekliği (veya parsimony'i tercih etmek) sistem üzerinde doğal olmayan bir kısıtlama talep ediyor.

Şimdi, tamamen unutmadan önce, kaos ve karmaşıklığın Derin Öğrenmeyi açıklama ile nasıl ilişkili olduğunu açıklayayım. Derin Öğrenmeyi incelediğimizde, rastgelelik varlığını görmezden gelemeyiz. Bu sistemlerin kendine özgü bir özelliği gibi görünüyor. Burada aklıma gelen en basit sezgi : çeşitlilik hayatta kalmaya yol açar. Tek kültürler daha az adaptasyon ve olası yok olma eğilimindedir. En sezgisel kavram olan rastgelelik, bilginin korunmasına yol açar. Bilgisayar biliminde bunun bir örneği olarak, bu “Bilgi Dağılımı Algoritmaları” nda kullanılmaktadır. Yani, bilgi alır ve farklı depolama düğümleri arasında dağıtırsınız ve büyük ölçekte rastgele yaparsınız. Çok yedekli bir depolama alanı oluşturun. 

Bu, holografik hatıralarda bulduğunuzla aynı mekanizmadır . Burada yüksek entropinin değerini tespit ediyoruz. Diğer ekseni, kararsız geri bildirime ve dolayısıyla kaosa yol açabilecek yüksek karşılıklı bilgi eksenini inceleyelim. Karşılıklı Bilgi, birçok olasılık yönteminin antitezidir. Çünkü matematik bunu kaldıramaz. Ama matematiğe uyması için gerçek biraz çekmeli miyiz? Bence değil. Derin Öğrenmenin daha yüksek karşılıklı bilgi alanlarında nasıl iyi çalışabileceğinin daha iyi karakterizasyonundan biri, “ Derin Dinamiklerden Kritik Davranış: Doğal Dilde Gizli Bir Boyut ” adlı çalışmada anlatılmaktadır.

Makinelerin öğrenmede ne zaman kötü veya iyi olduğunu nasıl bilebiliriz? Eski cevap kayıp (loss) fonksiyonunu hesaplamaktır. Yeni cevap aynı zamanda, karşılıklı (mutual) bilgiyi, farklı ölçeklerdeki korelasyonları yakalamada modelin ne kadar iyi olduğunu gösterebilen bir ayırma fonksiyonu olarak hesaplamaktır.

Derin Öğrenme herhangi bir kullanım için birden çok ölçekte korelasyonları öğrenebilmelidir. Bunu anlamlı kılan farklı bir şekilde ifade etmek için Derin Öğrenme, harflerden kelimelere, cümlelere ve nihayetinde metinleri tamamlamaya kadar dilin kompozisyonunu anlayabilmelidir. Derin öğrenme dili yakaladığı için çalışır.

Ve bunu yapan öğrenme mekanizması tam olarak nedir? Jeremy England aslında hayatın kendini nasıl organize ettiği konusunda çok zorlayıcı bir argümana sahip. Quanta'da okuyabilirsiniz: “ Yeni Bir Fizik Yaşam Kuramı ” . Bu fikri alıp Derin Öğrenme'de öğrenmenin nasıl çalıştığını açıklamak için kullanabiliriz.  

“Eğitilebilirlik” ile ilgili açıklamalar önemlidir. Katmanlı bir DL sistemi, alt katmanlardan daha soyut yüksek katmanlara kadar bir dil temsili oluşturur. Her katmanın eğitim yoluyla keşfedilen ortak bir dolaşımı vardır. Zamanla, dolaşıklık, dolaşıklığın kırılması daha az olası olacak şekilde güçlendirilir. Örneğin, ağ yalnızca Latin karakterleri görürse, asla Arapça karakterleri anlama yeteneğini geliştirmez. Katmanlar da birbirine bağlıdır, bu nedenle altta (daha temel kavramlar) ve üstte (göreceli entropiyi en aza indirmek) bir kısıtlama vardır. Sonuçta bir dil hiyerarşisi oluşturulur. Bkz.(3 Temel DL Mimarisi Yetenekleri)

Ancak buradaki itiraz, uygun bir temsile ulaşmak için sonsuz bir zaman alması gerektiğidir. Entropinin etkileşimi burada devreye giriyor. Temel teori holografik prensibin aksine değildir. Rastgele olma sağlamlığı, karşılıklı bilgi ise kendini organize etmeyi ve sıkıştırmayı sağlar. Genelleme ne işe yarar? Emin değilim, ama sağ üst kadranda bir şey ortaya çıkıyor gibi görünüyor!

Kaynaklar : 

https://medium.com/intuitionmachine

http://www.kierandkelly.com/

https://www.wired.com/2017/01/move-coders-physicists-will-soon-rule-silicon-valley/

http://www.kierandkelly.com/what-drives-consciousness/

http://arxiv.org/abs/1606.06737v2

https://www.quantamagazine.org/20140122-a-new-physics-theory-of-life/