TEKNOLOJİ HABERLERİ

Yazar Konuşmaları: Dr. Fei-Fei Li, yapay zekaya multidisipliner bir yaklaşımla olasılıklar 'dünyaları' görüyor

Yapay zeka, geleceği etkileyecek yeni bir keşif çağını başlatıyor. Dr. Fei-Fei Li, yapay zekanın potansiyelini en üst düzeye çıkarabilecek ve riskleri azaltabilecek insan merkezli bir yaklaşım sunuyor.

 

Stanford Üniversitesi'nde bilgisayar bilimi profesörü ve Stanford Üniversitesi İnsan Merkezli Yapay Zeka Enstitüsü'nün kurucu yöneticisi Fei Li, yeni kitabı Gördüğüm Dünyalar: Merak, Keşif ve Keşif hakkında konuşuyor Yapay Zekanın Şafağında (Macmillan, Kasım 2023). Li, insan katkılarını değiştirmeye değil, artırmaya odaklanırken, yeni bilimsel atılımları destekleyen insan merkezli bir yapay zeka çerçevesi öneriyor. Yarının yapay zekası için insan onurunu ve refahını ön planda tutan etkili yönetim modellerinin oluşturulmasını savunuyor. Konuşmanın düzenlenmiş bir versiyonu aşağıdadır.

Kitap başlığının önemi:

Bu kitap bir bilim anı kitabıdır, dolayısıyla hem bilimi yapay zekanın bir kısmını hem de gelecek olan bir bilim insanının yolculuğunu yansıtır. yaşta. Sanırım geçmişim tipik bir çocuğunkine benzemiyor. Bu yüzden fiziksel ve zamansal olarak farklı dünyalardan geçiyorum. Sadece bilimle değil aynı zamanda bilimin sosyal boyutuyla da ilgilenen bir bilim insanı olarak dünyaları farklı boyutlarda görüyorum, dolayısıyla bu çoğulu yapmam çok önemliydi, Dünyalar. Bilgisayarlı görü yapay zeka bilimcisi olduğum için gördüğüm dünyalar görmenin özünü yansıtıyor.

... Devamı

Client

Üretken yapay zeka ile sanat ve teknolojinin sınırlarını zorluyoruz!
Medya sanatçısı Refik Anadol, MIT izleyicisine şunları söyledi: "Yapay zekayı kullanarak, ister üretken ister başka türlü olsun, insanlığın dilini bulma fırsatına sahip olduğumuza inanıyorum."

...Devamı

Derin öğrenme alanına yeni başlayanlar için ne tür bir ağ kullanılacağını bilmek zor olabilir. Aralarından seçim yapabileceğiniz çok sayıda ağ türü ve her gün yayınlanan ve tartışılan yeni yöntemler var.

İşleri daha da kötüleştirmek için, çoğu sinir ağı, yanlış türde veri veya tahmin problemi ile kullanıldığında bile çalışacak (bir tahminde bulunabilecek) kadar esnektir.

Bu yazıda, yapay sinir ağlarının üç ana sınıfı için önerilen kullanımı keşfedeceksiniz.

Bu yazıyı okuduktan sonra şunu bileceksiniz:

  • Tahmine dayalı bir modelleme problemi üzerinde çalışırken hangi tür sinir ağlarına odaklanılacağı .
  • Ne zaman kullanılmalı, kullanılmamalı ve bir projede MLP, CNN ve RNN kullanmayı deneyin.
  • Bir model seçmeden önce hibrit modellerin kullanımını düşünmek ve proje hedefleriniz hakkında net bir fikre sahip olmak.

Bu gönderi beş bölüme ayrılmıştır; bunlar:

  • Hangi Sinir Ağlarına Odaklanmalı?
  • Çok Katmanlı Algılayıcılar Ne Zaman Kullanılır?
  • Evrişimsel Sinir Ağları Ne Zaman Kullanılır?
  • Tekrarlayan Sinir Ağları Ne Zaman Kullanılır?
  • Hibrit Ağ Modelleri

Hangi Sinir Ağlarına Odaklanmalı?

Derin öğrenme , modern donanımlar kullanılarak yapay sinir ağlarının uygulanmasıdır.

Daha önce mümkün olduğu düşünülenden çok daha büyük (daha fazla katman) olan sinir ağlarının geliştirilmesine, eğitilmesine ve kullanılmasına izin verir.

Araştırmacılar tarafından mevcut modellerde değişiklik veya ince ayar olarak önerilen binlerce özel sinir ağı türü vardır. Bazen tamamen yeni yaklaşımlar.

Bir uygulayıcı olarak, genel olarak uygulanabilir bir model ortaya çıkana kadar beklemenizi tavsiye ederim. Günlük veya haftalık olarak yayınlanan çok sayıda yayının gürültüsünden genel olarak neyin iyi çalıştığının sinyalini çıkarmak zordur.

Genel olarak odaklanmanızı önerdiğim yapay sinir ağlarının üç sınıfı var. Bunlar:

  • Çok Katmanlı Algılayıcılar (MLP'ler)
  • Evrişimli Sinir Ağları (CNN'ler)
  • Tekrarlayan Sinir Ağları (RNN'ler)

Bu üç ağ sınıfı çok fazla esneklik sağlar ve onlarca yıl boyunca çok çeşitli problemlerde faydalı ve güvenilir olduklarını kanıtlamıştır. Ayrıca, onları farklı tahmin sorunları çerçevelemelerinin ve farklı veri kümelerinin tuhaflıklarında uzmanlaştırmaya yardımcı olacak birçok alt türü vardır.

Artık hangi ağlara odaklanacağımızı bildiğimize göre, her bir sinir ağı sınıfını ne zaman kullanabileceğimize bakalım.

Çok Katmanlı Algılayıcılar Ne Zaman Kullanılır?

Çok Katmanlı Algılayıcılar veya kısaca MLP'ler, klasik sinir ağı türüdür.

Bir veya daha fazla nöron katmanından oluşurlar. Veriler girdi katmanına beslenir, soyutlama seviyeleri sağlayan bir veya daha fazla gizli katman olabilir ve aynı zamanda görünür katman olarak da adlandırılan çıktı katmanında tahminler yapılır.

MLP'ler, girdilere bir sınıf veya etiket atandığı sınıflandırma tahmin problemleri için uygundur.

Ayrıca, bir dizi girdi verildiğinde gerçek değerli bir miktarın tahmin edildiği regresyon tahmin problemleri için de uygundurlar. Veriler genellikle bir CSV dosyasında veya bir elektronik tabloda göreceğiniz gibi bir tablo biçiminde sağlanır.

MLP'leri Şunlar İçin Kullanın:

  • Tablo veri kümeleri
  • Sınıflandırma tahmin problemleri
  • Regresyon tahmin problemleri

Çok esnektirler ve genellikle girdilerden çıktılara bir eşlemeyi öğrenmek için kullanılabilirler.

Bu esneklik, diğer veri türlerine uygulanmalarına olanak tanır. Örneğin, bir görüntünün pikselleri uzun bir veri satırına indirgenebilir ve bir MLP'ye beslenebilir. Bir belgenin kelimeleri de uzun bir veri satırına indirgenebilir ve bir MLP'ye beslenebilir. Bir zaman serisi tahmin problemi için gecikme gözlemleri bile uzun bir veri satırına indirgenebilir ve bir MLP'ye beslenebilir.

Bu nedenle, verileriniz resim, belge veya zaman serisi gibi tablo veri kümesinden farklı bir biçimdeyse, sorununuz üzerinde en azından bir MLP'yi test etmenizi öneririm. Sonuçlar, daha uygun görünebilecek diğer modellerin katma değer sağladığını doğrulamak için bir temel karşılaştırma noktası olarak kullanılabilir.

 

Evrişimsel Sinir Ağları Ne Zaman Kullanılır?

Evrişimli Sinir Ağları veya CNN'ler, görüntü verilerini bir çıktı değişkenine eşlemek için tasarlanmıştır.

O kadar etkili olduklarını kanıtladılar ki, girdi olarak görüntü verilerini içeren her türlü tahmin problemi için başvurulan yöntemdir.

CNN'leri kullanmanın yararı, iki boyutlu bir görüntünün dahili bir temsilini geliştirme yetenekleridir. Bu, modelin, görüntülerle çalışırken önemli olan verilerdeki değişken yapılardaki konumu ve ölçeği öğrenmesini sağlar.

CNN'leri Şunlar İçin Kullanın:

  • Görüntü verileri
  • Sınıflandırma tahmin problemleri
  • Regresyon tahmin problemleri

Daha genel olarak, CNN'ler uzamsal bir ilişkisi olan verilerle iyi çalışır.

CNN girişi geleneksel olarak iki boyutludur, bir alan veya matristir, ancak tek boyutlu bir dizinin dahili bir temsilini geliştirmesine izin vererek tek boyutlu olarak da değiştirilebilir.

Bu, CNN'nin daha genel olarak uzamsal bir ilişkisi olan diğer veri türleri üzerinde kullanılmasına izin verir. Örneğin, bir metin belgesinde kelimeler arasında bir sıra ilişkisi vardır. Bir zaman serisinin zaman adımlarında sıralı bir ilişki vardır.

Görüntü olmayan veriler için özel olarak geliştirilmemiş olsa da, CNN'ler duygu analizinde kullanılan belge sınıflandırması ve ilgili problemler gibi problemlerde en gelişmiş sonuçları elde eder.

Tekrarlayan Sinir Ağları Ne Zaman Kullanılır?

Tekrarlayan Sinir Ağları veya RNN'ler, dizi tahmin problemleriyle çalışmak üzere tasarlanmıştır.

Sıra tahmin sorunları birçok biçimde gelir ve en iyi desteklenen girdi ve çıktı türleri tarafından tanımlanır.

Sıralama tahmin problemlerinin bazı örnekleri şunları içerir:

  • Bire Çoğa : Çıktı olarak birden çok adımlı bir diziye eşlenen girdi olarak bir gözlem.
  • Çoktan Bire : Sınıf veya miktar tahminine eşlenen girdi olarak birden çok adım dizisi.
  • Çoktan çoğa : Çıktı olarak birden çok adım içeren bir diziye eşlenen girdi olarak birden çok adım dizisi.

Çoktan Çoğa sorununa genellikle diziden diziye veya kısaca seq2seq denir.

Tekrarlayan sinir ağlarını eğitmek geleneksel olarak zordu.

Uzun Kısa Süreli Bellek veya LSTM ağı, belki de en başarılı RNN'dir çünkü tekrarlayan bir ağın eğitilmesi sorunlarının üstesinden gelir ve buna karşılık çok çeşitli uygulamalarda kullanılır.

Genel olarak RNN'ler ve özellikle LSTM'ler, genellikle doğal dil işleme olarak adlandırılan kelime ve paragraf dizileriyle çalışırken en fazla başarıyı elde ettiler.

Bu, hem metin dizilerini hem de bir zaman dizisi olarak temsil edilen konuşma dili dizilerini içerir. Ayrıca, yalnızca metinle değil, aynı zamanda el yazısı oluşturma gibi uygulamalarda bir dizi çıktısı gerektiren üretken modeller olarak da kullanılırlar.

RNN'leri Şunlar İçin Kullanın:

  • Metin verileri
  • konuşma verileri
  • Sınıflandırma tahmin problemleri
  • Regresyon tahmin problemleri
  • üretken modeller

Tekrarlayan sinir ağları, bir CSV dosyasında veya elektronik tabloda göreceğiniz gibi, tablo halindeki veri kümeleri için uygun değildir. Ayrıca görüntü veri girişi için uygun değildirler.

RNN'leri Şunlar İçin Kullanmayın:

  • tablo verileri
  • Görüntü verileri

RNN'ler ve LSTM'ler, zaman serisi tahmin problemleri üzerinde test edilmiştir, ancak sonuçlar en hafif tabirle zayıf olmuştur. Otoregresyon yöntemleri, hatta doğrusal yöntemler bile genellikle çok daha iyi performans gösterir. LSTM'ler genellikle aynı verilere uygulanan basit MLP'lerden daha iyi performans gösterir.

Bununla birlikte, aktif bir alan olmaya devam etmektedir.

Hibrit Ağ Modelleri

Bir CNN veya RNN modeli nadiren tek başına kullanılır.

Bu tür ağlar, bir veya daha fazla MLP katmanına sahip daha geniş bir modelde katmanlar olarak kullanılır. Teknik olarak, bunlar melez bir sinir ağı mimarisi türüdür.

Belki de en ilginç çalışma, farklı ağ türlerinin melez modellerde karıştırılmasından kaynaklanmaktadır.

Örneğin, girişte CNN, ortada LSTM ve çıkışta MLP bulunan bir katman yığını kullanan bir model düşünün. Bunun gibi bir model, video gibi bir dizi görüntü girdisini okuyabilir ve bir tahmin oluşturabilir. Buna CNN LSTM mimarisi denir .

Ağ türleri, yeni bir LSTM modeline eklenebilen ve fotoğraflara alt yazı eklemek için kullanılabilen çok derin CNN ve MLP ağlarını kullanan yeniden kullanılabilir görüntü tanıma modelleri gibi yeni yeteneklerin kilidini açmak için belirli mimarilerde de istiflenebilir. Ayrıca, farklı uzunluklarda giriş ve çıkış dizilerine sahip olmak için kullanılabilen kodlayıcı-kod çözücü LSTM ağları.

Önce sizin ve paydaşlarınızın projeden ne beklediğini net bir şekilde düşünmeniz, ardından özel proje ihtiyaçlarınızı karşılayan bir ağ mimarisi aramanız (veya bir tane geliştirmeniz) önemlidir.

 

Makine öğrenimi, her türlü sorunu çözmek için derin bir araç kutusu sunar, ancak hangi araç hangi görev için en iyisidir? Açık uçlu anahtar ne zaman ayarlanabilir türden daha iyidir? Bu şeyleri kim icat etti? Bu bölümde en kullanışlı altı algoritmayı inceliyoruz: nereden geldikleri, ne yaptıkları ve AI toplumun her alanına girerken nasıl geliştikleri.

 

Doğrusal Regresyon: Düz ve Dar 

LinearRegression_CarWeight-Milege_1200px

Doğrusal regresyon, makine öğreniminde anahtar istatistiksel yöntem olabilir. İki seçkin matematikçi bu algoritmanın kendilerinin olduğu iddia ettiler ve 200 yıl sonra bile bu mesele çözülmedi. 

Kimin algoritması? 1805'te Fransız matematikçi Adrien-Marie Legendre, bir dizi noktaya bir çizgi uydurma yöntemini yayınladı. Bir kuyruklu yıldızın yerini tahmin etmeye çalışıyordu. (Göksel navigasyon, o zamanlar küresel ticarette en değerli bilimdi, tıpkı bugün olduğu gibi - yeni elektrik, eğer istersen, elektrik motorundan yirmi yıl önce.) Dört yıl sonra, 24 yaşındaki Alman harikası Carl Friedrich Gauss, 1795'ten beri aynı yöntemi kullandığında ısrar etti, ancak bunun hakkında yazamayacak kadar önemsiz olduğunu düşündü. Gauss'un iddiası, Legendre'yi, "çok ünlü bir geometri uzmanının bu yöntemi benimsemekten çekinmediğini" gözlemleyen isimsiz bir zeyilname yayınlamaya sevk etti.

Eğimler ve sapmalar: Doğrusal regresyon, bir sonuç ile onu etkileyen bir değişken arasındaki ilişkinin düz bir çizgi izlediği her durumda faydalıdır. Örneğin, bir arabanın yakıt tüketimi, ağırlığı ile doğrusal bir ilişki içindedir. 

  • Yakıt tüketimi y ve araba ağırlığı x arasındaki ilişki , hattın eğimine w (yakıt tüketiminin ağırlıkla ne kadar dik arttığına) ve sapma terimi b'ye (sıfır ağırlıkta yakıt tüketimi): y=w*x+b'ye bağlıdır . 
  • Eğitim sırasında, bir arabanın ağırlığı verildiğinde, algoritma beklenen yakıt tüketimini tahmin eder. Beklenen ve gerçek yakıt tüketimini karşılaştırır. Ardından, tipik olarak w ve b değerlerini ele alarak sıradan en küçük kareler tekniği yoluyla kare farkını en aza indirir.
  • Aracın sürtünmesini hesaba katmak daha kesin tahminler üretmeyi mümkün kılıyor. Ek değişken, çizgiyi bir düzleme genişletir. Bu şekilde, doğrusal regresyon herhangi bir sayıda değişkeni/boyutu barındırabilir.

Her yerde bulunan iki adım: İki başka gelişme, algoritmanın geniş potansiyelini ortaya çıkardı. 1922'de İngiliz istatistikçiler Ronald Fisher ve Karl Pearson, lineer regresyonun korelasyon ve dağılımın genel istatistiksel çerçevesine nasıl uyduğunu göstererek, onu tüm bilimlerde faydalı hale getirdi. Ve yaklaşık bir yüzyıl sonra, bilgisayarların ortaya çıkışı, ondan çok daha fazla yararlanmak için veri ve işlem gücünü sağladı.

Belirsizlikle başa çıkma: Elbette, veriler hiçbir zaman tam olarak ölçülemez ve bazı değişkenler diğerlerinden daha önemlidir. Hayatın bu gerçekleri daha karmaşık varyantları teşvik etti. Örneğin, düzenlileştirmeli doğrusal regresyon ( sırt regresyonu olarak da adlandırılır ), doğrusal bir regresyon modelini herhangi bir değişkene çok fazla bağımlı olmamaya veya daha doğrusu en önemli değişkenlere eşit olarak güvenmeye teşvik eder. İyi bir varsayılan seçimdir. Basitlik için gidiyorsanız, farklı bir düzenlileştirme biçimi (L2 yerine L1) lasso (least absolute shrinkage and selection operator) ile sonuçlanır; mümkün olduğu kadar çok katsayıyı sıfır olmaya teşvik eder. Yani tahmin gücü yüksek değişkenleri seçmeyi öğrenir ve gerisini yok sayar. Elastik ağ (Elastic Nets), her iki düzenleme türünü de birleştirir. Veriler seyrek olduğunda veya özellikler ilişkili göründüğünde kullanışlıdır.

Her nöronda: Yine de basit versiyon son derece faydalıdır. Bir sinir ağındaki en yaygın nöron türü, lineer bir regresyon modeli ve ardından lineer olmayan bir aktivasyon fonksiyonudur ve lineer regresyonu derin öğrenmenin temel bir yapı taşı haline getirir.

 

Lojistik Regresyon: Eğriyi Takip Edin

LogisticRegression_tummbler_1200px

Lojistik regresyonun tek bir şeyi sınıflandırmak için kullanıldığı bir an vardı: Bir şişe zehir içerseniz, muhtemelen “yaşayan” veya “öldü” olarak etiketlenir misiniz? Zaman değişti. Bugün acil servisleri aramak gibi alternatiflerimiz de var. Buda soruya daha iyi bir yanıt sağlıyor ve lojistik regresyon, derin öğrenmenin tam kalbinde yer alıyor.

Zehir kontrolü: Lojistik işlevi, Belçikalı istatistikçi PF Verhulst'ün nüfus dinamiklerini tanımlamak için icat ettiği 1830'lara kadar uzanır: Zamanla, üstel büyümenin ilk patlaması, mevcut kaynakları tüketirken düzleşir ve karakteristik lojistik eğri ile sonuçlanır. Amerikalı istatistikçi EB Wilson ve öğrencisi Jane Worcester'ın belirli bir tehlikeli maddenin ne kadarının ölümcül olacağını bulmak için lojistik regresyon geliştirmesinden önce bir yüzyıldan fazla zaman geçti. 

Fonksiyonu uydurma: Lojistik regresyon, belirli bir sonucun (örneğin, zamansız bir ölüm) meydana gelme olasılığını (örneğin, striknini (etkili bir zehir) yutmak) bir olay verildiğinde tahmin etmek için bir veri kümesine lojistik fonksiyonu uyarlar.

  • Eğitim, fonksiyonun çıktısı ile veriler arasındaki hatayı en aza indirmek için eğrinin merkez konumunu yatay olarak ve ortasını dikey olarak ayarlar. 
  • Merkezi sağa veya sola ayarlamak, ortalama bir insanı öldürmek için az çok zehir gerekeceği anlamına gelir. Dik bir eğim, kesinlik anlamına gelir: Yolun yarısından önce çoğu insan hayatta kalır; orta noktanın ötesinde iseniz "elveda". Hafif bir eğim daha bağışlayıcıdır: eğrinin ortasından daha aşağıda, yarısından fazlası hayatta kalır.  
  • Bir sonuç ile diğeri arasında 0,5'lik bir eşik belirleyin ve eğri bir sınıflandırıcı haline gelir. Sadece dozu modele girin ve bir parti mi yoksa cenaze mi planlamanız gerektiğini bileceksiniz.

Daha fazla sonuç: Verhulst'un çalışması, bir zehir kurbanının öbür dünyanın hangi tarafına düşebileceği gibi diğer olasılıkları göz ardı ederek ikili sonuçların olasılıklarını buldu. Ardışıkları algoritmayı genişletti.

  • 1960'ların sonlarında bağımsız olarak çalışan İngiliz istatistikçi David Cox ve Hollandalı istatistikçi Henri Theil  , ikiden fazla olası sonucu olan durumlar için lojistik regresyonu uyarladılar. 
  • Daha fazla çalışma , sonuçların sıralı değerler olduğu sıralı lojistik regresyon verdi.
  • Seyrek veya yüksek boyutlu verilerle başa çıkmak için lojistik regresyon, doğrusal regresyonla aynı düzenlileştirme tekniklerinden yararlanabilir. 

Çok yönlü eğri: Lojistik fonksiyon, geniş bir fenomen yelpazesini adil bir doğrulukla tanımlar, bu nedenle lojistik regresyon, birçok durumda kullanışlı temel tahminler sağlar. Tıpta, ölüm ve hastalık riskini tahmin eder. Siyaset biliminde, seçimlerin kazananlarını ve kaybedenlerini tahmin eder. Ekonomide, iş beklentilerini tahmin eder. Daha da önemlisi, çok çeşitli sinir ağlarında doğrusal olmayan bir sigmoid olduğu nöronların bir kısmını çalıştırır. 

 

 Gradyan İnişi: Her Şey Yokuş Aşağı

Heroes-MountainPaths-Gullies_1200px

Alacakaranlıktan sonra dağlarda yürüyüş yaptığınızı ve ayaklarınızın ötesini göremediğinizi hayal edin. Ve telefonunuzun pili bittiği için eve dönüş yolunu bulmak için bir GPS uygulaması kullanamazsınız. Gradyan iniş yoluyla en hızlı yolu bulabilirsiniz. Sadece uçurumdan düşmemeye dikkat edin. 

Güneşler ve kilimler: Fransız matematikçi Augustin-Louis Cauchy, 1847'de yıldızların yörüngelerini tahmin etmek için algoritmayı icat etti. Altmış yıl sonra, yurttaşı Jacques Hadamard bağımsız olarak, aşağı doğru yürümeyi kolaylaştırabilecek kilim gibi ince, esnek nesnelerin deformasyonlarını tanımlamak için geliştirdi. Bununla birlikte, makine öğreniminde en yaygın kullanımı, bir öğrenme algoritmasının kayıp fonksiyonunun manzarasındaki en düşük noktayı bulmaktır.

Aşağı doğru inmek: Eğitilmiş bir sinir ağı, bir girdi verildiğinde istenen bir çıktıyı hesaplayan bir fonksiyon sağlar. Ağı eğitmenin bir yolu, gerçek ve istenen çıktı arasındaki farkı yinelemeli olarak hesaplayarak ve ardından farkı daraltmak için ağın parametre değerlerini değiştirerek çıktısındaki kaybı veya hatayı en aza indirmektir. Gradyan iniş bunu, kaybı hesaplayan işlevi en aza indirerek gerçekleştirir.

  • Ağın parametre değerleri, manzara üzerindeki bir konuma eşittir ve kayıp, mevcut irtifadır. Aşağı indikçe, ağın istenen çıktıya yakın çıktıları hesaplama yeteneğini geliştirirsiniz. Görünürlük sınırlıdır, çünkü tipik bir denetimli öğrenme durumunda, algoritma yalnızca ağın parametre değerlerine (tepedeki konumunuz) ve eğime (hemen ayaklarınızın altındaki eğim) dayanır.
  • Temel yöntem, arazinin en dik indiği yönde hareket etmektir. İşin püf noktası, adımınızı kalibre etmektir. Çok küçük ve herhangi bir ilerleme kaydetmek uzun zaman alıyor. Çok büyük ve bilinmeyene atlıyorsunuz, muhtemelen aşağı değil yokuş yukarı gidiyorsunuz.
  • Mevcut konum göz önüne alındığında, algoritma kayıp fonksiyonunun gradyanını hesaplayarak en dik inişin yönünü tahmin eder. Gradyan, yokuş yukarıyı gösterir, bu nedenle algoritma, gradyandın bir kısmını çıkararak ters yönde ilerler. Öğrenme oranı olarak adlandırılan α kesri , gradyanı tekrar ölçmeden önce adımın boyutunu belirler.
  • Bunu tekrar tekrar uygulayın ve umarım bir vadiye ulaşırsınız.  

Vadide mahsur kalmak: Algoritma sizi dışbükey bir dağın dibine itmemiş olabileceğinden, telefonunuzun şarjının bitmesi çok kötü. Bunun yerine, birden fazla vadi (yerel minimum), tepe (yerel maksimum), eyer (semer noktaları) ve platolardan oluşan dışbükey olmayan bir manzarada sıkışıp kalabilirsiniz. Aslında, görüntü tanıma, metin oluşturma ve konuşma tanıma gibi görevler dışbükey değildir ve bu tür durumları ele almak için gradyan inişinde birçok varyasyon ortaya çıkmıştır. Örneğin, algoritma, küçük yükselişler ve düşüşler üzerinde yakınlaşmasına yardımcı olan bir momentuma sahip olabilir, bu da ona dibe ulaşmak için daha iyi bir şans verir. Neyse ki, yerel ve küresel minimumlar kabaca eşdeğer olma eğilimindedir.

Optimal optimize edici: Gradyan iniş, herhangi bir fonksiyonun minimumunu bulmak için net bir seçimdir. Kesin bir çözümün doğrudan hesaplanabildiği durumlarda - örneğin, çok sayıda değişken içeren bir doğrusal regresyon görevi - yaklaşık bir tane olabilir, genellikle daha hızlı ve daha ucuza (daha az maliyete) mal olur. Ancak karmaşık, doğrusal olmayan görevlerde gerçekten kendine gelir. Eğimli bir iniş ve maceracı bir ruhla donanmış olarak, akşam yemeği için zamanında dağlardan çıkabilirsiniz.

 Sinir Ağları: Fonksiyonu Bulun

Bunu aradan çıkaralım: Beyin, bir grafik işleme birimleri kümesi değildir ve öyle olsaydı, tipik yapay sinir ağından çok daha karmaşık yazılımlar çalıştırırdı. Yine de sinir ağları beynin mimarisinden ilham aldı: her biri komşularının durumlarına bağlı olarak kendi çıktısını hesaplayan birbirine bağlı nöron katmanları. Ortaya çıkan aktivite dizisi bir fikir oluşturur - veya bir kedinin resmini tanır.

Biyolojiden yapaya: Beynin nöronlar arasındaki etkileşimler yoluyla öğrendiği anlayışı 1873'e kadar uzanıyor, ancak 1943'e kadar Amerikalı sinirbilimciler Warren McCulloch ve Walter Pitts biyolojik sinir ağlarını basit matematiksel kurallar kullanarak modellemedi. 1958'de Amerikalı psikolog Frank Rosenblatt , Birleşik Devletler Donanması için bir donanım versiyonu oluşturmak amacıyla delikli kartlarda uygulanan tek katmanlı bir görüş ağı olan perceptron'u geliştirdi.

Daha büyük daha iyidir: Rosenblatt'ın icadı yalnızca bir çizgiyle ayrılabilen sınıfları tanıdı. Ukraynalı matematikçiler Alexey Ivakhnenko ve Valentin Lapa , nöron ağlarını herhangi bir sayıda katmanda istifleyerek bu sınırlamanın üstesinden geldi . 1985 ve 1986'da bağımsız çalışan Fransız bilgisayar bilimcisi Yann LeCun, David Parker ve Amerikalı psikolog David Rumelhart ve meslektaşları , Fin matematikçi Seppo Linnainmaa ve Amerikalı sosyal bilimci Paul Werbos'un daha önceki çalışmalarını takiben, sinir ağlarını verimli bir şekilde eğitmek için geri yayılımı kullanmayı tanımladılar. 2000'lerde Kumar Chellapilla, Dave Steinkraus ve Rajat Raina (Andrew Ng ile birlikte) dahil olmak üzere araştırmacılar çalışmalarını hızlandırdılar (bilgisayar grafiklerini veya grafik işlem birimlerini hızlandırmak için tasarlanmış yongaları kullanan sinir ağları). Bu gelişme, her zamankinden daha büyük sinir ağlarının internet tarafından üretilen muazzam miktarda veriden öğrenmesini sağladı.

Her görev için uygundur: Bir sinir ağının arkasındaki fikir basittir: Herhangi bir görev için onu gerçekleştirebilecek bir işlev vardır. Bir sinir ağı, her biri tek bir nöron tarafından yürütülen birçok basit işlevi birleştirerek eğitilebilir bir işlev oluşturur. Bir nöronun işlevi, ayarlanabilir parametrelerle belirlenir (ağırlıklar da denir). Rastgele parametre değerleri ve girdi örnekleri ve bunların istenen çıktıları verildiğinde, eğitilebilir işlev eldeki görevi gerçekleştirene kadar bu değerleri yinelemeli olarak değiştirmek mümkündür.

  • Bir nöron çeşitli girdileri kabul eder (örneğin, bir pikseli veya kelimeyi temsil eden sayılar veya önceki katmanın çıktıları), bunları parametre değerleriyle çarpar, ürünleri ekler ve toplamı doğrusal olmayan bir fonksiyon veya seçilen aktivasyon fonksiyonu aracılığıyla besler.  Bunu lineer regresyon artı bir aktivasyon fonksiyonu olarak düşünün. 
  • Eğitim parametre değerlerini değiştirir. Her örnek girdi için ağ bir çıktı hesaplar ve bunu beklenen çıktıyla karşılaştırır. Geri yayılım, gerçek ve beklenen çıktılar arasındaki farkı azaltmak için değerleri değiştirmek için gradyan inişini kullanır. Yeterli (iyi) örneklerle bu işlemi yeterince kez tekrarlayarak ağ görevini yaparak öğrenmeyi tamamlar.

Sağduyuya doğru: 1958'de Rosenblatt'ın Perceptron'u hakkında haber yapan The New York Times , onu “Birleşik Devletler Donanmasının yürüyebileceğini, konuşabileceğini, görebileceğini, yazabileceğini, kendini yeniden üretebileceğini ve varlığının bilincinde olmasını beklediği bir elektronik bilgisayarın embriyosu” olarak adlandırdı. ” Bu faturayı karşılayamasa da, Go oynamada insan seviyesindeki performansı aşmış ve röntgen görüntülerini teşhis etmede ona yaklaşmış modeller doğurdu. Yine de sinir ağları sağduyu ve mantıksal akıl yürütme ile hala zor anlar yaşıyor. GPT-3'e "Sayarken bir milyondan önce hangi sayı gelir?" diye sorun. ve "Dokuz yüz bin doksan dokuz bir milyondan önce gelir" diye cevap verebilir. 

 

Karar Ağaçları: Kökten Yaprağa

Karar Ağacı_1200px

Aristoteles nasıl bir canavardı? Üçüncü yüzyılda Suriye'de yaşayan filozofun takipçisi Porphyry, soruyu cevaplamak için mantıklı bir yol buldu. Aristoteles'in önerdiği “varlık kategorileri”ni genelden özele doğru düzenledi ve sırayla her kategoriye Aristoteles'in kendisini atadı: Aristoteles'in tözü kavramsal ya da tinsel olmaktan ziyade mekânı işgal etti; bedeni cansız değil, canlıydı; zihni rasyoneldi, irrasyonel değil. Böylece sınıflandırması insandı. Ortaçağ mantık öğretmenleri, diziyi dikey bir akış şeması olarak çizdi: Erken bir karar ağacı.

Dijital fark: Michigan Üniversitesi'nden sosyolog John Sonquist ve ekonomist James Morgan'ın ankete katılanları gruplara ayırarak ilk kez uygulamaya koyduğu 1963'e hızlı ileri Bilgisayardaki karar ağaçları. Bu tür çalışmalar, artık scikit-learn dahil olmak üzere çeşitli makine öğrenimi kitaplıklarında bulunan algoritma eğitimini otomatikleştiren yazılımın ortaya çıkmasıyla olağan hale geldi. Kodun geliştirilmesi Stanford ve UC Berkeley'deki bir dörtlü istatistikçinin 10 yılını aldı. Bugün, bir karar ağacını sıfırdan kodlamak Machine Learning 101'de bir ev ödevidir.

Gökyüzündeki kökler: Bir karar ağacı sınıflandırma veya regresyon yapabilir. Girdi örneklerini iki (veya daha fazla) gruba ayıran bir kararlar hiyerarşisinde kökten tepeye doğru aşağı doğru büyür. Maymunları maymunlardan (insanları bir kenara bırakarak) ilk kez 1776'da ayıran ve daha önce birlikte kategorize eden Alman doktor ve antropolog Johann Blumenbach'ın görevini düşünün. Sınıflandırma, kuyruğun varlığı veya yokluğu, dar veya geniş göğüs, dik veya çömelmiş duruş ve daha az veya daha fazla zeka gibi çeşitli kriterlere bağlıdır. Bu tür hayvanları etiketlemek için eğitilmiş bir karar ağacı, her bir kriteri tek tek ele alacak ve sonuçta iki grubu ayıracaktır.

  • Ağaç, şempanzeler, goriller ve orangutanların yanı sıra kapuçinler, babunlar ve marmosetlerden oluşan bir veri kümesindeki tüm örnekleri içerdiği görülebilen bir kök düğümle başlar. Kök, belirli bir özelliği sergileyen veya göstermeyen örnekler arasında bir seçim sunar ve bu özelliği olan ve olmayan örnekleri içeren iki alt düğüme yol açar. Her çocuk, iki çocuğa daha yol açan başka bir seçenek sunar ve bu böyle devam eder. İşlem, her biri çoğunlukla veya tamamen bir sınıfın örneklerini içeren herhangi bir sayıda yaprak düğümü ile sona erer.
  • Ağacın büyümesi için kök kararını bulması gerekir. Seçim yapmak için tüm özellikleri ve bunların değerlerini (arka uzantı, göğüs kafesi vb.) göz önünde bulundurur ve bölünmenin saflığını en üst düzeye çıkaran birini seçer. (Optimal saflık, bir sınıfın belirli bir alt düğüme gitmesi ve hiçbirinin diğer düğüme gitmemesi örneklerinin yüzde 100'ü olarak tanımlanır.) Bölmeler, yalnızca bir karardan sonra nadiren yüzde 100 saftır ve oraya asla ulaşamayabilir, bu nedenle süreç devam eder, üretir. alt düğümlerin seviyesinden sonra, saflık daha fazla özellik göz önüne alındığında fazla yükselmeyene kadar. Bu noktada, ağaç tamamen eğitilmiştir.
  • Çıkarımda, yeni bir örnek ağaçtan geçer ve her düzeyde yukarıdan aşağıya farklı bir kararı değerlendirir. Örnek, indiği yaprak düğümün içerdiği verilerin etiketini alır.

En iyi 10 isabet: 1986'da Avustralyalı bilgisayar bilimcisi John Ross Quinlan, ID3 ile ikili olmayan sonuçları desteklemek için karar ağaçlarını genişletti . 2008'de, C4.5 adlı bir başka iyileştirme , IEEE Uluslararası Veri Madenciliği Konferansı tarafından düzenlenen Veri Madenciliğinde En İyi 10 Algoritma listesinin üst sınırını oluşturdu. 

Ormanın içine: Karar ağaçlarının bazı dezavantajları vardır. Yaprak düğümlerinin tek bir örnek kadar azını içerdiği kadar çok seviye büyüterek verileri kolayca aşabilirler. Daha da kötüsü, kelebek etkisine eğilimliler: Bir örneği değiştirin ve büyüyen ağaç çarpıcı biçimde farklı görünebilir. Bu özelliği bir avantaja çeviren Amerikalı istatistikçi Leo Breiman ve Yeni Zelandalı istatistikçi Adele Cutler, 2001 yılında rastgele ormanı geliştirdiler., her biri nihai bir karara oy veren farklı, örtüşen örnekler seçimini işleyen bir karar ağaçları topluluğu. Rastgele orman ve kuzeni XGBoost, fazla takmaya daha az eğilimlidir ve bu da onları en popüler makine öğrenimi algoritmaları arasında yer almasına yardımcı olur. Aristoteles, Porphyry, Blumenbach, Darwin, Jane Goodall, Dian Fossey ve diğer 1000 zoologun bir arada olması gibi, hepsi de sınıflandırmalarınızın olabileceklerinin en iyisi olduğundan emin oluyorlar.

 

K-Means Kümeleme: Grup Düşüncesi

K-Means_3Clusters_1200px_Crop

Bir partide başkalarına yakın duruyorsanız, muhtemelen ortak bir noktanız vardır. Veri noktalarını gruplara ayırmak için k-Means kümelemeyi kullanmanın arkasındaki fikir budur. Gruplar ister insan gücüyle ister başka bir güçle oluşturulmuş olsun, bu algoritma onları bulacaktır. 

Patlamalardan çevir sesine: Hem Bell Labs'in ikonik inovasyon fabrikasının hem de atom bombasını icat eden Manhattan Projesi'nin mezunu olan Amerikalı fizikçi Stuart Lloyd, dijital sinyaller içinde bilgi dağıtmak için ilk olarak 1957'de k-Means kümelemeyi önerdi. 1982'ye kadar yayınlamadı. Bu arada, Amerikalı istatistikçi Edward Forgy, 1965'te benzer bir yöntemi tanımladı ve alternatif adı Lloyd-Forgy algoritmasına yol açtı. 

Merkezi bulma: Partiyi benzer düşünen çalışma gruplarına ayırmayı düşünün. Katılımcıların odadaki konumları ve oluşturulacak grupların sayısı göz önüne alındığında, k-ortalama kümelemesi katılımcıları kabaca eşit büyüklükte belirli sayıda gruba bölebilir.

  • Eğitim sırasında, algoritma başlangıçta rastgele k kişi seçerek k küme merkez noktası veya merkez noktası belirler. (K manuel olarak seçilmelidir ve en uygun değeri bulmak her zaman önemsiz değildir.) Daha sonra her bir kişiyi en yakın ağırlık merkeziyle ilişkilendirerek k kümeyi büyütür.
  • Her küme için, gruba atanan tüm kişilerin ortalama konumunu hesaplar ve ortalama konumu yeni ağırlık merkezi olarak belirler. Yeni merkezler bir kişi tarafından işgal edilmemiş olabilir, ama ne olmuş yani? İnsanlar çikolata fondü etrafında toplanma eğilimindedir.
  • Algoritma, yeni merkez noktaları hesapladıktan sonra, bireyleri kendilerine en yakın olan merkeze yeniden atar. Sonra yeni merkezler hesaplar, kümeleri ayarlar, vb., merkezler (ve etrafındaki gruplar) artık kaymayana kadar.
  • Oradan, yeni gelenleri doğru kümeye atamak kolaydır. Odadaki yerlerini almalarına ve en yakın ağırlık merkezini aramalarına izin verin.

Farklı mesafeler: Kümelenmiş nesneler arasındaki mesafenin uzamsal olması gerekmez. İki vektör arasındaki herhangi bir ölçü yapacaktır. Örneğin, parti müdavimlerini fiziksel yakınlığa göre gruplamak yerine, k-Means kümelemesi onları kıyafetlerine, mesleklerine veya diğer özelliklerine göre bölebilir. Çevrimiçi mağazalar, müşterileri tercihlerine veya davranışlarına göre bölmek için ve astronomlar da aynı türdeki yıldızları gruplamak için kullanır.

Veri noktalarının gücü: Fikir, birkaç dikkate değer varyasyon ortaya çıkardı:

  • K-medoidler , belirli bir kümedeki ortalama konumlardan ziyade gerçek veri noktalarını merkezler olarak kullanır. Medoidler, kümelerindeki diğer tüm noktalara olan mesafeyi en aza indiren noktalardır. Bu varyasyon daha yorumlanabilir çünkü merkezler her zaman veri noktalarıdır.
  • Fuzzy C-Means Clustering , veri noktalarının değişen derecelerde birden çok kümeye katılmasını sağlar. Sabit küme atamalarını, merkezlerden uzaklığa bağlı olarak üyelik dereceleriyle değiştirir.

N boyutta şenlik : Bununla birlikte, orijinal biçimindeki algoritma yaygın olarak yararlı olmaya devam ediyor - özellikle denetimsiz bir algoritma olarak, potansiyel olarak pahalı etiketli verilerin toplanmasını gerektirmediği için. Ayrıca kullanımı her zamankinden daha hızlı. Örneğin, scikit-learn'i içeren makine öğrenimi kitaplıkları,  yüksek boyutlu verileri son derece hızlı bir şekilde bölümleyen 2002 kd ağaçlarının eklenmesinden yararlanır. 

 

 
 

 

 

Stokastik gradyan inişi, bir dizi hiperparametreye sahip bir öğrenme algoritmasıdır.

Yeni başlayanların kafasını karıştıran iki hiperparametre, yığın boyutu ve dönem sayısıdır. Her ikisi de tamsayı değerlerdir ve aynı şeyi yapıyor gibi görünseler de farklı işlevlere sahiptir.

Bu yazımızda stokastik gradyan inişinde yığınlar ve dönemler arasındaki farkı keşfedeceksiniz.

Bu yazıyı okuduktan sonra şunu öğrenmiş olacaksınız:

  • Stokastik gradyan inişi, bir modeli güncellemek için bir eğitim veri kümesi kullanan yinelemeli bir öğrenme algoritmasıdır.
  • Yığın boyutu, modelin dahili parametreleri güncellenmeden önce üzerinde çalışılacak eğitim örneklerinin sayısını kontrol eden bir gradyan iniş hiperparametresidir.
  • Dönem sayısı, eğitim veri kümesinden tam geçişlerin sayısını kontrol eden bir gradyan iniş hiperparametresidir.

Nelerden bahseceğiz?

  1. Stokastik Gradyan İniş
  2. Örnek Nedir?
  3. Batch (Partide kullanılsada burada yığın kelimesini kullanacağız) Nedir?
  4. Epoch (Dönem veya yineleme) Nedir?
  5. Batch ve Epoch Arasındaki Fark Nedir?

Stokastik Gradyan İniş

Stokastik Gradient Descent veya kısaca SGD, makine öğrenimi algoritmalarını, özellikle de derin öğrenmede kullanılan yapay sinir ağlarını eğitmek için kullanılan bir optimizasyon algoritmasıdır.

Algoritmanın işi, logaritmik kayıp veya ortalama karesel hata gibi bazı performans ölçütlerine karşı iyi performans gösteren bir dizi dahili model parametresi bulmaktır.

Optimizasyon bir tür arama sürecidir ve bu aramayı öğrenme olarak düşünebilirsiniz. Optimizasyon algoritmasına " gradyan inişi " denir , burada " gradyan " bir hata gradyanı veya hata eğiminin hesaplanmasını ifade eder ve "iniş", bu eğim boyunca minimum bir hata düzeyine doğru aşağı inmeyi ifade eder.

Algoritma yinelemelidir. Bu, arama sürecinin birden fazla ayrı adımda gerçekleştiği anlamına gelir, her adım model parametrelerini biraz geliştirir.

Her adım, bazı örnekler üzerinde tahminler yapmak için mevcut dahili parametreler seti ile modeli kullanmayı, tahminleri gerçek beklenen sonuçlarla karşılaştırmayı, hatayı hesaplamayı ve dahili model parametrelerini güncellemek için hatayı kullanmayı içerir.

Bu güncelleme prosedürü, farklı algoritmalar için farklıdır, ancak yapay sinir ağları durumunda, geri yayılım güncelleme algoritması kullanılır.

Yığınlara ve dönemlere dalmadan önce, örnekle ne demek istediğimize bir göz atalım.

Örnek (Numune) Nedir?

Örnek, tek bir veri satırıdır.

Algoritmaya beslenen girdileri ve tahminle karşılaştırmak ve bir hatayı hesaplamak için kullanılan bir çıktıyı içerir.

Bir eğitim veri seti, örneğin birçok örnek gibi birçok veri satırından oluşur. Bir örnek aynı zamanda bir örnek, bir gözlem, bir girdi vektörü veya bir özellik vektörü olarak da adlandırılabilir.

Artık örneğin ne olduğunu bildiğimize göre, bir yığını tanımlayabiliriz.

Yığın Nedir?

Yığın boyutu, dahili model parametrelerini güncellemeden önce üzerinde çalışılacak örnek (numune) sayısını tanımlayan bir hiperparametredir.

Bir yığını, bir veya daha fazla örnek üzerinde yinelenen ve tahminler yapan bir for-loop olarak düşünün. Yığının sonunda, tahminler beklenen çıktı değişkenleriyle karşılaştırılır ve bir hata hesaplanır. Bu hatadan, modeli geliştirmek için güncelleme algoritması kullanılır, örneğin hata gradyanı boyunca aşağı doğru hareket edilmesi gibi.

Bir eğitim veri seti, bir veya daha fazla yığına bölünebilir.

Tüm eğitim örnekleri bir yığın oluşturmak için kullanıldığında, öğrenme algoritmasına yığın gradyan inişi denir. Yığın bir numune boyutunda olduğunda, öğrenme algoritmasına stokastik gradyan inişi denir. Yığın boyutu birden fazla örnek olduğunda ve eğitim veri kümesinin boyutundan küçük olduğunda, öğrenme algoritmasına mini yığın gradyan inişi denir.

  • Yığın Gradyan İniş : Yığın Boyutu = Eğitim Setinin Boyutu
  • Stokastik Gradyan İnişi: Yığın Boyutu = 1
  • Mini Yığın Graduam İniş: 1 < Yığın Boyutu < Eğitim Seti Boyutu

Mini yığın gradyan inişi durumunda, popüler parti boyutları 32, 64 ve 128 numuneyi içerir. Modellerde kullanılan bu değerleri literatürde ve öğreticilerde görebilirsiniz.

Veri kümesi yığın iş boyutuna göre eşit olarak bölünmezse ne olur?

Bu, bir modeli eğitirken sıklıkla olabilir ve olur. Bu basitçe, son yığın serisinin diğer serilerden daha az numuneye sahip olduğu anlamına gelir.

Alternatif olarak, veri kümesinden bazı örnekleri kaldırabilir veya yığın boyutunu, veri kümesindeki numune sayısı parti boyutuna eşit olarak bölünecek şekilde değiştirebilirsiniz.

 

Epoch (Dönem) Nedir?

Dönem sayısı, öğrenme algoritmasının tüm eğitim veri kümesi boyunca çalışacağı sayıyı tanımlayan bir hiperparametredir.

Bir dönem, eğitim veri kümesindeki her örneğin dahili model parametrelerini güncelleme fırsatına sahip olduğu anlamına gelir. Bir dönem, bir veya daha fazla gruptan oluşur. Örneğin, yukarıdaki gibi, bir kümeye sahip bir döneme, yığın gradyan iniş öğrenme algoritması denir.

Her döngünün eğitim veri kümesi üzerinde ilerlediği dönem sayısı üzerinden bir for-döngüsü düşünebilirsiniz. Bu for-döngüsü içinde, bir partinin belirtilen "yığın boyutu" numune sayısına sahip olduğu, her bir numune serisi üzerinde yinelenen başka bir iç içe for-döngüsü bulunur.

Dönemin sayısı geleneksel olarak büyüktür, genellikle yüzlerce veya binlercedir ve öğrenme algoritmasının modeldeki hata yeterince minimize edilene kadar çalışmasına izin verir. Literatürde ve 10, 100, 500, 1000 ve daha büyük olarak ayarlanmış öğreticilerde dönem sayısının örneklerini görebilirsiniz.

Zaman olarak x ekseni boyunca dönemleri ve y ekseninde modelin hatasını veya becerisini gösteren çizgi grafikleri oluşturmak yaygındır. Bu grafiklere bazen öğrenme eğrileri denir. Bu grafikler, modelin fazla mı, eksik mi öğrenildiğini veya eğitim veri kümesine uygun olup olmadığını teşhis etmeye yardımcı olabilir.

Batch ve Epoch Arasındaki Fark Nedir?

Yığın boyutu, model güncellenmeden önce işlenen numune sayısıdır.

Dönem sayısı, eğitim veri kümesinden geçen tam geçişlerin sayısıdır.

Bir yığının boyutu, eğitim veri setindeki numune sayısından büyük veya ona eşit ve numune sayısından az veya ona eşit olmalıdır.

Dönem sayısı, bir ile sonsuz arasında bir tamsayı değerine ayarlanabilir. Algoritmayı istediğiniz kadar çalıştırabilir ve hatta zaman içinde model hatasında bir değişiklik (veya değişiklik eksikliği) gibi sabit sayıda dönemin yanı sıra başka kriterler kullanarak durdurabilirsiniz.

Her ikisi de tamsayı değerlerdir ve her ikisi de öğrenme algoritması için hiperparametrelerdir, örneğin öğrenme süreci için parametreler, öğrenme süreci tarafından bulunan dahili model parametreleri değil.

Bir öğrenme algoritması için yığın boyutunu ve dönem sayısını belirtmelisiniz.

Bu parametrelerin nasıl yapılandırılacağına dair sihirli kurallar yoktur. Farklı değerler denemeli ve probleminiz için en iyi olanı görmelisiniz.

Burada sizlere detaylı YZ Kariyeri konusunda bilgi verecek güzel bir yazının kısaltılmış halini aktarıyorum. Yazının birinci bölümünün orijinalini https://read.deeplearning.ai/the-batch/how-to-build-a-career-in-ai-part-1-three-steps-to-career-growth/ sayfasında bulabilirsiniz.

Yazının yazarı deeplearning.ai ve coursera.org 'un kurucusu Andrew NG'nin olunca daha dikkat çekici olmakta! İyi okumalar:

 

Yapay Zekada Kariyer Nasıl İnşa Edilir?

 Bölüm 1: Kariyer Büyümesinin Üç Adımı

 

Kariyer gelişiminin üç temel adımı, öğrenme (teknik ve diğer beceriler kazanmak), projeler üzerinde çalışmak (becerileri derinleştirmek, portföy oluşturmak ve etki yaratmak) ve iş aramaktır. Bu adımlar birbirinin üzerine yığılır:

  • Başlangıçta, temel teknik beceriler kazanmaya odaklanırsınız.
  • Temel beceriler kazandıktan sonra proje çalışmasına yönelirsiniz. Bu süre zarfında, muhtemelen öğrenmeye devam edeceksiniz.
  • Daha sonra, ara sıra bir iş araması yapabilirsiniz. Bu süreç boyunca, muhtemelen öğrenmeye ve anlamlı projeler üzerinde çalışmaya devam edeceksiniz.

Bu aşamalar çok çeşitli mesleklerde geçerlidir, ancak yapay zeka benzersiz unsurlar içerir. Örneğin:

  • Yapay Zeka (YZ) yeni ortaya çıkıyor ve birçok teknoloji hala gelişiyor. Makine öğrenimi ve derin öğrenmenin temelleri olgunlaşırken - ve kurslar bu temellerin ötesinde ustalaşmanın etkili bir yolu olsa da, yapay zekada değişen teknolojiye ayak uydurmak, daha olgun alanlardan daha önemlidir.
  • Proje çalışması genellikle yapay zeka konusunda uzmanlığı olmayan paydaşlarla çalışmak anlamına gelir. Bu, uygun bir proje bulmayı, projenin zaman çizelgesini ve yatırım getirisini tahmin etmeyi ve beklentileri belirlemeyi zorlaştırabilir. Ek olarak, yapay zeka projelerinin yüksek düzeyde yinelemeli doğası, proje yönetiminde özel zorluklara yol açar: Hedef doğruluğuna ulaşmanın ne kadar süreceğini önceden bilmiyorsanız, bir sistem oluşturmak için nasıl bir plan yapabilirsiniz? Sistem hedefe ulaştıktan sonra bile, dağıtım sonrası sapmayı gidermek için daha fazla yineleme gerekebilir.
  • YZ'de iş aramak, diğer sektörlerde iş aramaya benzer olsa da, bazı farklılıklar vardır. Birçok şirket hala hangi AI becerilerine ihtiyaç duyduklarını ve bu becerilere sahip insanları nasıl işe alacaklarını bulmaya çalışıyor. Üzerinde çalıştığınız şeyler, görüşmecinizin gördüğü her şeyden önemli ölçüde farklı olabilir ve potansiyel işverenleri işinizin bazı unsurları hakkında eğitmeniz daha olasıdır.

Bu adımlar boyunca, destekleyici bir topluluk büyük bir yardımdır. Size yardımcı olabilecek ve sizin de yardım etmeye çalıştığınız bir grup arkadaşınız ve müttefikinizin olması, yolu kolaylaştırır. Bu, ister ilk adımlarınızı atıyor olun, ister yıllardır bir yolculukta olun bu doğrudur.

 

Bölüm 2: Teknik Becerileri Öğrenmek

 

Yapay zeka hakkında herhangi bir kişinin hayatı boyunca okuyabileceğinden daha fazla makale yayınlandı. Bu nedenle, öğrenme çabalarınızda konu seçimine öncelik vermek çok önemlidir . Makine öğreniminde teknik bir kariyer için en önemli konuların şunlar olduğuna inanıyorum:

  • Temel makine öğrenimi becerileri. Örneğin, doğrusal regresyon, lojistik regresyon, sinir ağları, karar ağaçları, kümeleme ve anormallik tespiti gibi modelleri anlamak önemlidir. Belirli modellerin ötesinde, önyargı/varyans, maliyet işlevleri, düzenleme, optimizasyon algoritmaları ve hata analizi gibi makine öğreniminin nasıl ve neden çalıştığının arkasındaki temel kavramları anlamak daha da önemlidir .
  • Derin öğrenme. Bu, makine öğreniminin o kadar büyük bir kısmı haline geldi ki, biraz anlamadan bu alanda başarılı olmak zor! Sinir ağlarının temellerini, onları çalıştırmaya yönelik pratik becerileri (hiperparametre ayarlama gibi), evrişimli ağları, dizi modellerini ve transformatörleri bilmek değerlidir.
  • Makine öğrenimi ile ilgili matematik. Anahtar alanlar, lineer cebir (vektörler, matrisler ve bunların çeşitli manipülasyonları) ile olasılık ve istatistikleri (ayrık ve sürekli olasılık, standart olasılık dağılımları, bağımsızlık ve Bayes kuralı gibi temel kurallar ve hipotez testi dahil) içerir. Ek olarak, bir veri kümesini sistematik olarak keşfetmek için görselleştirmeleri ve diğer yöntemleri kullanmak olan keşifsel veri analizi (EDA) hafife alınan bir beceridir. EDA'yı özellikle , hataları analiz etmenin ve içgörü kazanmanın ilerlemeyi artırmaya gerçekten yardımcı olabileceği veri merkezli yapay zeka geliştirmede yararlı buldum! Son olarak, matematiğin temel bir sezgisel anlayışı da yardımcı olacaktır. önceki bir mektupta, makine öğrenimini iyi yapmak için gereken matematiğin nasıl değiştiğini anlattım. Örneğin, bazı görevler kalkülüs gerektirse de, geliştirilmiş otomatik farklılaşma yazılımı, herhangi bir hesap yapmadan yeni sinir ağı mimarileri icat etmeyi ve uygulamayı mümkün kılar. On yıl önce bu neredeyse imkansızdı.
  • Yazılım geliştirme. Yalnızca makine öğrenimi modelleme becerileri ile bir iş bulup büyük katkılar sağlayabilirsiniz, ancak karmaşık AI sistemlerini uygulamak için iyi yazılımlar da yazabilirseniz iş fırsatlarınız artacaktır. Bu beceriler arasında programlama temelleri, veri yapıları (özellikle veri çerçeveleri gibi makine öğrenimi ile ilgili olanlar), algoritmalar (veritabanları ve veri işlemeyle ilgili olanlar dahil), yazılım tasarımı, Python'a aşinalık ve TensorFlow gibi temel kitaplıklara aşinalık yer alır. veya PyTorch ve scikit-learn.

Bu öğrenilecek çok şey var! Bu listedeki her şeye hakim olduktan sonra bile, umarım öğrenmeye devam edersiniz ve teknik bilginizi derinleştirmeye devam edersiniz. Doğal dil işleme veya bilgisayarla görme gibi bir uygulama alanında veya olasılıksal grafik modeller veya ölçeklenebilir yazılım sistemleri oluşturma gibi bir teknoloji alanında daha derin becerilerden yararlanan birçok makine öğrenimi mühendisi tanıyorum.

Bu becerileri nasıl kazanırsınız? çok güzel içerikler varİnternette ve teoride düzinelerce web sayfasını okumak işe yarayabilir. Ancak amaç derin bir anlayış olduğunda, birbirinden kopuk web sayfalarını okumak verimsizdir çünkü bunlar birbirlerini tekrar etme, tutarsız terminoloji kullanma (sizi yavaşlatır), kalite açısından çeşitlilik gösterir ve boşluklar bırakır. Bu nedenle, tutarlı ve mantıklı bir biçimde organize edilen bir materyal gövdesinin yer aldığı iyi bir kurs, anlamlı bir bilgi birikimine hakim olmanın çoğu zaman en verimli yoludur. Kurslarda bulunan bilgileri özümsediğinizde, araştırma makalelerine ve diğer kaynaklara geçebilirsiniz.

Son olarak, hiç kimsenin bilmesi gereken her şeyi bir hafta sonu hatta bir ay boyunca sıkıştıramayacağını unutmayın. Makine öğreniminde harika olan tanıdığım herkes yaşam boyu öğreniyor. Aslında, alanımızın ne kadar hızlı değiştiği göz önüne alındığında, yetişmek istiyorsanız öğrenmeye devam etmekten başka seçeneğimiz yok. Yıllarca istikrarlı bir öğrenme hızını nasıl sürdürebilirsiniz? Alışkanlıkların değeri hakkında yazdım . Her hafta biraz öğrenme alışkanlığını geliştirirseniz, daha az çaba sarf ederek önemli ilerlemeler kaydedebilirsiniz.

 

Bölüm 3: Proje Seçme

 

Sadece sorumlu ve etik olan ve insanlara fayda sağlayan projeler üzerinde çalışmamız gerektiğini söylemeye gerek yok. Ancak bu sınırlar, aralarından seçim yapabileceğiniz geniş bir çeşitlilik bırakıyor. Daha önce yapay zeka projelerinin nasıl tanımlanacağı ve kapsamının belirleneceği hakkında yazmıştım . Bu ve gelecek haftaki mektubun farklı bir vurgusu var: kariyer gelişimine yönelik projeler seçmek ve yürütmek.

Verimli bir kariyer, zamanla kapsamı, karmaşıklığı ve etkisi artacağını umduğumuz birçok projeyi içerecektir. Bu nedenle, küçük başlamak iyidir. Öğrenmek için erken projeleri kullanın ve becerileriniz geliştikçe kademeli olarak daha büyük projelere geçin.

Başlarken, başkalarının size bir tepside harika fikirler veya kaynaklar vermesini beklemeyin. Birçok insan boş zamanlarında küçük projeler üzerinde çalışarak başlar. İlk başarılar - küçük olanlar bile - kemerinizin altında, artan becerileriniz daha iyi fikirler bulma yeteneğinizi artırır ve başkalarını daha büyük projelere adım atmanıza yardımcı olmaya ikna etmek daha kolay hale gelir.

Ya herhangi bir proje fikriniz yoksa? Bunları oluşturmanın birkaç yolu:

  • Mevcut projelere katılın. Bir fikri olan başka birini bulursanız, projelerine katılmasını isteyin.
  • Okumaya ve insanlarla konuşmaya devam edin. Okumak, ders almak veya alan uzmanlarıyla konuşmak için çok zaman harcadığımda yeni fikirler buluyorum. Senin de yapacağına eminim.
  • Bir uygulama alanına odaklanın. Pek çok araştırmacı, yeni nesil transformatörler icat ederek veya dil modellerini daha da büyüterek temel AI teknolojisini geliştirmeye çalışıyor. Bu nedenle, bu heyecan verici bir yön olsa da, zor. Ancak makine öğreniminin henüz uygulanmadığı uygulamaların çeşitliliği çok fazla! Sinir ağlarını otonom helikopter uçuşundan çevrimiçi reklamcılığa kadar her şeye uygulayabildiğim için şanslıyım, çünkü kısmen bu uygulamalar üzerinde nispeten az insan çalışırken atladım. Şirketiniz veya okulunuz belirli bir uygulamayı önemsiyorsa, makine öğrenimi olanaklarını keşfedin. Bu, henüz kimsenin yapmadığı, benzersiz işler yapabileceğiniz, potansiyel olarak yaratıcı bir uygulamaya ilk kez bakmanızı sağlayabilir.
  • Bir yan koşuşturma geliştirin. Tam zamanlı bir işiniz olsa bile, daha büyük bir şeye dönüşebilecek veya gelişmeyebilecek eğlenceli bir proje, yaratıcılığı harekete geçirebilir ve işbirlikçilerle bağları güçlendirebilir. Tam zamanlı bir profesörken, çevrimiçi eğitim üzerinde çalışmak (araştırma yapmak ve ders vermek olan) “işimin” bir parçası değildi. Eğitime olan tutkumdan sıklıkla üzerinde çalıştığım eğlenceli bir hobiydi. Evde video kaydederken edindiğim ilk deneyimler, daha sonra çevrimiçi eğitim üzerinde daha kapsamlı bir şekilde çalışmama yardımcı oldu. Silikon Vadisi, yan projeler olarak başlayan girişimlerin hikayeleriyle doludur. İşvereninizle bir çatışma yaratmadığı sürece, bu projeler önemli bir şeye atlama taşı olabilir.

Birkaç proje fikri verildiğinde hangisine atlamalısınız? İşte göz önünde bulundurulması gereken faktörlerin hızlı bir kontrol listesi:

  • Proje teknik olarak büyümenize yardımcı olacak mı? İdeal olarak, becerilerinizi geliştirecek kadar zorlayıcı olmalı, ancak başarı şansınız çok az olacak kadar zor olmamalıdır. Bu, sizi her zamankinden daha fazla teknik karmaşıklıkta ustalaşmaya doğru bir yola sokacaktır.
  • Birlikte çalışabileceğiniz iyi takım arkadaşlarınız var mı? Değilse, konuları tartışabileceğiniz kişiler var mı? Çevremizdeki insanlardan çok şey öğreniyoruz ve iyi işbirlikçilerin büyümeniz üzerinde büyük etkisi olacak.
  • Bir basamak olabilir mi? Proje başarılı olursa, teknik karmaşıklığı ve/veya ticari etkisi onu daha büyük projelere anlamlı bir adım atacak mı? (Proje daha önce üzerinde çalıştığınız projelerden daha büyükse, büyük bir şans olabilir.)

Son olarak, analiz felcinden kaçının. Tamamlanması bir hafta sürecek bir proje üzerinde çalışıp çalışmamaya karar vermek için bir ay harcamak mantıklı değil. Kariyeriniz boyunca birden fazla proje üzerinde çalışacaksınız, böylece neyin değerli olduğuna dair düşüncelerinizi geliştirmek için bolca fırsatınız olacak.