Servisler, sensörler, bulut platformları, nosql, big data derken en önemli derdimiz veriyi toplamak, saklamak ve bu veriden anlam çıkarmaya çalışmak oldu. Aslına bakarsanız en önemli derdimiz zaten uzun yıllardır bunları yapmaktı ama günümüzde çıta çok yükseldi.
- İçinde insanların olmadığı, makinelerin birbiriyle iletişim kurduğu, üretimde yaşanan hataları analiz edip çözdükleri karanlık fabrikalar
- Sürücüsüz araçlar
- Tüketim alışkanlıklarımızı analiz edip bizim yerimize alışveriş yapan ev aletleri
- Müzik, Sinema ve Dizi tercihlerimize göre tavsiyede bulunan uygulamalar
Tüm bunların ve daha fazlasının gerçekleşmesi veri analizi sayesinde olacak/olmakta.
Bu yüzden son yıllarda, makine öğrenmesi, derin öğrenme, veri bilimi gibi pek çok tamlama kulağımıza çalınıyor. İstatistik bilimi hiç olmadığı kadar önemli.
Son bir iki yıldır kariyerimdeki bir sonraki adımı düşünen ve bunun çok büyük ihtimalle veri bilimi olması gerektiğini bilen ben, geç kaldığım bu işe girişmek için Udemy’e girdim ve ilgili eğitimleri incelemeye başladım.
Datai Team
Datai Team, Veri Bilimi ve alt dallarıyla ilgili farkındalık yaratmak ve Türkçe kaynak eksikliğini kendince gidermek için, Kaggle’da sunmuş olduğu Data Science notlarını Türkçe eğitim videolarına çevirmekte. Videolara Udemy üzerinden tamamen ücretsiz ulaşabilirsiniz.
Datai Team’in Kaggle’da(Kaggle’dan aşağıda ayrıca bahsedeceğim) oldukça başarılı bir profili var. Data Science Tutorial for Beginners adlı Notebook’u bu global sitede en çok oy alan dördüncü Notebook durumunda.
Datai Team tarafından ücretiz 7 eğitim şeklinde planlanan müfredat;
- Python
- Data Science
- Visualization Tools
- Statistical Learning
- Deep Learning
- Machine Learning
- Artifical Intelligence şeklinde ilerleyecek.
Ben ikinci kursun ortasındayım. Şimdi bu kurslardan öğrendiklerim hakkında bilgi vereceğim.
Python
Python 90’ların başında geliştirilmeye başlanmış yüksek seviyeli bir programlama dildir. Nesneye yönelik, fonksiyonel ya da sadece scripting amaçlı olarak kullanılabilir.
Basitliği, esnekliği ve sürekli artan popülaritesi sayesinde devops, oyun programlama, web programlama gibi pek çok farklı alanda kullanılmaktadır.
Python; Veri Bilimi, İstatistik ve diğer bilim dalları tarafından en çok tercih edilen dildir.
6 saatlik Python kursunda Temel Python, Numpy, Pandas ve Matplotlib kütüphaneleri anlatıldı.
Datai Team’in kurslarında, veri biliminde kullanmaya yetecek kadar Python öğrenebilirsiniz.
Anaconda
Anaconda, data science’a yönelik bir Python dağıtımıdır. İçerisinde 1000 kadar data science paketi olmakla birlikte pip(Python paket yöneticisi) alternatifi Conda adlı bir paket yöneticisi vardır.
Anaconda Navigator
Anaconda dağıtımının dahil olduğu bu grafik ara birim; Jupyter Notebook, Spyder, R Studio, Visual Studio Code gibi araçlarla gelmekte ve Anaconda ile olan işlerinizi daha kolay yapmanızı hedeflemektedir.
Windows, Mac ya da Linux işletim sistemli bilgisayarlarınıza kuracağınız Anaconda Navigator, Veri Bilimi konusunda en yakın arkadaşınız olacak.
Numpy
Çok boyutlu diziler oluşturabileceğiniz ve bu dizilerin üzerinde yüksek seviyeli matematik fonksiyonlarını uygulayabileceğiniz bir Python kütüphanesi.
Pandas
Python için geliştirilmiş bir Veri Analiz kütüphanesi. Pandas ile verilerinizi DataFrame’lere çevirip üzerlerinde veri analiz işlemlerini gerçekleştirilebilirsiniz.
Matplotlib
Verileri görselleştirmede kullanılan bir Python kütüphanesi.
Kaggle
Veri bilimcileri için Github(Kernel), Hackerrank(Competitions) ve Stack Overflow’un(Discussions) karışımı olan bu sitedeki en önemli iki kavram Kernel ve Dataset.
Dataset’ler, adı üzerinde veri setleri. Çeşitli konu, format ve boyutlarda sunulan bu veri setlerini kullanabilir, private ya da public olarak kendi data setlerinizi ekleyebilirsiniz.
Kernel’lar ise bu sitenin asıl güzelliği.
Bir Kernel hem bir kod deposudur hem browser tabanlı bir derleyicidir hem de bir not defteridir. (bunun arkasındaki platform için: Jupyter Notebook)
Markdown syntax’i ile aralarına notlar aldığınız kernel’lara data setler ekleyip üzerinde çalışıp derleyip sunabilirsiniz. Kernel’ınız derlendiğinde bir Notebook olarak yayınlanır.
Kaggle’ın en çok oy alan ikinci Kernel’ı Exploring Survival On Titanic adlı, Titanik Deniz Faciasından kurtulan insanların profilini inceleyen notebooktur. Bu notebook’un iki sıra altında, yukarıda da belirttiğim gibi Datai Team’in Data Science Tutorial for Beginners adlı notebook’u var.