Data Science Notları

Bilgisayar ve iş dünyasının ve sosyal medya sayesinde tüm dünyanın itici gücü artık veri.

Servisler, sensörler, bulut platformları, nosql, big data derken en önemli derdimiz veriyi toplamak, saklamak ve bu veriden anlam çıkarmaya çalışmak oldu. Aslına bakarsanız en önemli derdimiz zaten uzun yıllardır bunları yapmaktı ama günümüzde çıta çok yükseldi.

  • İçinde insanların olmadığı, makinelerin birbiriyle iletişim kurduğu, üretimde yaşanan hataları analiz edip çözdükleri karanlık fabrikalar
  • Sürücüsüz araçlar
  • Tüketim alışkanlıklarımızı analiz edip bizim yerimize alışveriş yapan ev aletleri
  • Müzik, Sinema ve Dizi tercihlerimize göre tavsiyede bulunan uygulamalar

Tüm bunların ve daha fazlasının gerçekleşmesi veri analizi sayesinde olacak/olmakta.

Bu yüzden son yıllarda, makine öğrenmesi, derin öğrenme, veri bilimi gibi pek çok tamlama kulağımıza çalınıyor. İstatistik bilimi hiç olmadığı kadar önemli.

Son bir iki yıldır kariyerimdeki bir sonraki adımı düşünen ve bunun çok büyük ihtimalle veri bilimi olması gerektiğini bilen ben, geç kaldığım bu işe girişmek için Udemy’e girdim ve ilgili eğitimleri incelemeye başladım.

Datai Team

Datai Team, Veri Bilimi ve alt dallarıyla ilgili farkındalık yaratmak ve Türkçe kaynak eksikliğini kendince gidermek için, Kaggle’da sunmuş olduğu Data Science notlarını Türkçe eğitim videolarına çevirmekte. Videolara Udemy üzerinden tamamen ücretsiz ulaşabilirsiniz.

Datai Team’in Kaggle’da(Kaggle’dan aşağıda ayrıca bahsedeceğim) oldukça başarılı bir profili var. Data Science Tutorial for Beginners adlı Notebook’u bu global sitede en çok oy alan dördüncü Notebook durumunda.

Datai Team tarafından ücretiz 7 eğitim şeklinde planlanan müfredat;

  • Python
  • Data Science
  • Visualization Tools
  • Statistical Learning
  • Deep Learning
  • Machine Learning
  • Artifical Intelligence şeklinde ilerleyecek.

Ben ikinci kursun ortasındayım. Şimdi bu kurslardan öğrendiklerim hakkında bilgi vereceğim.

Python

Python 90’ların başında geliştirilmeye başlanmış yüksek seviyeli bir programlama dildir. Nesneye yönelik, fonksiyonel ya da sadece scripting amaçlı olarak kullanılabilir.

Basitliği, esnekliği ve sürekli artan popülaritesi sayesinde devops, oyun programlama, web programlama gibi pek çok farklı alanda kullanılmaktadır.

Python; Veri Bilimi, İstatistik ve diğer bilim dalları tarafından en çok tercih edilen dildir.

6 saatlik Python kursunda Temel Python, Numpy, Pandas ve Matplotlib kütüphaneleri anlatıldı.

Datai Team’in kurslarında, veri biliminde kullanmaya yetecek kadar Python öğrenebilirsiniz.

Anaconda

Anaconda, data science’a yönelik bir Python dağıtımıdır. İçerisinde 1000 kadar data science paketi olmakla birlikte pip(Python paket yöneticisi) alternatifi Conda adlı bir paket yöneticisi vardır.

Anaconda Navigator

Anaconda dağıtımının dahil olduğu bu grafik ara birim; Jupyter Notebook, Spyder, R Studio, Visual Studio Code gibi araçlarla gelmekte ve Anaconda ile olan işlerinizi daha kolay yapmanızı hedeflemektedir.

Windows, Mac ya da Linux işletim sistemli bilgisayarlarınıza kuracağınız Anaconda Navigator, Veri Bilimi konusunda en yakın arkadaşınız olacak.

Numpy

Çok boyutlu diziler oluşturabileceğiniz ve bu dizilerin üzerinde yüksek seviyeli matematik fonksiyonlarını uygulayabileceğiniz bir Python kütüphanesi.

Pandas

Python için geliştirilmiş bir Veri Analiz kütüphanesi. Pandas ile verilerinizi DataFrame’lere çevirip üzerlerinde veri analiz işlemlerini gerçekleştirilebilirsiniz.

Matplotlib

Verileri görselleştirmede kullanılan bir Python kütüphanesi.

Kaggle

Veri bilimcileri için Github(Kernel), Hackerrank(Competitions) ve Stack Overflow’un(Discussions) karışımı olan bu sitedeki en önemli iki kavram Kernel ve Dataset.

Dataset’ler, adı üzerinde veri setleri. Çeşitli konu, format ve boyutlarda sunulan bu veri setlerini kullanabilir, private ya da public olarak kendi data setlerinizi ekleyebilirsiniz.

Kernel’lar ise bu sitenin asıl güzelliği.

Bir Kernel hem bir kod deposudur hem browser tabanlı bir derleyicidir hem de bir not defteridir. (bunun arkasındaki platform için: Jupyter Notebook)

Markdown syntax’i ile aralarına notlar aldığınız kernel’lara data setler ekleyip üzerinde çalışıp derleyip sunabilirsiniz. Kernel’ınız derlendiğinde bir Notebook olarak yayınlanır.

Kaggle’ın en çok oy alan ikinci Kernel’ı Exploring Survival On Titanic adlı, Titanik Deniz Faciasından kurtulan insanların profilini inceleyen notebooktur. Bu notebook’un iki sıra altında, yukarıda da belirttiğim gibi Datai Team’in Data Science Tutorial for Beginners adlı notebook’u var.

Sonuç

Şu anda ikinci kursun yarısına gelmiş durumdayım. Sıradaki konu olan veri temizliği ile resmen Veri Analizine giriş yapacağız.
İlk kursta Pandas ve Numpy üzerine aldığım notları derledim. İncelemek isterseniz Kaggle Profilime bakabilirsiniz.
Yeni girdiğim bu yolda istediğim gibi(direkt konuya giren) bir kaynağı hemen bulabilmiş olmanın mutluluğu içerisindeyim. Datai Team’in eğitimlerini almak için data science ya da programlamaya hakim hatta aşina olmaya ihtiyacınız yok. Öğrenmek istemeniz yeterli.
Bu yazıda adı geçen tüm dil, platform, uygulama, kütüphane ve eğitimler ücretsiz ve açık kaynaklıdır.

Bağlantılar

Datai Team @ Udemy

Bunlarda ilginizi çekebilir

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir