Auzef Makine Öğrenmesi 2024 Final Soruları (Bahar)

Makine Öğrenmesi 2024 Final Soruları (Bahar)

Temmuz 29, 2024

Karar Ağaçları ve Makine Öğrenmesinde Uygulamaları

Giriş

Makine öğrenmesi, veriden anlamlı kalıplar çıkarma ve tahminler yapma yeteneğine sahip bir bilim dalıdır. Bu alanda kullanılan algoritmalar, veri setlerinden öğrenerek belirli görevleri gerçekleştirmek için geliştirilmiştir. Karar ağaçları, bu algoritmalar arasında en yaygın kullanılanlardan biridir ve veri madenciliği, sınıflandırma ve regresyon gibi birçok alanda uygulanmaktadır.

Karar Ağaçları

Karar ağaçları, veri setlerini bölerek sınıflandırma ve regresyon problemlerini çözmek için kullanılan bir modeldir. Bu model, veriyi niteliklerine göre bölerek ağaç yapısı oluşturur. Her düğüm, bir niteliği ve bu niteliğe bağlı kararları temsil ederken, yaprak düğümler, son sınıfları veya tahmin değerlerini temsil eder. Karar ağaçları, öğrenme sürecinde basit “eğer, o zaman” kurallarını kullanır ve bu sayede veriyi belirli sınıflara ayırır veya değerler tahmin eder.

Entropi ve Bilgi Kazancı

Karar ağaçlarında en uygun bölme noktalarını belirlemek için entropi ve bilgi kazancı kavramları kullanılır. Entropi, bir veri kümesindeki belirsizliğin ölçüsüdür ve genellikle sınıflandırma problemlerinde kullanılır. Bir karar ağacının bir düğümünde entropi ne kadar düşükse, o kadar saf bir düğümdür. Bilgi kazancı ise, bir bölmenin entropiyi ne kadar azalttığını ölçer. Bu kavramlar, karar ağacının oluşturulmasında kritik rol oynar ve daha iyi sınıflandırma performansı elde edilmesini sağlar.

Uygulama Alanları

1- Sınıflandırma Problemleri:

Karar ağaçları, sınıflandırma problemlerinde yaygın olarak kullanılır. Örneğin, bir tıbbi teşhis sisteminde hastalıkları belirlemek için kullanılabilirler. Hastaların semptomları ve test sonuçları, ağacın dallarında yer alır ve her yaprak düğüm, olası bir teşhisi temsil eder.

2- Regresyon Problemleri:

Regresyon problemlerinde, karar ağaçları sürekli değerlerin tahmininde kullanılır. Örneğin, bir emlak şirketi, ev fiyatlarını tahmin etmek için karar ağaçları kullanabilir. Bu durumda, evin özellikleri (metrekare, oda sayısı, konum vb.) ağacın dallarında yer alır ve yaprak düğümler, tahmini fiyatları temsil eder.

3- Veri Kümeleme:

Karar ağaçları ayrıca, veri kümeleme işlemlerinde de kullanılabilir. Örneğin, bir e-ticaret şirketi, müşterilerini alışveriş alışkanlıklarına göre kümelerken karar ağaçlarından faydalanabilir. Bu sayede, benzer alışveriş alışkanlıklarına sahip müşteriler belirlenebilir ve bu müşterilere özel pazarlama stratejileri geliştirilebilir.

Karar Ağaçlarının Avantajları ve Dezavantajları

Avantajlar:

– Kolay Yorumlanabilirlik: Karar ağaçları, görsel olarak kolayca yorumlanabilir ve anlaşılabilir. Her düğüm ve yaprak, belirli bir kararı veya sonucu temsil eder, bu da karar sürecini şeffaf hale getirir.

– Esneklik: Karar ağaçları, hem sınıflandırma hem de regresyon problemlerinde esnek bir şekilde kullanılabilir.

– Az Veri Ön İşleme Gereksinimi: Karar ağaçları, veri ön işleme gereksinimi düşük olan algoritmalardır. Niteliklerin ölçeklenmesi veya normalizasyonu genellikle gerekmez.

Dezavantajlar:

– Aşırı Uyum (Overfitting): Karar ağaçları, veri setine aşırı uyum sağlayarak genelleme yeteneğini kaybedebilir. Bu durumda, model yeni veriler üzerinde düşük performans gösterebilir.

– Hesaplama Maliyeti: Büyük veri setlerinde, karar ağacının oluşturulması ve hesaplama maliyeti yüksek olabilir.

Sonuç

Karar ağaçları, makine öğrenmesinde önemli bir yere sahiptir ve çeşitli alanlarda başarıyla uygulanmaktadır. Entropi ve bilgi kazancı gibi kavramlar, bu algoritmanın etkin bir şekilde çalışmasını sağlar. Karar ağaçlarının kolay yorumlanabilirlik ve esneklik gibi avantajları, onları sınıflandırma ve regresyon problemlerinde popüler hale getirmiştir. Ancak, aşırı uyum ve hesaplama maliyeti gibi dezavantajları da göz önünde bulundurulmalıdır. Gelecekte, bu algoritmanın daha da geliştirilmesi ve yeni uygulama alanlarında kullanılması beklenmektedir.

@lolonolo_com

Makine Öğrenmesi 2024 Final Soruları (Bahar)

I. Euclidean (Öklid)
II. Manhattan
III. Chebyshev
IV. Cosine
V. Gower

1- Yukarıda verilen fonksiyonlardan kaç tanesi k-En Yakın Komşu Algoritmasında uzaklık hesaplamak için kullanılabilir?

A) 4
B) 5
C) 3
D) 1
E) 2

Cevap : B) 5

Açıklama : ?

Makine Öğrenmesi 2024 Final Soruları (Bahar) soru 2

2- Yukarıdaki grafikte verilen çok katmanlı yapay sinir ağı modelinde (?) ile verilen katmanın adı aşağıdakilerden hangisidir?

A) Çıktı katmanı
B) Ortanca katman
C) Ara (gizli) katman
D) Girdi katmanı
E) Kök düğüm katmanı

Cevap : C) Ara (gizli) katman

Açıklama : Yapay sinir ağlarında, giriş katmanı ile çıkış katmanı arasında yer alan katmanlara ara veya gizli katman denir.

3- Aşağıdaki seçeneklerden hangisi doğrusal regresyon analizi öncesinde dikkat edilmesi gereken temel varsayımlar arasında yer almaz?

A) Sayısal niteliklerin veri setinden çıkartılması
B) Normal (Gauss) dağılımı kontrolü
C) Veri setindeki gürültünün kaldırılması
D) Doğrusallık varsayımı kontrolü
E) Eş doğrusallığın (colinearity) kaldırılması

Cevap : A) Sayısal niteliklerin veri setinden çıkartılması

Açıklama : Doğrusal regresyon analizinde sayısal niteliklerin çıkartılması gerekmemektedir. Aksine, bu nitelikler analiz için önemlidir.

4- Aşağıdaki bilim insanlarından hangisi yapay zekânın isim babası olarak bilinmektedir?

A) John McCarthy
B) Alan Turing
C) Hans Moravec
D) Marvin Minsky
E) Elon Musk

Cevap : A) John McCarthy

Açıklama : John McCarthy, yapay zekâ terimini ilk kez kullanan bilim insanıdır.

5- Aşağıdakilerden hangisi bir karar ağacı algoritması değildir?

A) CART
B) C5.0
C) ID8.15
D) C4.5
E) ID3

Cevap : C) ID8.15

Açıklama :

Makine Öğrenmesi 2024 Final Soruları (Bahar) Soru 6

6- Yukarıda verilen tabloya göre; karar ağaçlarında niteliklerin belirsizliğini ölçmek için kullanılan Entropi değeri Kredi Riski niteliği için aşağıdaki seçeneklerin hangisinde doğru hesaplanmıştır?

Cevap : E)

Makine Öğrenmesi Soru 6e

Açıklama : ?

7- Bir araştırmacı Python’da Naive Bayes modelinin performansını değerlendirmek için tabakalı 10-kat çapraz geçerleme yöntemini kullanmak istiyor. Yukarıda verilen işlemin gerçekleştirilebilmesine yönelik aşağıda verilen seçeneklerden hangisi kullanılabilir?

A) cv_model = StratifiedKFold(n_splits=1, shuffle=True, random_state=10)
B) cv_model = StratifiedKFold(n_splits=10, shuffle=True, random_state=10)
C) cv_model = StratifiedKFold(n_splits=5, shuffle=True, random_state=5)
D) cv_model = StratifiedKFold(n_splits=2, shuffle=True, random_state=5)
E) cv_model = StratifiedKFold(n_splits=5, shuffle=True, random_state=2)

Cevap : B) cv_model = StratifiedKFold(n_splits=10, shuffle=True, random_state=10)

Açıklama : Tabakalı 10-kat çapraz geçerleme için StratifiedKFold fonksiyonunun n_splits parametresi 10 olarak ayarlanmalıdır.

Makine Öğrenmesi 2024 Final Soruları Soru 9

9 -Yukarıdaki grafiğin çizilebilmesi için aşağıdaki seçeneklerden hangisi kullanılmalıdır?

A) sns.histplot(data=veri, x=”sepal_length”)
B) sns.heatmap(data=veri, y=”sepal_length”)
C) sns.boxplot(data=veri, y=”sepal_length”)
D) sns.histplot(data=veri, y=”sepal_length”)
E) sns.boxplot(data=veri, x=”sepal_length”)

Cevap : D) sns.histplot(data=veri, y=”sepal_length”)

Açıklama : ?

10- Derin öğrenme kavramındaki derinlik aşağıdakilerden hangisini ifade eder?

A) Eğitim veri setindeki örnek sayısı.
B) Kullanılan yapay sinir ağı modeli sayısı.
C) Test veri setindeki örnek sayısı.
D) Modeldeki katman sayısı.
E) Veri setindeki nitelik sayısı.

Cevap : D) Modeldeki katman sayısı.

Açıklama : Derin öğrenme, birden fazla katmana sahip sinir ağlarını ifade eder ve bu derinlik katman sayısıyla ölçülür.

11- Naive Bayes algoritması ile ilgili verilenlerden hangisi yanlıştır?

A) Algoritmanın en önemli özelliklerinden biri “bağımsızlık varsayımı”dır.
B) Analizler sonunda, sınıfı bilinmeyen bir örneğe, olasılığı en düşük çıkan sınıf atanır.
C) Bir danışmanlı öğrenme algoritmasıdır.
D) Bayes Teoremi’ne dayanır.
E) Veri setinde sürekli nitelik olması durumunda, sürekli değerlerin normal dağılıma (Gauss dağılımına) uygun dağıldığı kabulüne göre sürekli niteliklerin normal dağılım için olasılık yoğunluk fonksiyonu hesaplanabilir.

Cevap : B) Analizler sonunda, sınıfı bilinmeyen bir örneğe, olasılığı en düşük çıkan sınıf atanır.

Açıklama : Naive Bayes algoritması, sınıfı bilinmeyen bir örneğe en yüksek olasılıkla çıkan sınıfı atar.

8 – Bir restoran, müşterilerin ödediği toplam hesap tutarını (tutar) kullanarak müşterinin vereceği bahşişi (bahsis) tahmin etmek için basit doğrusal regresyon analizi gerçekleştiriyor. Analiz sonucunda model sabiti (β0) ve tutar değişkeni katsayısı (β1) yukarıda verilmiştir. Doğrusal regresyon modeline göre; toplam 150 TL’lik hesap ödeyen bir müşterinin bahşiş bırakacağı miktar aşağıdakilerden hangisidir?

β0=5, β1=0.20

A) 50
B) 105
C) 90
D) 35
E) 75

Cevap : D) 35

Açıklama : ?

12- Aşağıdaki görevlerin hangisini k-Ortalamalar Algoritmasını kullanarak gerçekleştirmek daha uygundur?

A) Bir e-ticaret şirketinin, müşterilerini alışveriş alışkanlıklarına göre kümelemesi.

B) Bir finans şirketinin belirli bir hisse senedi değerini bir sonraki gün için tahmin etmesi.

C) Bir abonelik hizmeti sağlayıcısının, abonelerinin demografik ve kullanım geçmişi özellikleri ile müşterilerin sadık olup olmadığı durumunu gösteren nitelikleri kullanarak müşteri kaybını öngörmesi.

D) Bir doktorun, hastaların semptom ve test sonuçları verilerine dayanarak, yeni gelen bir hastanın durumunu öngörmesi.

E) Bir emlak şirketinin, evlerin konum, metrekare, oda sayısı, banyo sayısı gibi özellikleri ile fiyat bilgisine göre yeni bir evin fiyatını tahmin etmesi.

Cevap : A) Bir e-ticaret şirketinin, müşterilerini alışveriş alışkanlıklarına göre kümelemesi.

Açıklama : k-Ortalamalar Algoritması, veri kümelerini belirli özelliklere göre gruplamak için kullanılır. Bu nedenle müşteri alışkanlıklarına göre kümeleme için uygundur.

Makine Öğrenmesi 2024 Final Soruları Soru 13

13- x1 = 100, x2 = 40, w1 = 0.1, w2 = 0.5

Bir nöronun girdileri (x1, x2) ve ağırlıkları (w1, w2) yukarıda verilmiştir. Bu nöronun net girdisi ağırlıklı toplam (weighted sum) fonksiyonu kullanılarak hesaplanırsa; nöronun net girdisi aşağıdaki seçeneklerden hangisi olur?

A) 40
B) 30
C) 10
D) 50
E) 20

Cevap : B) 30

Açıklama : Net girdi, ağırlıklı toplam ile hesaplanır:
x1×w1+x2×w2=100×0.1+40×0.5=10+20=30.

14- “Bana arkadaşını söyle, sana kim olduğunu söyleyeyim” atasözü ile özdeşleşen makine öğrenmesi algoritması aşağıdakilerden hangisidir?

A) k-Ortalamalar Algoritması
B) Karar Ağaçları
C) Doğrusal Regresyon Analizi
D) k-En Yakın Komşu Algoritması
E) Yapay Sinir Ağları

Cevap : D) k-En Yakın Komşu Algoritması

Açıklama : Bu atasözü, k-En Yakın Komşu Algoritmasının mantığına uygundur. Algoritma, bir veri noktasının sınıfını, en yakın komşularına göre belirler.

15- Çoklu doğrusal regresyon analizinde niteliklerin (beta) katsayılarına bakılarak model için anlamlı olup olmadıklarına aşağıdakilerden hangisi kullanılarak karar verilir?

A) p-değeri 0.05’ten küçükse, nitelik model için anlamlıdır.

B) p-değeri 0.1’den küçükse, nitelik model için anlamlıdır.

C) p2 değeri 1’den büyükse, nitelik model için anlamlıdır.

D) p-değeri 0.05’ten büyükse, nitelik model için anlamlıdır.

E) R2 değeri 1’e yakınsa, nitelik model için anlamlıdır.

Cevap : A) p-değeri 0.05’ten küçükse, nitelik model için anlamlıdır.

Açıklama : p-değeri 0.05’ten küçükse, niteliklerin model için anlamlı olduğu kabul edilir.

16- Öksürük ve Teşhis tablosuna göre; Covid olduğu bilinen bir hastanın öksürüğü olma (koşullu) olasılığı nedir?

A) 1/5

B) 1/3

C) 1/2

D) 2/5

E) 2/3

Cevap : E) 2/3

Açıklama : Covid teşhisi konulan 3 hastadan 2’sinde öksürük vardır. Bu nedenle, Covid olduğu bilinen bir hastanın öksürük olma olasılığı 2/3’tür.

17- k-En Yakın Komşu Algoritması ile ilgili verilen seçeneklerden hangisi yanlıştır?

A) Bir danışmanlı öğrenme algoritmasıdır.

B) Algoritmadaki k, veri setine göre ayarlanması gereken bir hiperparametredir (hyperparameter).

C) Yalnızca sınıflandırma problemlerinin çözümünde kullanılabilir.

D) Sınıfı bilinmeyen örneğin sınıfına karar verilirken, çoğunluk oylaması (majority voting) ya da ağırlıklı oylama (weighted voting) kullanılabilir.

E) Bir tembel öğrenme (lazy learning) algoritması olarak da bilinmektedir.

Cevap : C) Yalnızca sınıflandırma problemlerinin çözümünde kullanılabilir.

Açıklama : k-En Yakın Komşu Algoritması hem sınıflandırma hem de regresyon problemlerinde kullanılabilir.

18- cagrilar: Bir bankanın çağrı merkezine gelen aramaların sayısı (500, 750, 1000, …). cagrilar niteliğinin veri tipi için aşağıdaki seçeneklerden hangisi en uygundur?

A) Sürekli
B) Sıralı kategorik
C) İkili kategorik
D) Nominal
E) Ayrık

Cevap : E) Ayrık

Açıklama : Çağrı sayıları ayrık veri tipindedir çünkü belirli sayılarla ifade edilirler ve sürekli bir ölçekle ölçülmezler.

20- Karar ağaçları ile sınıflandırmadaki amaç; …… bulmak için etiketlenmemiş bir gözlemin niteliklerini test ederek ağaç boyunca bir …… bulmaktır. Yukarıdaki tanımda. verilen boşluklara sırasıyla aşağıdaki şıklarda verilen hangi ikili gelmelidir?

A) sınıf etiketini – dal

B) üst düğümünü – yaprak

C) üst düğümünü – kök düğüm

D) dal – yaprak

E) sınıf etiketini – yol

Cevap : E) sınıf etiketini – yol

Açıklama : ?

19- Yukarıdaki tabloda kişilerin ev sahipliği durumunu gösteren evSahipligi niteliği verilmektedir. Bu nitelikteki eksik verinin (?) tamamlanmasına yönelik aşağıda verilen ifadelerden hangisi en uygundur?

A) Nitelikte sayıca en az ve sayıca en fazla olan kategoriler birleştirilerek eksik veri yerine atanabilir.

B) Nitelikteki eksik veri tamamlanamaz, gözlem tümüyle veri setinden kaldırılmalıdır.

C) Nitelikteki sayıca en fazla olan kategori eksik veri yerine atanabilir.

D) Nitelikteki eksik veri tamamlanamaz, çünkü nitelik sayısal değildir.

E) Nitelik yalnızca bir makine öğrenmesi algoritması kullanılarak doldurulabilir.

Cevap : C) Nitelikteki sayıca en fazla olan kategori eksik veri yerine atanabilir.

Açıklama : Eksik verilerin tamamlanmasında en yaygın yöntemlerden biri, en fazla görülen kategoriyi eksik veriye atamaktır.

@lolonolo_com

Makine Öğrenmesi 2024 Final Soruları (Bahar)

#1. Naive Bayes algoritması ile ilgili verilenlerden hangisi yanlıştır?

#2. I. Euclidean (Öklid) II. Manhattan III. Chebyshev IV. Cosine V. Gower 1- Yukarıda verilen fonksiyonlardan kaç tanesi k-En Yakın Komşu Algoritmasında uzaklık hesaplamak için kullanılabilir?

#3. Yukarıdaki grafiğin çizilebilmesi için aşağıdaki seçeneklerden hangisi kullanılmalıdır?

#4. Yukarıdaki grafikte verilen çok katmanlı yapay sinir ağı modelinde (?) ile verilen katmanın adı aşağıdakilerden hangisidir?

#5. Bir araştırmacı Python’da Naive Bayes modelinin performansını değerlendirmek için tabakalı 10-kat çapraz geçerleme yöntemini kullanmak istiyor. Yukarıda verilen işlemin gerçekleştirilebilmesine yönelik aşağıda verilen seçeneklerden hangisi kullanılabilir?

#6. Yukarıdaki tabloda kişilerin ev sahipliği durumunu gösteren evSahipligi niteliği verilmektedir. Bu nitelikteki eksik verinin (?) tamamlanmasına yönelik aşağıda verilen ifadelerden hangisi en uygundur?

#7. Karar ağaçları ile sınıflandırmadaki amaç; …… bulmak için etiketlenmemiş bir gözlemin niteliklerini test ederek ağaç boyunca bir …… bulmaktır. Yukarıdaki tanımda. verilen boşluklara sırasıyla aşağıdaki şıklarda verilen hangi ikili gelmelidir?

#8. Aşağıdakilerden hangisi bir karar ağacı algoritması değildir?

#9. – Bana arkadaşını söyle, sana kim olduğunu söyleyeyim – atasözü ile özdeşleşen makine öğrenmesi algoritması aşağıdakilerden hangisidir?

#10. Yukarıda verilen tabloya göre; karar ağaçlarında niteliklerin belirsizliğini ölçmek için kullanılan Entropi değeri Kredi Riski niteliği için aşağıdaki seçeneklerin hangisinde doğru hesaplanmıştır?

#11. cagrilar: Bir bankanın çağrı merkezine gelen aramaların sayısı (500, 750, 1000, …). cagrilar niteliğinin veri tipi için aşağıdaki seçeneklerden hangisi en uygundur?

#12. Aşağıdaki bilim insanlarından hangisi yapay zekânın isim babası olarak bilinmektedir?

#13. Aşağıdaki seçeneklerden hangisi doğrusal regresyon analizi öncesinde dikkat edilmesi gereken temel varsayımlar arasında yer almaz?

#14. Aşağıdaki görevlerin hangisini k-Ortalamalar Algoritmasını kullanarak gerçekleştirmek daha uygundur?

#16. Bir nöronun girdileri (x1, x2) ve ağırlıkları (w1, w2) yukarıda verilmiştir. Bu nöronun net girdisi ağırlıklı toplam (weighted sum) fonksiyonu kullanılarak hesaplanırsa; nöronun net girdisi aşağıdaki seçeneklerden hangisi olur?

#17. k-En Yakın Komşu Algoritması ile ilgili verilen seçeneklerden hangisi yanlıştır?

#18. Derin öğrenme kavramındaki derinlik aşağıdakilerden hangisini ifade eder?

#19. Öksürük ve Teşhis tablosuna göre; Covid olduğu bilinen bir hastanın öksürüğü olma (koşullu) olasılığı nedir?

#20. Çoklu doğrusal regresyon analizinde niteliklerin (beta) katsayılarına bakılarak model için anlamlı olup olmadıklarına aşağıdakilerden hangisi kullanılarak karar verilir?

SONUÇ