Web Analitiği Ve Zekâsı Ünite -6
Kullanıcı Davranış Tahmini- Sınıflandırma
#1. Bir sınıflandırma probleminin çözümünde kullanılan tahmin edici nitelikler için aşağıdakilerden hangisi doğru bir tanımlamadır?
Cevap: D) Modeli eğitmek için kullanılan bağımsız değişkenlerdir.
Açıklama : Sınıflandırma modellerinde bağımsız değişkenler (predictor variables) modeli eğitmek için kullanılır. Bu değişkenler, bağımlı değişkenin (hedef değişkenin) tahmin edilmesini sağlar.
Örneğin, bir hastanın tıbbi test sonuçlarını içeren bir veri setinde, test sonuçları bağımsız değişkenlerdir ve “Hastalıklı / Sağlıklı” etiketi bağımlı değişkendir.
Doğru ifade: “Modeli eğitmek için kullanılan bağımsız değişkenlerdir.”
#2. Aşağıdakilerden hangisi k-En Yakın Komşu (k-NN) algoritmasının özelliklerinden biri değildir?
Cevap: C) Algoritmada karar aşamasında, sınıfı belirlenmek istenen gözleme en yakın k komşunun tahmin edici niteliklerinin sayısı dikkate alınır.
Açıklama : k-En Yakın Komşu (k-NN) algoritması, hem sınıflandırma hem de regresyon problemlerinde kullanılabilen bir makine öğrenmesi yöntemidir. k-NN modeli, yeni bir veri noktasının hangi sınıfa ait olduğunu belirlemek için en yakın “k” komşunun sınıflarını analiz eder.
Yanlış ifade: “Algoritmada karar aşamasında, sınıfı belirlenmek istenen gözleme en yakın k komşunun tahmin edici niteliklerinin sayısı dikkate alınır.”
Gerçekte, karar verme süreci komşuların sınıf etiketleriyle belirlenir, tahmin edici niteliklerin sayısı değil.
#3. Aşağıdaki ifadelerden hangisi sınıflandırma ile ilgili yanlış bir ifadedir?
Cevap: B) Sınıflandırma algoritmaları yalnızca sayısal hedef değişkenler için kullanılabilir.
Açıklama : Sınıflandırma, verileri belirli kategorilere veya sınıflara ayırmayı amaçlayan bir makine öğrenmesi problemidir. Örneğin, e-posta filtresi bir mesajın spam olup olmadığını belirlerken sınıflandırma algoritmaları kullanır.
Yanlış olan ifade: “Sınıflandırma algoritmaları yalnızca sayısal hedef değişkenler için kullanılabilir.”
Bu yanlış çünkü sınıflandırma problemlerinde genellikle kategorik hedef değişkenler kullanılır (örn: “Evet / Hayır”, “Spam / Normal”, “Hasta / Sağlıklı”). Sayısal değişkenlerle çalışan algoritmalar ise regresyon modelleridir.
#4. Aşağıdaki R kod bloğu veri setini eğitim ve test olarak ayırmak için kullanılmaktadır. Kodda hangi parametre veri setinin eğitim-test oranını belirler?
Cevap: C) p = 0.75
Açıklama : Bir veri setinin eğitim ve test olarak ayrılmasında, eğitim veri setinin ne kadarının kullanılacağını belirleyen en önemli parametre p değeridir.
Kod bloğunda:
set.seed(123)
indks <- createDataPartition(veri$Revenue, p = 0.75, list = FALSE)
egitim_verisi <- veri[indks, ]
test_verisi <- veri[-indks, ]
Burada p = 0.75, verinin %75’inin eğitim, %25’inin test olarak ayrılacağını belirtir.
Doğru ifade: “p = 0.75”
#5. Bir sınıflandırma probleminin çözümünde, modelin pozitif sınıfı doğru tahmin etme oranı aşağıdaki ölçütlerden hangisidir?
Cevap: E) Duyarlılık (Sensitivity)
Açıklama : Duyarlılık (Sensitivity), bir modelin pozitif sınıfı doğru tahmin etme oranını gösterir.
Yani, modelin gerçek pozitifleri ne kadar iyi tespit ettiğini gösterir.
Örneğin, bir kanser teşhis modeli için duyarlılık çok önemlidir, çünkü yanlış negatifler (FN) ciddi sonuçlar doğurabilir.
Öğrenme Yönetim Sistemi Öğrenci Dostu LOLONOLO bol bol deneme sınavı yapmayı önerir.
#6. F-ölçüsü (F1-score) aşağıdaki hangi iki performans değerlendirme ölçütünün harmonik ortalamasıdır?
Cevap: A) Kesinlik ve duyarlılık
Açıklama : F1-Skoru (F1-Score), kesinlik (Precision) ve duyarlılığın (Sensitivity) harmonik ortalamasıdır.
Formülü şu şekildedir:
Kesinlik (Precision), modelin pozitif olarak tahmin ettiği örneklerin ne kadarının gerçekten pozitif olduğunu gösterir.
Duyarlılık (Recall/Sensitivity), modelin pozitif olanları ne kadar iyi tespit ettiğini gösterir.
F1-Skoru, dengesiz veri setlerinde model performansını ölçmek için önemlidir.
#7. Aşağıdaki yöntemlerden hangisi bir veri setinde tabakalı örnekleme (stratified sampling) işlemini ifade eder?
Cevap: B) Veri setinde hedef nitelik kategorilerinin frekans oranını koruyarak eğitim ve test veri seti oluşturma.
Açıklama : Tabakalı örnekleme (Stratified Sampling) yöntemi, eğitim ve test veri setlerinin hedef değişkenin dağılımına göre orantılı şekilde bölünmesini sağlar.
Örneğin, eğer veri setinde “Hasta / Sağlıklı” etiketi %80-%20 oranında dağılıyorsa, eğitim ve test veri setlerinde de bu oran korunur.
Doğru ifade: “Veri setinde hedef nitelik kategorilerinin frekans oranını koruyarak eğitim ve test veri seti oluşturma.”
#8. Bir sınıflandırma modelinin performans değerlendirme ölçütü olan doğruluk (accuracy) nasıl hesaplanır?
Cevap: A) (TP TN) / (TP TN FP FN)
Açıklama : Doğruluk (Accuracy), sınıflandırma modellerinin performansını ölçen temel metriklerden biridir.
Doğruluk şu formülle hesaplanır:
Burada:
TP (True Positive): Modelin doğru şekilde “Pozitif” olarak tahmin ettiği örnekler
TN (True Negative): Modelin doğru şekilde “Negatif” olarak tahmin ettiği örnekler
FP (False Positive): Modelin yanlışlıkla “Pozitif” olarak tahmin ettiği negatif örnekler
FN (False Negative): Modelin yanlışlıkla “Negatif” olarak tahmin ettiği pozitif örnekler
Doğruluk, modelin tüm doğru tahminlerini (TP TN) tüm tahminlere bölerek hesaplar.
#9. 8- Bir sınıflandırma algoritmasında yapay kodlama (dummy coding) işlemi hangi durumda uygulanabilir?
Cevap: D) Kategorik nitelikleri sayısal formatta temsil etmek için.
Açıklama : Yapay Kodlama (Dummy Coding), kategorik değişkenleri sayısal hale getirmek için kullanılan bir tekniktir.
Örneğin, bir veri setinde “Renk” değişkeni (“Kırmızı”, “Mavi”, “Yeşil”) gibi kategorik değerler içeriyorsa, bunları 0 ve 1 değerlerine sahip sütunlara dönüştürmek gerekir:
Kırmızı: (1,0,0)
Mavi: (0,1,0)
Yeşil: (0,0,1)
Doğru ifade: “Kategorik nitelikleri sayısal formatta temsil etmek için.”
#10. Aşağıdakilerden hangisi k-Kat Çapraz Geçerleme (k-Fold Cross-Validation) yönteminin avantajı olarak gösterilebilir?
Cevap: E) Rastgele veri ayırma hatalarını azaltarak modelin genel performansını ölçmesi.
Açıklama :
k-Kat Çapraz Geçerleme (k-Fold Cross-Validation), modelin farklı eğitim ve test veri setleriyle test edilmesini sağlayarak genel performansını artırır.
Bu yöntem sayesinde:
Küçük veri setlerinde tüm verilerin eğitime dahil edilmesi sağlanır.
Modelin rastgele veri bölme hatalarından etkilenmemesi sağlanır.
Genel performans daha güvenilir hale gelir.
Avantajı: “Rastgele veri ayırma hatalarını azaltarak modelin genel performansını ölçmesi.”
Öğrenme Yönetim Sistemi Öğrenci Dostu LOLONOLO bol bol deneme sınavı yapmayı önerir.
SONUÇ
İstanbul Üniversitesi Açık ve Uzaktan Eğitim Fakültesi (Auzef)
Açık Öğretim Fakültesi
Bölüm : Web Tasarımı ve Kodlama
2. Sınıf Bahar Dönemi
Web Analitiği Ve Zekâsı Ünite -6
Kullanıcı Davranış Tahmini- Sınıflandırma
İstanbul Üniversitesi Açık ve Uzaktan Eğitim Fakültesi (Auzef)
Açık Öğretim Fakültesi
Bölüm : Web Tasarımı ve Kodlama
2. Sınıf Bahar Dönemi
Web Analitiği Ve Zekâsı Ünite -6
Kullanıcı Davranış Tahmini- Sınıflandırma
Kullanıcı Davranış Tahmini- Sınıflandırma
İstanbul Üniversitesi Açık ve Uzaktan Eğitim Fakültesi (Auzef) Açık Öğretim Fakültesi Bölüm : Web Tasarımı ve Kodlama 2. Sınıf Bahar Dönemi Web Analitiği Ve Zekâsı Ünite -6 Kullanıcı Davranış Tahmini- Sınıflandırma |
---|
Kullanıcı Davranış Tahmini- Sınıflandırma
Kullanıcı Davranış Tahmini- Sınıflandırma |
|
---|---|
@lolonolo_com |
Kullanıcı Davranış Tahmini- Sınıflandırma
Web Analitiği Ve Zekâsı Ünite -6
Kullanıcı Davranış Tahmini- Sınıflandırma
Web Analitiği ve Zekâsı – Ünite 6: Sınıflandırma |
|
---|---|
@lolonolo_com |
Kullanıcı Davranış Tahmini- Sınıflandırma
|
Auzef Web Tasarımı ve Kodlama 2. Sınıf bahar dönemi soruları deneme sınavları ve ünite soruları