Veri Madenciliği Final Deneme Sınavı -7

Haziran 14, 2024

Auzef Veri Madenciliği Final Deneme Sınavı -7

#1. Belli bir parçanın üretimi için gereken ortalama zamanın 11.5 dakika olduğu biliniyor. İşe alınan 10 işçinin bu mamulü üretim süreleri gözlemleniyor ve aşağıdaki sonuçlar elde ediliyor. %5 anlam düzeyinde yeni işe alınan işçilerin bu mamulü üretim süresinin eski işçilerden daha fazla olup olmadığını araştırınız. (İpucu: Bu soru için toplanan verilerin kendisi verilmiştir. Daha önceki örneklerde ve sorularda toplanan verilerden elde edilen ortalamalar veya standart sapmalar verilmişti.) 7- Yukarıdaki örnekte hangi test istatistiği kullanılmalıdır?

A) Z-testi

B) T-testi

C) G testi

D) Ki-kare

E) F testi

Cevap: B) T-testi

Açıklama: T-testi, küçük örneklem büyüklükleri ve bilinmeyen populasyon standart sapmaları için kullanılır.

#2. A firması tarafından üretilen ampullerden 80 adet seçilmiş ve ortalama 1258 saat çalıştığı görülmüştür. Ana kütleye ait standart sapma 94 saattir. B firması tarafından üretilen ampullerden 60 adet seçilmiş ve ortalama 1029 saat çalıştığı görülmüştür. Ana kütleye ait standart sapma 68 saattir. A firmasının ampul fiyatı daha fazla olduğu için bir test yapılacaktır. A firması tarafından üretilen ampullerin çalışma süresi, B firması tarafından üretilen ampullerin çalışma süresinden 200 saat fazlaysa, A firmasının ampulleri satın alınacaktır. ???????? = 0.011 için hangi firmanın ampullerinin satın alınacağını test ediniz. - Yukarıdaki örneğe göre kritik test istatistiği değeri kaçtır?

A) 2,58

B) 2,12

C) 1,96

D) 3,02

E) 2,33

Cevap: E) 2,33

Açıklama: Kritik test istatistiği değeri %1 anlamlılık düzeyinde 2,33’tür.

#3. Boyut azaltmanın avantajlarından hangisi doğrudur?

A) Model performansını azaltır

B) Veri işleme sürelerini kısaltır

C) Depolama alanı gereksinimlerini artırır

D) Gürültüyü artırır

E) Veri manipülasyonunu zorlaştırır

Cevap: B) Veri işleme sürelerini kısaltır

Açıklama: Boyut azaltma, veri işleme sürelerini kısaltarak analiz süreçlerini hızlandırır ve daha etkin hale getirir.

#4. Hangi kümeleme türü, veriyi kesinlikle örtüşmeyen alt kümelerine böler?

A) Hiyerarşik Kümeleme

B) Özel Kümeleme

C) Örtüşen Kümeleme

D) Bölütlenmiş Kümeleme

E) Bulanık Kümeleme

Cevap: D) Bölütlenmiş Kümeleme

Açıklama: Bölütlenmiş kümeleme, veriyi kesinlikle örtüşmeyen alt kümelere böler ve her nesne yalnızca bir kümeye ait olur.

#5. Hangi durumda Basit Fonksiyonel Dönüşümler veya Normalizasyon kullanılabilir?

A) Veri setindeki değişkenlerin sayısını artırmak için

B) Veri setindeki değişkenlerin değerlerini bozmak için

C) Veri setinin analizde daha anlamlı ve doğrusal bir şekle getirilmesi için

D) Veri setindeki değişkenlerin orijinal dağılımını korumak için

E) Veri setindeki değişkenlerin arasındaki ilişkiyi kesmek için

Cevap: C) Veri setinin analizde daha anlamlı ve doğrusal bir şekle getirilmesi için

Açıklama: Basit fonksiyonel dönüşümler ve normalizasyon, veri setini analizde daha anlamlı ve doğrusal bir şekle getirmek için kullanılır.

#6. Duygu analizi neyi amaçlar?

A) Metin verilerini sadece sayısal formata dönüştürmeyi

B) Pozitif, negatif veya nötr duygusal kategorilere ayırmayı

C) Sadece finansal verileri analiz etmeyi

D) Tokenizasyon işlemini gerçekleştirmeyi

E) Metin ön işleme adımını atlamayı

Cevap: B) Pozitif, negatif veya nötr duygusal kategorilere ayırmayı

Açıklama: Duygu analizi, metin verilerini pozitif, negatif veya nötr duygusal kategorilere ayırmayı amaçlar.

#7. Metin madenciliği hangi adımda gürültüyü azaltarak veri kalitesini artırmayı amaçlar?

A) Model oluşturma

B) Tokenizasyon

C) Özellik mühendisliği

D) Metin ön işleme

E) Doğal dil işleme

Cevap: D) Metin ön işleme

Açıklama: Metin ön işleme, metin madenciliği sürecinde gürültüyü azaltarak veri kalitesini artırmayı amaçlar. Bu adım, veriyi temizlemek ve analiz için hazırlamak için önemlidir.

#8. Aşağıdaki yöntemlerden hangileri özellik oluşturma (feature creation) için kullanılabilir? - I. Öznitelik oluşturma - II. Veriyi yeni bir uzaya eşleme - III. Öznitelik inşası

A) I-II

B) II-III

D) I-II-III

E) Yalnız I

Cevap: D) I-II-III

Açıklama: Öznitelik oluşturma, veriyi yeni bir uzaya eşleme ve öznitelik inşası, özellik oluşturma için kullanılan yöntemlerdir.

#9. Belli bir parçanın üretimi için gereken ortalama zamanın 11.5 dakika olduğu biliniyor. İşe alınan 10 işçinin bu mamulü üretim süreleri gözlemleniyor ve aşağıdaki sonuçlar elde ediliyor. %5 anlam düzeyinde yeni işe alınan işçilerin bu mamulü üretim süresinin eski işçilerden daha fazla olup olmadığını araştırınız. (İpucu: Bu soru için toplanan verilerin kendisi verilmiştir. Daha önceki örneklerde ve sorularda toplanan verilerden elde edilen ortalamalar veya standart sapmalar verilmişti.) - Yukarıdaki örneğe göre kritik test istatistiği değeri kaçtır?

A) 2,91

B) 3,19

C) 2,26

D) 1,83

E) 2,06

Cevap: D) 1,83

Açıklama: Kritik test istatistiği değeri %5 anlamlılık düzeyinde 1,83’tür.

#10. SOM'un (Kendi Kendini Düzenleyen Haritalar) avantajları nelerdir?

A) Aykırı değerleri temizleme yeteneği

B) Boyut azaltma özelliği

C) Sadece sayısal verilerle çalışabilme

D) Yalnızca küresel kümeleri tanıma

E) Epsilon parametresine bağlı olarak çalışma

Cevap: B) Boyut azaltma özelliği

Açıklama: SOM (Kendi Kendini Düzenleyen Haritalar), boyut azaltma özelliği ile öne çıkar ve yüksek boyutlu verileri düşük boyutlu haritalara indirger.

#11. Aşağıdakilerden hangisi birleştirme (aggregation) işleminin bir riskidir?

A) Veri kaynaklarının karmaşıklığının artması

B) Ölçeklerin değişmesi

C) Detaylardan bazılarının kaybolması

D) Veri boyutlarının artması

E) Hiçbiri

Cevap: C) Detaylardan bazılarının kaybolması

Açıklama: Birleştirme işlemi sırasında bazı detayların kaybolması riski vardır, bu da veri analizinde önemli bilgilere ulaşmayı zorlaştırabilir.

#12. A firması tarafından üretilen ampullerden 80 adet seçilmiş ve ortalama 1258 saat çalıştığı görülmüştür. Ana kütleye ait standart sapma 94 saattir. B firması tarafından üretilen ampullerden 60 adet seçilmiş ve ortalama 1029 saat çalıştığı görülmüştür. Ana kütleye ait standart sapma 68 saattir. A firmasının ampul fiyatı daha fazla olduğu için bir test yapılacaktır. A firması tarafından üretilen ampullerin çalışma süresi, B firması tarafından üretilen ampullerin çalışma süresinden 200 saat fazlaysa, A firmasının ampulleri satın alınacaktır. ???????? = 0.011 için hangi firmanın ampullerinin satın alınacağını test ediniz. - Yukarıdaki örnekte hangi test istatistiği kullanılmalıdır?

A) Z-testi

B) T-testi

C) G testi

D) Ki-kare

E) F testi

Cevap: A) Z-testi

Açıklama: Z-testi, büyük örneklem büyüklükleri ve bilinen populasyon standart sapmaları için kullanılır.

#13. Metin analitiği ile ilgili olarak aşağıdakilerden hangisi yanlıştır?

A) Yapılandırılmamış metinsel veriyi anlamak ve bilgi çıkarmayı hedefler.

B) Metin madenciliğini içinde barındırır.

C) Müşteri geri bildirimleri üzerinde etkili bir şekilde çalışır.

D) Nominal veri türleriyle sınırlıdır.

E) Metin verilerini anlamak için özel teknikleri içerir.

Cevap: D) Nominal veri türleriyle sınırlıdır.

Açıklama: Metin analitiği, yalnızca nominal veri türleriyle sınırlı değildir; yapılandırılmamış metinsel veriyi anlamak ve bilgi çıkarmak için çeşitli veri türlerini kullanır.

#14. Gizli anlam çözümlemesi (LSA) nedir?

A) Bir dilin kökenini inceleyen bir dilbilim teorisidir.

B) Bir metin kümesindeki ana fikirleri çıkarmak ve temsil etmek için kullanılan bir istatistiksel yöntemdir.

C) Bir belgenin anlamını yorumlamak için kullanılan bir dil işleme tekniğidir.

D) Yalnızca kelime frekansını değil, aynı zamanda metindeki yazım hatalarını düzeltir.

E) LSA, anlamsal olarak bağlantılı kelimeleri gruplandırmak için kullanılan bir semantik ağdır.

Cevap: B) Bir metin kümesindeki ana fikirleri çıkarmak ve temsil etmek için kullanılan bir istatistiksel yöntemdir.

Açıklama: Gizli anlam çözümlemesi (LSA), bir metin kümesindeki ana fikirleri çıkarmak ve temsil etmek için kullanılan bir istatistiksel yöntemdir.

#15. Yaşlı ve genç yetişkinler arasındaki algılanan yaşam doyumunun farklarını incelemek amacıyla bir araştırma yapılmıştır. 10 kişilik iki gruptan oluşan, 70 yaş üstü yaşlı yetişkinlere ve 20 – 30 yaş arası genç yetişkinlere yüksek güvenilirlik ve geçerliliği olduğu bilinen bir yaşam memnuniyeti testi verilmiştir. Ölçüm puanları 0 (en düşük) – 60 (en yüksek) arasındadır. Yaşlı yetişkinlerin verdiği puanların ortalaması 44.5 ve varyansı 75.39 iken genç yetişkinlerin verdiği puanların ortalaması 28.1 ve varyansı 72.99 olarak hesaplanmıştır. Yaşlı ve genç yetişkinler arasındaki ortalama yaşam memnuniyetinin farklı olduğu iddiasını %5 anlam düzeyinde test ediniz ve yorumlayınız. - Yukarıdaki örneğe göre hesaplanan test istatistiği değeri kaçtır?

A) 3,91

B) 3,59

C) 4,26

D) 3,02

E) 2,23

Cevap: C) 4,26

Açıklama: T-testi kullanılarak hesaplanan test istatistiği değeri 4,26’dir.

#16. Hangi kümeleme türünde nesneler sadece bir kümeye ait olabilir?

A) Bulanık Kümeleme

B) Hiyerarşik Kümeleme

C) Örtüşen Kümeleme

D) Özel Kümeleme

E) Bölütlenmiş Kümeleme

Cevap: D) Özel Kümeleme

Açıklama: Özel kümeleme, nesnelerin sadece bir kümeye ait olabileceği kümeleme türüdür. Bu, veri noktalarının birden fazla kümeye dahil olmaması anlamına gelir.

#17. DBSCAN algoritmasının öne çıkan özellikleri nelerdir?

A) Veri setinin ortalamasını hesaplamak

B) Aykırı değerleri saptama ve silme yeteneği

C) Matematiksel denklemleri çözme kabiliyeti

D) Yalnızca dışbükey (konveks) veri kümeleriyle çalışma

E) Epsilon ve minPts parametrelerine bağlı olarak yoğunluk tabanlı kümeleme

Cevap: B) Aykırı değerleri saptama ve silme yeteneği

Açıklama: DBSCAN algoritması, aykırı değerleri saptama ve silme yeteneği ile öne çıkar ve yoğunluk tabanlı kümeleme yapar.

#18. K-ortalamalar kümeleme yönteminde, merkezi prototip genellikle hangi tür veriler için kullanılır?

A) Nicel Veriler

B) Kategorik Veriler

C) Metin Verileri

D) Büyük veriler

E) Örnek veriler

Cevap: A) Nicel Veriler

Açıklama: K-ortalamalar kümeleme yönteminde, merkezi prototip genellikle nicel veriler için kullanılır, çünkü bu yöntem veri noktalarının aritmetik ortalamasını hesaplar.

#19. Kategorik bir özniteliğin ikili hale getirilmesinde aşağıdakilerden hangileri yanlıştır? - I. Veri özelliği sıralı ise, atama yaparken sıralamayı korumak gerekir - II. Kategorik değerleri ikili formata dönüştürürken 0 ve 1'leri istenilen şekilde atanabilir - III. Kategori sayısı kadar sütun oluşturmak gerekir

A) I-II

B) II-III

C) Yalnız II

D) Yalnız III

E) Hiçbiri

Cevap: D) Yalnız III

Açıklama: Kategorik bir özniteliğin ikili hale getirilmesinde, kategori sayısı kadar sütun oluşturmak gerekmez. Bu işlem, genellikle bir sıcak kodlama (one-hot encoding) yöntemi ile gerçekleştirilir.

#20. Metin madenciliği ile ilgili olarak hangisi yanlıştır?

A) Tokenizasyon metni belirli parçalara böler.

B) Özellik mühendisliği, metni sayısal formata dönüştürmek için özellikler ekler.

C) Model oluşturma, metni analiz etmek için kullanılan bir adımdır.

D) Doğal dil işlemede yapılanları kapsar.

E) Metin verilerini anlamak için özel teknikleri içermez.

Cevap: D) Doğal dil işlemede yapılanları kapsar.

Açıklama: Metin madenciliği, yapılandırılmamış metin verilerini analiz etmek ve bu verilerden anlamlı bilgileri çıkarmak için kullanılan bir tekniktir. Metin madenciliği adımları arasında metnin belirli parçalara bölünmesi (tokenizasyon), metin verilerinin sayısal formata dönüştürülmesi için özellikler eklenmesi (özellik mühendisliği) ve model oluşturma gibi işlemler yer alır. Doğal dil işleme (NLP) ise, metin madenciliğinin önemli bir bileşeni olarak kabul edilmekle birlikte, metin madenciliği doğrudan NLP’de yapılan tüm işlemleri kapsamaz. Bu nedenle, “Doğal dil işlemede yapılanları kapsar” ifadesi yanlıştır. Metin madenciliği, metin verilerini anlamak için özel teknikleri içerir ve bu teknikler, doğal dil işlemenin ötesine geçerek metin verilerinden anlamlı bilgileri çıkarmaya odaklanır

TESTi BiTiR, PUANINI GÖR

SONUÇ

İstanbul Üniversitesi Açık ve Uzaktan Eğitim Fakültesi (Auzef)
Açık Öğretim Fakültesi
Bölüm : Yönetim Bilişim Sistemleri Lisans
4. Sınıf Veri Madenciliği Bahar Dönemi
Auzef Veri Madenciliği Final Deneme Sınavı -7

HD Quiz powered by harmonic design

Auzef Veri Madenciliği Final Deneme Sınavı -7

İstanbul Üniversitesi Açık ve Uzaktan Eğitim Fakültesi (Auzef) Açık Öğretim Fakültesi Bölüm : Yönetim Bilişim Sistemleri Lisans 4. Sınıf Veri Madenciliği Bahar Dönemi Auzef Veri Madenciliği Final Deneme Sınavı -7

Auzef Veri Madenciliği Final Deneme Sınavı -7

Sınıflandırma Yöntemleri – Ünite 7

Sınıflandırma yöntemleri, veri madenciliği ve makine öğrenimi alanlarında, verileri belirli kategorilere veya sınıflara ayırmak için kullanılan tekniklerdir. Bu yöntemler, özellikle büyük veri setlerinde, verilerin anlaşılması ve öngörüler yapılması açısından önemli bir rol oynar. Bu makalede, sınıflandırma görevlerinin temel kavramları ve yaygın kullanılan yöntemler ele alınacaktır.

1. Sınıflandırma Görevi

Sınıflandırma, bir nesneyi veya veri noktasını belirli bir kategoriye atama işlemidir. Örneğin, e-postaların “spam” veya “spam değil” olarak sınıflandırılması, müşterilerin satın alma davranışlarının analiz edilmesi veya hastaların hastalık durumlarına göre sınıflandırılması gibi.

2. Sınıflandırma Teknikleri

Sınıflandırma teknikleri, çeşitli algoritmalar ve yöntemler kullanılarak uygulanabilir. En yaygın sınıflandırma tekniklerinden bazıları şunlardır:

Karar Ağaçları: Veri setini bölerek ve karar kuralları oluşturarak sınıflandırma yapan algoritmalardır. Karar ağaçları, kök düğüm, iç düğümler ve yaprak düğümleri içerir.

k-En Yakın Komşu (kNN): Bir veri noktasının sınıfını belirlemek için en yakın komşularının sınıflarına bakarak sınıflandırma yapar. Bu algoritma, komşuların çoğunluk oyunu kullanır.

Destek Vektör Makineleri (SVM): Veri noktalarını farklı sınıflara ayırmak için en uygun sınırı (hiper düzlemi) bulan algoritmalardır. SVM, özellikle yüksek boyutlu veri setlerinde etkilidir.

Lojistik Regresyon: Olasılık tahminleri yaparak veri noktalarını belirli sınıflara atar. Lojistik regresyon, ikili sınıflandırma problemlerinde yaygın olarak kullanılır.

Naive Bayes: Bayes teoremini kullanarak sınıflandırma yapan bir olasılık tabanlı algoritmadır. Naive Bayes, özellikle metin sınıflandırma görevlerinde etkilidir.

3. Performans Değerlendirme

Sınıflandırma modelinin performansını değerlendirmek için çeşitli metrikler kullanılır. Bu metrikler, modelin doğruluğunu ve etkinliğini ölçer:

Karışıklık Matrisi (Confusion Matrix): Modelin doğru ve yanlış sınıflandırmalarını özetler.

Doğruluk (Accuracy): Modelin doğru tahmin ettiği kayıtların toplam kayıtlar içindeki oranını ölçer.

Hassasiyet (Precision) ve Duyarlılık (Recall): Modelin doğruluğunu ve tamlığını ölçer. Hassasiyet, doğru pozitif tahminlerin tüm pozitif tahminlere oranını, duyarlılık ise doğru pozitif tahminlerin tüm gerçek pozitiflere oranını ifade eder.

F1 Skoru: Hassasiyet ve duyarlılığın harmonik ortalamasını alarak dengeyi sağlar ve modelin genel performansını değerlendirir.

4. Sınıflandırma Tekniklerinin Uygulama Alanları

Sınıflandırma teknikleri, birçok alanda geniş bir uygulama yelpazesine sahiptir:

Tıp ve Sağlık: Hastalık teşhisi ve tedavi sonuçlarının tahmini.

Finans: Kredi risk analizi ve müşteri sınıflandırması.

Pazarlama: Müşteri segmentasyonu ve hedefleme.

Güvenlik: Spam filtreleme ve dolandırıcılık tespiti.

Doğal Dil İşleme: Metin sınıflandırma ve duygu analizi.

Sonuç

Sınıflandırma yöntemleri, verileri anlamlandırma ve öngörülerde bulunma açısından kritik öneme sahiptir. Doğru sınıflandırma algoritmalarının seçilmesi ve uygulanması, karar verme süreçlerinde önemli bir rol oynar ve çeşitli alanlarda değerli bilgiler sağlar. Bu yöntemler, veri bilimciler ve analistler için güçlü araçlardır.

Auzef Veri Madenciliği Final Deneme Sınavı -7

Sınıflandırma Yöntemleri – Ünite 7

1- Sınıflandırma görevi nedir?

A) Bir nesneyi belirli bir kategoriye atama işlemi
B) Sayıları sıralama işlemi
C) Rastgele öznitelikleri seçme işlemi
D) Veri setini bölme işlemi
E) Örneklem çıkarma işlemi

Cevap: A) Bir nesneyi belirli bir kategoriye atama işlemi

Açıklama: Sınıflandırma, verileri belirli kategorilere ayırma işlemi olup, genellikle veri madenciliği ve makine öğrenimi alanında kullanılır.

2- Sınıflandırma teknikleri genellikle hangi tür veri kümeleri üzerinde etkilidir?

A) Sayısal veriler
B) Sıralı kategoriler
C) Metin verileri
D) İki kategorili veriler
E) Hiçbiri

Cevap: D) İki kategorili veriler

Açıklama: Sınıflandırma teknikleri, özellikle iki kategorili veriler üzerinde etkilidir, çünkü bu teknikler verileri belirli sınıflara ayırmayı amaçlar.

3- Sınıflandırma modelinin performansı nasıl değerlendirilir?

A) RMSE kullanılarak
B) Karışıklık matrisi ile
C) Doğruluk değeri ile
D) Ağırlıklandırma kullanılarak
E) Duyarlılık metriği ile

Cevap: B) Karışıklık matrisi ile

Açıklama: Karışıklık matrisi, sınıflandırma modelinin performansını değerlendirmek için kullanılır ve modelin doğru ve yanlış sınıflandırmalarını özetler.

4- Sınıflandırma teknikleri hangi durumda daha az etkili olabilir?

A) Dengesiz sınıfların olduğu veri kümelerinde
B) Sayısal veri kümelerinde
C) Küçük boyutlu veri setlerinde
D) Sıralı kategoriler içeren veri setlerinde
E) Hiçbiri

Cevap: D) Sıralı kategoriler içeren veri setlerinde

Açıklama: Sınıflandırma teknikleri, sıralı kategoriler içeren veri setlerinde daha az etkili olabilir, çünkü bu tür veri setlerinde sınıflar arasındaki sıralama bilgisi önemlidir.

5- Karar ağaçları hangi tür düğümleri içerir?

A) Sadece kök düğümler
B) Yaprak düğümleri ve iç düğümler
C) Sadece yaprak düğümleri
D) Sadece iç düğümler
E) Sadece son düğümler

Cevap: B) Yaprak düğümleri ve iç düğümler

Açıklama: Karar ağaçları, yaprak düğümleri ve iç düğümler içerir. Yaprak düğümleri, nihai sınıflandırma kararlarını temsil ederken, iç düğümler veri bölme kararlarını temsil eder.

6- Kosinüs mesafesi genellikle hangi tür veri kümesinde kullanılır?

A) Sayısal veriler
B) Metin verileri
C) Görüntü verileri
D) Sıralı kategoriler
E) Karmaşık yapıdaki veriler

Cevap: B) Metin verileri

Açıklama: Kosinüs mesafesi, metin verileri arasında benzerlik ölçmek için yaygın olarak kullanılır ve vektörlerin arasındaki açıyı ölçerek benzerlik derecesini belirler.

7- Performans metrikleri arasında doğruluk (accuracy) neyi ölçer?

A) Modelin eğitim süresini
B) Modelin karmaşıklığını
C) Modelin doğru tahmin ettiği kayıtların oranını
D) Modelin yanlış tahmin ettiği kayıtların oranını
E) Modelin genel başarı seviyesini

Cevap: C) Modelin doğru tahmin ettiği kayıtların oranını

Açıklama: Doğruluk (accuracy), modelin doğru tahmin ettiği kayıtların toplam kayıtlar içindeki oranını ölçer ve sınıflandırma modelinin performansını değerlendirir.

8- F1 skoru, neden hassasiyet ve duyarlılık metriklerinin harmonik ortalamasını kullanarak denge kurar?

A) Hassasiyet ve duyarlılık arasındaki doğrusal ilişkiyi vurgular.
B) Modelin yanlış pozitiflerine odaklanır, yanlış negatiflere dikkat etmez.
C) Hassasiyet ve duyarlılığın ortalamasını alarak dengeyi sağlar.
D) Yüksek F1 skoru, modelin sadece bir metriğe odaklandığını gösterir.
E) Modelin performansını değerlendirmek için uygun bir metrik değildir.

Cevap: C) Hassasiyet ve duyarlılığın ortalamasını alarak dengeyi sağlar.

Açıklama: F1 skoru, hassasiyet (precision) ve duyarlılık (recall) metriklerinin harmonik ortalamasını alarak denge kurar ve bu sayede modelin genel performansını daha dengeli bir şekilde değerlendirir.

9- kNN algoritmasının temel prensibi nedir?

A) Rastgele seçim yapma
B) Komşuların çoğunluk oyunu kullanma
C) Doğrusal regresyon uygulama
D) Ağırlıklandırma kullanma
E) Karar ağaçları oluşturma

Cevap: B) Komşuların çoğunluk oyunu kullanma

Açıklama: kNN (k-Nearest Neighbors) algoritması, bir veri noktasının sınıfını belirlerken en yakın komşularının çoğunluk oyunu kullanır. Bu komşuların sınıfları, yeni veri noktasının sınıfını belirler.

10- kNN’nin sınırlamalarından biri nedir?

A) Optimal k değerinin bulunması
B) Öklid Mesafesi’nin kullanımı
C) Dengesiz sınıfların etkisi
D) Çapraz doğrulama kullanımı
E) Karar ağaçları ile rekabet etme

Cevap: C) Dengesiz sınıfların etkisi

Açıklama: kNN algoritmasının sınırlamalarından biri, dengesiz sınıfların etkisidir. Bu durumda, azınlık sınıflar yeterince temsil edilmez ve bu da sınıflandırma performansını olumsuz etkiler.

Auzef Veri Madenciliği Final Deneme Sınavı -7

Yönetim Bilişim Sistemleri Lisans

Yönetim Bilişim Sistemleri Lisans

Auzef Yönetim Bilişim Sistemleri Lisans 4. Sınıf Bahar Dönemi Final Sınav Soruları ve Deneme Sınavları, 2024 Sınav Soruları

#3. Boyut azaltmanın avantajlarından hangisi doğrudur?

#4. Hangi kümeleme türü, veriyi kesinlikle örtüşmeyen alt kümelerine böler?

#5. Hangi durumda Basit Fonksiyonel Dönüşümler veya Normalizasyon kullanılabilir?

#6. Duygu analizi neyi amaçlar?

#7. Metin madenciliği hangi adımda gürültüyü azaltarak veri kalitesini artırmayı amaçlar?

#8. Aşağıdaki yöntemlerden hangileri özellik oluşturma (feature creation) için kullanılabilir? - I. Öznitelik oluşturma - II. Veriyi yeni bir uzaya eşleme - III. Öznitelik inşası

#10. SOM'un (Kendi Kendini Düzenleyen Haritalar) avantajları nelerdir?

#11. Aşağıdakilerden hangisi birleştirme (aggregation) işleminin bir riskidir?

#13. Metin analitiği ile ilgili olarak aşağıdakilerden hangisi yanlıştır?

#14. Gizli anlam çözümlemesi (LSA) nedir?

#16. Hangi kümeleme türünde nesneler sadece bir kümeye ait olabilir?

#17. DBSCAN algoritmasının öne çıkan özellikleri nelerdir?

#18. K-ortalamalar kümeleme yönteminde, merkezi prototip genellikle hangi tür veriler için kullanılır?

#20. Metin madenciliği ile ilgili olarak hangisi yanlıştır?

SONUÇ

Auzef Veri Madenciliği Final Deneme Sınavı -7

Auzef Veri Madenciliği Final Deneme Sınavı -7

Sınıflandırma Yöntemleri – Ünite 7

1. Sınıflandırma Görevi

2. Sınıflandırma Teknikleri

Sınıflandırma teknikleri, çeşitli algoritmalar ve yöntemler kullanılarak uygulanabilir. En yaygın sınıflandırma tekniklerinden bazıları şunlardır:

3. Performans Değerlendirme

Sınıflandırma modelinin performansını değerlendirmek için çeşitli metrikler kullanılır. Bu metrikler, modelin doğruluğunu ve etkinliğini ölçer:

4. Sınıflandırma Tekniklerinin Uygulama Alanları

Sınıflandırma teknikleri, birçok alanda geniş bir uygulama yelpazesine sahiptir:

Sonuç

Auzef Veri Madenciliği Final Deneme Sınavı -7

Sınıflandırma Yöntemleri – Ünite 7

1- Sınıflandırma görevi nedir?

2- Sınıflandırma teknikleri genellikle hangi tür veri kümeleri üzerinde etkilidir?

3- Sınıflandırma modelinin performansı nasıl değerlendirilir?

4- Sınıflandırma teknikleri hangi durumda daha az etkili olabilir?

5- Karar ağaçları hangi tür düğümleri içerir?

6- Kosinüs mesafesi genellikle hangi tür veri kümesinde kullanılır?

7- Performans metrikleri arasında doğruluk (accuracy) neyi ölçer?

8- F1 skoru, neden hassasiyet ve duyarlılık metriklerinin harmonik ortalamasını kullanarak denge kurar?

9- kNN algoritmasının temel prensibi nedir?

10- kNN’nin sınırlamalarından biri nedir?

Auzef Veri Madenciliği Final Deneme Sınavı -7

Editor