auzefVeri MadenciliğiYönetim Bilişim Sistemleri

Veri Madenciliği 2023-2024 Final Soruları

Veri Madenciliği 2023-2024 Final Soruları

#1. I={Şeker, Kalem, Un, Silgi, Su} kümesinde {Kalem, Silgi} ögelerinin seyrek öge kümesi olduğu durumda aşağıdakilerden hangisi sık öge kümesinde yer alır?

Cevap: C) {Şeker, Kalem, Su}

Açıklama: Seyrek öge kümesinde yer almayan diğer öge kümeleri sık öge kümesinde yer alabilir. Bu nedenle, {Şeker, Kalem, Su} sık öge kümesinde yer alır.

Soru, belirli bir öge kümesinde (I = {Şeker, Kalem, Un, Silgi, Su}) hangi öge kombinasyonlarının sık öge kümesinde yer alacağını sormaktadır. Sorunun çözümüne geçmeden önce “seyrek öge kümesi” ve “sık öge kümesi” kavramlarını kısaca açıklayalım:

Seyrek Öge Kümesi:

Destek değeri (frequency) belirli bir eşik değerin (threshold) altında olan öge kümeleridir. Yani, bu öge kümeleri veri setinde çok nadiren bulunurlar.

Sık Öge Kümesi:

Destek değeri belirli bir eşik değerin üzerinde olan öge kümeleridir. Yani, bu öge kümeleri veri setinde sıkça bulunurlar.

Verilen soruda {Kalem, Silgi} kümesinin seyrek olduğu belirtilmiştir. Bu durumda, {Kalem, Silgi} ikilisinin olduğu herhangi bir öge kümesi sık öge kümesi olamaz çünkü seyrek bir ögenin alt kümeleri de seyrektir.

Şıklara bakalım:

A) {Şeker, Kalem, Silgi}
B) {Kalem, Un, Silgi, Su}
C) {Şeker, Kalem, Su}
D) {Kalem, Su, Silgi}
E) {Şeker, Kalem, Un, Silgi}

Şıklar içinde {Kalem, Silgi} ikilisini içeren öge kümeleri şunlardır:

A) {Şeker, Kalem, Silgi}

B) {Kalem, Un, Silgi, Su}

D) {Kalem, Su, Silgi}

E) {Şeker, Kalem, Un, Silgi}

Bu şıklar seyrek öge kümesi olan {Kalem, Silgi} ikilisini içerdiği için sık öge kümesi olamazlar. Geriye kalan tek seçenek:

C) {Şeker, Kalem, Su}

Bu küme {Kalem, Silgi} içermediği için sık öge kümesi olabilir. Dolayısıyla, doğru cevap C şıkkıdır.

#2. Sıralı kategorilere sahip olan bir yanıt değişkeni için kullanılan lojistik regresyon türü aşağıdakilerden hangisidir?

Cevap: D) Ordinal lojistik regresyon

Açıklama: Sıralı kategorilere sahip olan bir yanıt değişkeni için ordinal lojistik regresyon kullanılır.

#3. Kendi kendini organize eden haritalar yönteminin hangi özelliği diğer yapay sinir ağlarından farklıdır?

Cevap: B) Rekabetçi öğrenmeyi uygular ve komşuluk fonksiyonu kullanır.

Açıklama: Kendi kendini organize eden haritalar, rekabetçi öğrenmeyi uygular ve komşuluk fonksiyonu kullanır.

#4. Aşağıdaki işlemlerden hangisi basit fonksiyonel dönüşümlere bir örnektir?

Cevap: B) Mutlak değer alma

Açıklama: Basit fonksiyonel dönüşümlerden biri mutlak değer almaktır.

#5. Metin madenciliği hangi ana konuya odaklanır?

Cevap: C) Metinsel veri kaynaklarından yeni ve faydalı bilgi keşfetme

Açıklama: Metin madenciliği, metinsel veri kaynaklarından yeni ve faydalı bilgi keşfetmeye odaklanır.

#6. Lojistik regresyonda en uygun eğriyi bulmak için aşağıdaki yöntemlerden hangisi kullanılır?

Cevap : A) En olası tahmin

#7. Aşağıdakilerden hangisi boyut azaltmanın avantajları ile ilgili doğru bir bilgidir?

Cevap: D) Veri işleme sürelerini kısaltır.

Açıklama: Boyut azaltmanın avantajlarından biri veri işleme sürelerini kısaltmasıdır.

#8. Birliktelik kuralı keşfi için kullanılan strateji aşağıdakilerden hangisidir?

Cevap: E) Sık öge kümesi üretimi ve kural üretimi

Açıklama: Birliktelik kuralı keşfi, sık öge kümesi üretimi ve kural üretimi stratejisi ile yapılır.

#9. Aşağıdakilerden hangisi binomial cevaplara örnektir?

Cevap: E) İşe alma veya almama kararı

Açıklama: Binomial cevaplar, iki olası sonuç arasında seçim yapılması gereken durumlardır, örneğin işe alma veya almama kararı.

#10. Aşağıdaki durumların hangisinde binomial lojistik regresyon kullanılır?

Cevap: A) İkili bir yanıt değişkeni için

Açıklama: Binomial lojistik regresyon, ikili bir yanıt değişkeni (örneğin, evet/hayır, doğru/yanlış) olduğunda kullanılır.

#11. Aşağıdakilerden hangisi bir sürekli değişken örneği olarak gösterilebilir?

Cevap: C) Bir otomobilin yakıt tüketimi

Açıklama: Bir otomobilin yakıt tüketimi, ölçülebilen ve sürekli bir değişken örneğidir.

#12. Prototip temelli bir küme nedir?

Cevap: D) Her bir nesnenin, kümenin tanımını yapan prototipe, diğer herhangi bir kümenin prototipi yerine daha yakın olduğu bir nesne kümesi

Açıklama: Prototip temelli bir küme, her bir nesnenin, kümenin tanımını yapan prototipe, diğer herhangi bir kümenin prototipi yerine daha yakın olduğu bir nesne kümesidir.

#13. Metin madenciliği ile ilgili hangi yöntem, metindeki her kelimenin bir vektör içinde temsil edildiği bir modeldir?

Cevap: B) Kelime gömme

Açıklama: Kelime gömme, metindeki her kelimenin bir vektör içinde temsil edildiği bir modeldir.

#14. Sigmoid fonksiyonunun S şeklindeki eğrisi neyi temsil eder?

Cevap: E) Doğrusal kombinasyonun çıktısının olasılıksal yorumunu

Açıklama: Sigmoid fonksiyonunun S şeklindeki eğrisi, doğrusal kombinasyonun çıktısının olasılıksal yorumunu temsil eder.

#15. K-ortalamalar algoritmasında küme merkezini hesaplamak için hangi yöntem kullanılır?

Cevap: B) Tüm veri noktalarının aritmetik ortalaması hesaplanır.

Açıklama: K-ortalamalar algoritmasında küme merkezi, tüm veri noktalarının aritmetik ortalaması hesaplanarak belirlenir.

#16. Bir sınıflandırma modeli ne amaçla kullanılır?

Cevap: A) Nesneleri farklı sınıflara ayırt etmek ve bilinmeyen kayıtların sınıflarını tahmin etmek için

Açıklama: Bir sınıflandırma modeli, nesneleri farklı sınıflara ayırt etmek ve bilinmeyen kayıtların sınıflarını tahmin etmek için kullanılır.

#17. I={Şeker, Kalem, Un, Silgi, Su} kümesinden oluşturulan {Şeker, Kalem, Un}→{Silgi} kuralı düşük güven oranlı bir kuralsa aşağıdaki kurallardan hangisi düşük oranlı bir kuraldır?

Cevap: C) {Şeker, Kalem}→{Un, Silgi}

Açıklama: {Şeker, Kalem, Un}→{Silgi} kuralı düşük güven oranlı bir kuralsa, benzer şekilde {Şeker, Kalem}→{Un, Silgi} kuralı da düşük güven oranlı olabilir.

Bir birliktelik kuralının güven oranı (confidence), bir kurala ait olan sağ tarafın, sol taraf ile birlikte ne kadar sıklıkta ortaya çıktığını belirtir. Yani, bir kural A → B şeklinde olduğunda, A’nın bulunduğu durumda B’nin de bulunma olasılığıdır.

Verilen kural {Şeker, Kalem, Un}→{Silgi} düşük güven oranlı bir kuralsa, {Şeker, Kalem, Un} birlikte bulunduğunda {Silgi}nin bulunma olasılığı düşüktür. Bu durumda, aynı ögeleri içeren ve benzer kombinasyonlara sahip kuralların da düşük güven oranlı olma olasılığı yüksektir.

Şimdi, her bir şıkkı değerlendirelim:

A) {Şeker, Silgi}→{Kalem, Un}
B) {Kalem, Silgi}→{Şeker, Un}
C) {Şeker, Kalem}→{Un, Silgi}
D) {Şeker, Kalem, Su}→{Un}
E) {Silgi}→{Şeker, Kalem, Un}

Düşük güven oranlı bir kuralı belirlemek için, özellikle {Şeker, Kalem, Un} içeren kurallara dikkat edelim. C şıkkındaki {Şeker, Kalem}→{Un, Silgi} kuralı bu duruma uygundur çünkü:

– {Şeker, Kalem} birlikte olduğunda, {Un} ve {Silgi}nin aynı anda bulunma olasılığı düşüktür.

– Özellikle {Şeker, Kalem, Un} kombinasyonunun {Silgi} ile düşük güven oranlı olması, {Şeker, Kalem} kombinasyonunun da {Un, Silgi} ile düşük güven oranlı olmasına işaret eder.

Diğer şıklara bakalım:

A) {Şeker, Silgi}→{Kalem, Un}: Bu kural, {Şeker} ve {Silgi}nin bir arada bulunma olasılığına dayandığı için doğrudan {Şeker, Kalem, Un} ile ilgili değildir.

B) {Kalem, Silgi}→{Şeker, Un}: {Kalem} ve {Silgi} birlikte bulunduğunda {Şeker} ve {Un}un bulunma olasılığı düşük olabilir ama doğrudan {Şeker, Kalem, Un} ile ilgili değildir.

D) {Şeker, Kalem, Su}→{Un}: {Şeker, Kalem, Su} kombinasyonu doğrudan {Şeker, Kalem, Un} kombinasyonuyla ilişkili değildir.

E) {Silgi}→{Şeker, Kalem, Un}: {Silgi}nin tek başına {Şeker, Kalem, Un} ile düşük güven oranlı olup olmadığı verilmiş bilgi ile net değildir.

Bu nedenle, en doğru cevap C şıkkıdır: {Şeker, Kalem}→{Un, Silgi}. Bu kural, verilen düşük güven oranlı kural ile en tutarlı olanıdır.

#18. K değeri çift bir sayı olarak belirlendiğinde bir K-NN algoritmasında ne gibi bir sorun ortaya çıkabilir?

Cevap: D) Eşit sayıda en yakın sınıfın oy kullanması durumunda karar verme belirsizleşir.

Açıklama: K değeri çift bir sayı olarak belirlendiğinde, eşit sayıda en yakın sınıfın oy kullanması durumunda karar verme belirsizleşir.

#19. Duygu analizi hangi soruya cevap vermeye çalışmaktadır?

Cevap: A) İnsanlar belirli bir konuda ne hissediyor?

Açıklama: Duygu analizi, insanların belirli bir konuda ne hissettiğini anlamaya çalışır.

#20. F1 skoru hangi metriklerin harmonik ortalamasıdır?

Cevap: E) Hassasiyet ve duyarlılık

Açıklama: F1 skoru, hassasiyet (precision) ve duyarlılık (recall) metriklerinin harmonik ortalamasıdır.

TESTi BiTiR, PUANINI GÖR

SONUÇ

-

İstanbul Üniversitesi Açık ve Uzaktan Eğitim Fakültesi (Auzef)
Açık Öğretim Fakültesi
Bölüm : Yönetim Bilişim Sistemleri Lisans
4. Sınıf  Veri Madenciliği Bahar Dönemi
Veri Madenciliği 2023-2024 Final Soruları

İstanbul Üniversitesi Açık ve Uzaktan Eğitim Fakültesi (Auzef)
Açık Öğretim Fakültesi
Bölüm : Yönetim Bilişim Sistemleri Lisans
4. Sınıf  Veri Madenciliği Bahar Dönemi
Veri Madenciliği 2023-2024 Final Soruları

Share your score!
Tweet your score!
Share to other

HD Quiz powered by harmonic design

Veri Madenciliği 2023-2024 Final Soruları

İstanbul Üniversitesi Açık ve Uzaktan Eğitim Fakültesi (Auzef)
Açık Öğretim Fakültesi
Bölüm : Yönetim Bilişim Sistemleri Lisans
4. Sınıf  Veri Madenciliği Bahar Dönemi
Veri Madenciliği 2023-2024 Final Soruları

Veri Madenciliği 2023-2024 Final Soruları

Veri Madenciliği

Veri madenciliği, büyük ve karmaşık veri kümelerinden anlamlı ve faydalı bilgilerin keşfedilmesini sağlayan bir süreçtir. Bu makalede, veri madenciliğinin temel kavramlarını ve çeşitli uygulama alanlarını ele alacağız. Amacımız, üniversite öğrencilerine veri madenciliği konusunda bilgi vermek ve bu alanda kullanılan bazı önemli teknikleri açıklamaktır.

Binomial Lojistik Regresyon ve Kullanım Alanları

Binomial lojistik regresyon, istatistik ve makine öğrenimi alanlarında sıklıkla kullanılan bir modelleme yöntemidir. Bu yöntem, özellikle ikili sonuçların (örneğin, evet/hayır, doğru/yanlış) tahmin edilmesi gereken durumlarda kullanılır. Örneğin, bir hastanın belirli bir hastalığa sahip olup olmadığını tahmin etmek için binomial lojistik regresyon kullanılabilir. Model, bağımsız değişkenler ile bağımlı değişken arasındaki ilişkiyi logaritmik olarak modelleyerek tahmin yapar.

Temel Kavramlar:

– Yanıt Değişkeni: İkili sonuç veren değişken.
– Bağımsız Değişkenler: Yanıt değişkenini tahmin etmek için kullanılan değişkenler.
– Logaritmik Dönüşüm: Modelin, veriler arasındaki ilişkiyi logaritmik bir fonksiyon olarak ele alması.

Lojistik Regresyonda En Uygun Eğriyi Bulma

Lojistik regresyonda en uygun eğriyi bulmak için “En Olası Tahmin” (Maximum Likelihood Estimation – MLE) yöntemi kullanılır. Bu yöntem, verilen veri kümesi için en olası parametre değerlerini bulmayı amaçlar. MLE, modelin parametrelerini optimize ederek gözlemlenen verilerin olasılığını maksimize eder.

Uygulama Alanları:

– Tıp: Hastalık teşhisi
– Pazarlama: Müşteri davranışlarının tahmini
– Finans: Risk analizi

K-Ortalamalar Algoritması

K-ortalamalar (K-means) algoritması, veri madenciliğinde sıkça kullanılan bir kümeleme yöntemidir. Bu algoritma, verileri önceden belirlenmiş K sayıda kümeye ayırır. Her küme, veri noktalarının aritmetik ortalaması alınarak belirlenen bir merkezle temsil edilir. Bu merkezler, kümelerin içindeki veri noktalarına olan uzaklıkları minimize edecek şekilde güncellenir.

Adımlar:

1- Başlangıç Küme Merkezlerini Seçme: İlk olarak rastgele K merkez seçilir.
2- Atama Adımı: Her veri noktası, en yakın merkeze atanır.
3- Güncelleme Adımı: Her kümenin merkezi, küme içindeki veri noktalarının aritmetik ortalaması alınarak güncellenir.
4- Tekrarlama: Atama ve güncelleme adımları, merkezler sabit kalana kadar tekrarlanır.

Uygulama Alanları:

– Müşteri Segmentasyonu: Farklı müşteri gruplarının belirlenmesi
– Görüntü Sıkıştırma: Görüntüdeki renklerin kümelenmesi
– Doküman Kümeleme: Benzer dokümanların gruplandırılması

Metin Madenciliği

Metin madenciliği, büyük metin veri setlerinden yeni ve faydalı bilgileri keşfetmeyi amaçlayan bir alandır. Bu alanda kullanılan yöntemler arasında doğal dil işleme (NLP), duygu analizi, ve kelime gömme modelleri bulunur.

Temel Yöntemler:

– Doğal Dil İşleme (NLP): Metin verisinin işlenmesi ve analizi.
– Duygu Analizi: Metinlerdeki duygusal tonun belirlenmesi.
– Kelime Gömme (Word Embedding): Metindeki her kelimenin bir vektör içinde temsil edilmesi.

Kelime Gömme Modelleri:

Kelime gömme, metindeki her kelimenin sayısal bir vektörle temsil edildiği bir modeldir. Bu yöntem, kelimeler arasındaki anlamsal ilişkileri matematiksel olarak ifade eder. Örneğin, “kral” ve “kraliçe” kelimeleri arasındaki ilişki, bu kelimelerin vektör temsilleri arasındaki matematiksel fark ile gösterilebilir.

Uygulama Alanları:

– Bilgi Geri Getirme: Arama motorları ve doküman arşivleri

– Öneri Sistemleri: Ürün veya içerik önerileri

– Duygu Analizi: Sosyal medya ve müşteri geri bildirimleri

Sınıflandırma Modelleri

Sınıflandırma, veri madenciliğinde sıkça kullanılan bir tekniktir ve nesneleri farklı sınıflara ayırmayı amaçlar. Sınıflandırma modelleri, bilinen verilerden öğrenerek bilinmeyen verilerin hangi sınıfa ait olduğunu tahmin eder.

Temel Kavramlar:

– Öznitelikler: Sınıflandırma için kullanılan veri özellikleri.
– Sınıf Etiketleri: Nesnelerin ait olabileceği kategoriler.
– Eğitim Verisi: Modelin öğrenmesi için kullanılan etiketli veri kümesi.

Uygulama Alanları:

– Spam Filtreleme: E-posta mesajlarının spam olup olmadığının belirlenmesi
– Hastalık Teşhisi: Tıbbi verilerden hastalık tahmini
– Finansal Tahmin: Müşteri kredi riskinin analizi

Boyut Azaltma ve Avantajları

Boyut azaltma, yüksek boyutlu veri kümelerinin boyutunu azaltarak analiz edilmesini kolaylaştıran bir tekniktir. Bu yöntem, verinin özünü koruyarak gereksiz özellikleri elimine eder.

Temel Yöntemler:

– Ana Bileşen Analizi (PCA): Verinin boyutunu, en yüksek varyansa sahip bileşenler üzerinden azaltır.
– Doğrusal Ayrıştırıcı Analiz (LDA): Boyut azaltma ve sınıflandırma için kullanılır.

Avantajları:

– Veri İşleme Sürelerinin Kısalması: Azaltılmış veri setleri daha hızlı işlenir.
– Görselleştirme Kolaylığı: Düşük boyutlu veriler daha kolay görselleştirilebilir.
– Model Performansının İyileşmesi: Gereksiz özelliklerin elimine edilmesi, modelin daha doğru tahminler yapmasını sağlar.

Sonuç

Veri madenciliği, modern dünyanın büyük veri sorunlarına çözümler sunan, geniş kapsamlı ve çok yönlü bir alandır. Üniversite öğrencileri için bu alandaki temel kavramları ve yöntemleri öğrenmek, kariyerlerinde önemli avantajlar sağlayabilir. Bu makalede ele aldığımız konular, veri madenciliğinin çeşitli uygulama alanlarında nasıl kullanıldığını ve hangi tekniklerin hangi durumlarda tercih edildiğini açıklamaktadır. Veri madenciliği hakkında daha fazla bilgi edinmek isteyen öğrenciler, bu temel bilgileri bir başlangıç noktası olarak kullanabilir ve daha derinlemesine araştırmalar yapabilir.

@lolonolo_com

Veri Madenciliği Soruları

1. Aşağıdaki durumların hangisinde binomial lojistik regresyon kullanılır?

A) İkili bir yanıt değişkeni için
B) Tahmin edici değişkenlerin doğrusal ilişkisi için
C) Sıralı kategorilere sahip olan yanıt değişkeni için
D) Heteroskedastisite gösteren hatalar için
E) İki veya daha fazla sınıf içeren yanıt değişkeni için

Cevap: A) İkili bir yanıt değişkeni için

Açıklama: Binomial lojistik regresyon, ikili bir yanıt değişkeni (örneğin, evet/hayır, doğru/yanlış) olduğunda kullanılır.

2. Lojistik regresyonda en uygun eğriyi bulmak için aşağıdaki yöntemlerden hangisi kullanılır?

A) En olası tahmin
B) Logaritmik dönüşüm
C) Gradyan inişi
D) En küçük kareler
E) S şeklindeki eğri

Cevap : A) En olası tahmin

Açıklama:

3. K-ortalamalar algoritmasında küme merkezini hesaplamak için hangi yöntem kullanılır?

A) Manhattan mesafesi kullanılarak belirlenir.
B) Tüm veri noktalarının aritmetik ortalaması hesaplanır.
C) Her veri noktasının en yakın merkeze olan uzaklıklarının toplamı alınır.
D) Her veri noktasının en yakın merkeze olan Öklidyen mesafesinin karesi alınır.
E) Kosinüs benzerliği kullanılarak belirlenir.

Cevap: B) Tüm veri noktalarının aritmetik ortalaması hesaplanır.

Açıklama: K-ortalamalar algoritmasında küme merkezi, tüm veri noktalarının aritmetik ortalaması hesaplanarak belirlenir.

4. Metin madenciliği hangi ana konuya odaklanır?

A) Kelime dağarcığı analizi
B) Enformasyon geri alma
C) Metinsel veri kaynaklarından yeni ve faydalı bilgi keşfetme
D) Doğal dil işleme
E) Duygu analizi

Cevap: C) Metinsel veri kaynaklarından yeni ve faydalı bilgi keşfetme

Açıklama: Metin madenciliği, metinsel veri kaynaklarından yeni ve faydalı bilgi keşfetmeye odaklanır.

5. Metin madenciliği ile ilgili hangi yöntem, metindeki her kelimenin bir vektör içinde temsil edildiği bir modeldir?

A) Enformasyon çıkarma
B) Kelime gömme
C) Kök çıkarma
D) Durak kelimeler
E) Terim frekansı-Ters belge frekansı (TF-IDF)

Cevap: B) Kelime gömme

Açıklama: Kelime gömme, metindeki her kelimenin bir vektör içinde temsil edildiği bir modeldir.

6. Aşağıdakilerden hangisi binomial cevaplara örnektir?

A) Şehirler arası mesafe ve seyahat süresi
B) Okul notları ve öğrenci katılımı
C) Doğal afetler ve etkilenen bölge sayısı
D) Ürünün fiyatı ve kalitesi
E) İşe alma veya almama kararı

Cevap: E) İşe alma veya almama kararı

Açıklama: Binomial cevaplar, iki olası sonuç arasında seçim yapılması gereken durumlardır, örneğin işe alma veya almama kararı.

7. Aşağıdaki işlemlerden hangisi basit fonksiyonel dönüşümlere bir örnektir?

A) Değişkenlerin orijinal dağılımını koruma
B) Mutlak değer alma
C) Değişkenlerin boyutunu azaltma
D) Değişkenler arasındaki korelasyonu analiz etme
E) Veri setindeki tüm değişkenleri alfabetik sıralama

Cevap: B) Mutlak değer alma

Açıklama: Basit fonksiyonel dönüşümlerden biri mutlak değer almaktır.

8. Aşağıdakilerden hangisi bir sürekli değişken örneği olarak gösterilebilir?

A) Bir öğrencinin sınav sonucu
B) Bir kişinin doğum tarihi
C) Bir otomobilin yakıt tüketimi
D) Bir restoranın haftalık ziyaretçi sayısı
E) Bir kitabın yayın tarihi

Cevap: C) Bir otomobilin yakıt tüketimi

Açıklama: Bir otomobilin yakıt tüketimi, ölçülebilen ve sürekli bir değişken örneğidir.

9. Kendi kendini organize eden haritalar yönteminin hangi özelliği diğer yapay sinir ağlarından farklıdır?

A) Hataları düzelterek öğrenir.
B) Rekabetçi öğrenmeyi uygular ve komşuluk fonksiyonu kullanır.
C) Gizli katmanlara sahiptir.
D) İleri beslemeli ağlardır.
E) Geri yayılım algoritmasını kullanır.

Cevap: B) Rekabetçi öğrenmeyi uygular ve komşuluk fonksiyonu kullanır.

Açıklama: Kendi kendini organize eden haritalar, rekabetçi öğrenmeyi uygular ve komşuluk fonksiyonu kullanır.

10. I={Şeker, Kalem, Un, Silgi, Su} kümesinde {Kalem, Silgi} ögelerinin seyrek öge kümesi olduğu durumda aşağıdakilerden hangisi sık öge kümesinde yer alır?

A) {Şeker, Kalem, Silgi}
B) {Kalem, Un, Silgi, Su}
C) {Şeker, Kalem, Su}
D) {Kalem, Su, Silgi}
E) {Şeker, Kalem, Un, Silgi}

Cevap: C) {Şeker, Kalem, Su}

Açıklama: Seyrek öge kümesinde yer almayan diğer öge kümeleri sık öge kümesinde yer alabilir. Bu nedenle, {Şeker, Kalem, Su} sık öge kümesinde yer alır.

Soru, belirli bir öge kümesinde (I = {Şeker, Kalem, Un, Silgi, Su}) hangi öge kombinasyonlarının sık öge kümesinde yer alacağını sormaktadır. Sorunun çözümüne geçmeden önce “seyrek öge kümesi” ve “sık öge kümesi” kavramlarını kısaca açıklayalım:

Seyrek Öge Kümesi:

Destek değeri (frequency) belirli bir eşik değerin (threshold) altında olan öge kümeleridir. Yani, bu öge kümeleri veri setinde çok nadiren bulunurlar.

Sık Öge Kümesi:

Destek değeri belirli bir eşik değerin üzerinde olan öge kümeleridir. Yani, bu öge kümeleri veri setinde sıkça bulunurlar.

Verilen soruda {Kalem, Silgi} kümesinin seyrek olduğu belirtilmiştir. Bu durumda, {Kalem, Silgi} ikilisinin olduğu herhangi bir öge kümesi sık öge kümesi olamaz çünkü seyrek bir ögenin alt kümeleri de seyrektir.

Şıklara bakalım:

A) {Şeker, Kalem, Silgi}
B) {Kalem, Un, Silgi, Su}
C) {Şeker, Kalem, Su}
D) {Kalem, Su, Silgi}
E) {Şeker, Kalem, Un, Silgi}

Şıklar içinde {Kalem, Silgi} ikilisini içeren öge kümeleri şunlardır:

A) {Şeker, Kalem, Silgi}

B) {Kalem, Un, Silgi, Su}

D) {Kalem, Su, Silgi}

E) {Şeker, Kalem, Un, Silgi}

Bu şıklar seyrek öge kümesi olan {Kalem, Silgi} ikilisini içerdiği için sık öge kümesi olamazlar. Geriye kalan tek seçenek:

C) {Şeker, Kalem, Su}

Bu küme {Kalem, Silgi} içermediği için sık öge kümesi olabilir. Dolayısıyla, doğru cevap C şıkkıdır.

11. Bir sınıflandırma modeli ne amaçla kullanılır?

A) Nesneleri farklı sınıflara ayırt etmek ve bilinmeyen kayıtların sınıflarını tahmin etmek için
B) Nesneleri farklı sınıflara ayırt etmek ve bilinmeyen kayıtlara yeni sınıflar bulmak için
C) Öznitelikleri özetlemek ve bu özniteliklerin bir müşterinin hangi sınıfa ait olduğunu açıklamak için
D) Öznitelikleri özetlemek ve bu özniteliklerin bir iris çiçeğinin hangi sınıfa ait olduğunu açıklamak için
E) Öznitelikleri özetlemek ve bu özniteliklerin bir galaksinin şekline göre sınıflandırılmasını açıklamak için

Cevap: A) Nesneleri farklı sınıflara ayırt etmek ve bilinmeyen kayıtların sınıflarını tahmin etmek için

Açıklama: Bir sınıflandırma modeli, nesneleri farklı sınıflara ayırt etmek ve bilinmeyen kayıtların sınıflarını tahmin etmek için kullanılır.

12. Duygu analizi hangi soruya cevap vermeye çalışmaktadır?

A) İnsanlar belirli bir konuda ne hissediyor?
B) Hangi ürün en pahalı?
C) Hangi insanlar duygusal yakınlık içinde?
D) Hangi ürün en çok beğeniliyor?
E) Hangi ürünler en çok satılıyor?

Cevap: A) İnsanlar belirli bir konuda ne hissediyor?

Açıklama: Duygu analizi, insanların belirli bir konuda ne hissettiğini anlamaya çalışır.

13. Birliktelik kuralı keşfi için kullanılan strateji aşağıdakilerden hangisidir?

A) Tüm olası kural için güveni hesaplamak
B) Tüm olası kural için destek ve güveni hesaplamak
C) Minimum destek eşiği belirlemek
D) Minimum destek ve minimum güven eşik değerlerini belirlemek
E) Sık öge kümesi üretimi ve kural üretimi

Cevap: E) Sık öge kümesi üretimi ve kural üretimi

Açıklama: Birliktelik kuralı keşfi, sık öge kümesi üretimi ve kural üretimi stratejisi ile yapılır.

14. F1 skoru hangi metriklerin harmonik ortalamasıdır?

A) Doğruluk, hassasiyet ve duyarlılık
B) Doğruluk ve güven
C) Doğruluk ve duyarlılık
D) Doğruluk ve hassasiyet
E) Hassasiyet ve duyarlılık

Cevap: E) Hassasiyet ve duyarlılık

Açıklama: F1 skoru, hassasiyet (precision) ve duyarlılık (recall) metriklerinin harmonik ortalamasıdır.

15. Sigmoid fonksiyonunun S şeklindeki eğrisi neyi temsil eder?

A) Doğrusal regresyonun sürekli değerlerini
B) Doğrusal kombinasyonun çıktısını
C) Negatif girdi değerlerini
D) Türevlenebilirlik özelliğini
E) Doğrusal kombinasyonun çıktısının olasılıksal yorumunu

Cevap: E) Doğrusal kombinasyonun çıktısının olasılıksal yorumunu

Açıklama: Sigmoid fonksiyonunun S şeklindeki eğrisi, doğrusal kombinasyonun çıktısının olasılıksal yorumunu temsil eder.

16. K değeri çift bir sayı olarak belirlendiğinde bir K-NN algoritmasında ne gibi bir sorun ortaya çıkabilir?

A) Modelin tahmin doğruluğu artar.
B) Küme sayısı belirsiz hâle gelir.
C) Modelin hesaplama yoğunluğu artar.
D) Eşit sayıda en yakın sınıfın oy kullanması durumunda karar verme belirsizleşir.
E) K değeri arttıkça modelin performansı azalır.

Cevap: D) Eşit sayıda en yakın sınıfın oy kullanması durumunda karar verme belirsizleşir.

Açıklama: K değeri çift bir sayı olarak belirlendiğinde, eşit sayıda en yakın sınıfın oy kullanması durumunda karar verme belirsizleşir.

17. Aşağıdakilerden hangisi boyut azaltmanın avantajları ile ilgili doğru bir bilgidir?

A) Depolama alanı gereksinimlerine ihtiyacı yoktur.
B) Veri manipülasyonuna ihtiyaç yoktur.
C) Gürültülü verileri artırarak kapsamlı analize imkân verir.
D) Veri işleme sürelerini kısaltır.
E) Model performansını sabit tutar.

Cevap: D) Veri işleme sürelerini kısaltır.

Açıklama: Boyut azaltmanın avantajlarından biri veri işleme sürelerini kısaltmasıdır.

18. I={Şeker, Kalem, Un, Silgi, Su} kümesinden oluşturulan {Şeker, Kalem, Un}→{Silgi} kuralı düşük güven oranlı bir kuralsa aşağıdaki kurallardan hangisi düşük oranlı bir kuraldır?

A) {Şeker, Silgi}→{Kalem, Un}
B) {Kalem, Silgi}→{Şeker, Un}
C) {Şeker, Kalem}→{Un, Silgi}
D) {Şeker, Kalem, Su}→{Un}
E) {Silgi}→{Şeker, Kalem, Un}

Cevap: C) {Şeker, Kalem}→{Un, Silgi}

Açıklama: {Şeker, Kalem, Un}→{Silgi} kuralı düşük güven oranlı bir kuralsa, benzer şekilde {Şeker, Kalem}→{Un, Silgi} kuralı da düşük güven oranlı olabilir.

Bir birliktelik kuralının güven oranı (confidence), bir kurala ait olan sağ tarafın, sol taraf ile birlikte ne kadar sıklıkta ortaya çıktığını belirtir. Yani, bir kural A → B şeklinde olduğunda, A’nın bulunduğu durumda B’nin de bulunma olasılığıdır.

Verilen kural {Şeker, Kalem, Un}→{Silgi} düşük güven oranlı bir kuralsa, {Şeker, Kalem, Un} birlikte bulunduğunda {Silgi}nin bulunma olasılığı düşüktür. Bu durumda, aynı ögeleri içeren ve benzer kombinasyonlara sahip kuralların da düşük güven oranlı olma olasılığı yüksektir.

Şimdi, her bir şıkkı değerlendirelim:

A) {Şeker, Silgi}→{Kalem, Un}
B) {Kalem, Silgi}→{Şeker, Un}
C) {Şeker, Kalem}→{Un, Silgi}
D) {Şeker, Kalem, Su}→{Un}
E) {Silgi}→{Şeker, Kalem, Un}

Düşük güven oranlı bir kuralı belirlemek için, özellikle {Şeker, Kalem, Un} içeren kurallara dikkat edelim. C şıkkındaki {Şeker, Kalem}→{Un, Silgi} kuralı bu duruma uygundur çünkü:

– {Şeker, Kalem} birlikte olduğunda, {Un} ve {Silgi}nin aynı anda bulunma olasılığı düşüktür.

– Özellikle {Şeker, Kalem, Un} kombinasyonunun {Silgi} ile düşük güven oranlı olması, {Şeker, Kalem} kombinasyonunun da {Un, Silgi} ile düşük güven oranlı olmasına işaret eder.

Diğer şıklara bakalım:

A) {Şeker, Silgi}→{Kalem, Un}: Bu kural, {Şeker} ve {Silgi}nin bir arada bulunma olasılığına dayandığı için doğrudan {Şeker, Kalem, Un} ile ilgili değildir.

B) {Kalem, Silgi}→{Şeker, Un}: {Kalem} ve {Silgi} birlikte bulunduğunda {Şeker} ve {Un}un bulunma olasılığı düşük olabilir ama doğrudan {Şeker, Kalem, Un} ile ilgili değildir.

D) {Şeker, Kalem, Su}→{Un}: {Şeker, Kalem, Su} kombinasyonu doğrudan {Şeker, Kalem, Un} kombinasyonuyla ilişkili değildir.

E) {Silgi}→{Şeker, Kalem, Un}: {Silgi}nin tek başına {Şeker, Kalem, Un} ile düşük güven oranlı olup olmadığı verilmiş bilgi ile net değildir.

Bu nedenle, en doğru cevap C şıkkıdır: {Şeker, Kalem}→{Un, Silgi}. Bu kural, verilen düşük güven oranlı kural ile en tutarlı olanıdır.

19. Prototip temelli bir küme nedir?

A) Her veri noktasının birden fazla kümeyle ilişkilendirilebileceği prototip bir model
B) Belirli bir belirsizlik düzeyinde birden fazla kümeye ait olabilecek bir model
C) Her bir veri noktasının tek elemanlı prototip kümelerine karşılık gelmesi
D) Her bir nesnenin, kümenin tanımını yapan prototipe, diğer herhangi bir kümenin prototipi yerine daha yakın olduğu bir nesne kümesi
E) Her bir nesnenin sadece bir kümeye ait olduğu bir model

Cevap: D) Her bir nesnenin, kümenin tanımını yapan prototipe, diğer herhangi bir kümenin prototipi yerine daha yakın olduğu bir nesne kümesi

Açıklama: Prototip temelli bir küme, her bir nesnenin, kümenin tanımını yapan prototipe, diğer herhangi bir kümenin prototipi yerine daha yakın olduğu bir nesne kümesidir.

20. Sıralı kategorilere sahip olan bir yanıt değişkeni için kullanılan lojistik regresyon türü aşağıdakilerden hangisidir?

A) Binomial lojistik regresyon
B) Poisson regresyon
C) Lineer regresyon
D) Ordinal lojistik regresyon
E) Multinomial lojistik regresyon

Cevap: D) Ordinal lojistik regresyon

Açıklama: Sıralı kategorilere sahip olan bir yanıt değişkeni için ordinal lojistik regresyon kullanılır.

Veri Madenciliği 2023-2024 Final Soruları

Yönetim Bilişim Sistemleri Lisans
Veri Madenciliği Yönetim Bilişim Sistemleri Lisans

Veri Madenciliği 2023-2024 Final Soruları

Yönetim Bilişim Sistemleri Lisans

Auzef Yönetim Bilişim Sistemleri Lisans 4. Sınıf Bahar Dönemi Final Soruları ve Deneme Sınavları, 2024 Sınav Soruları

Editor

Editör

error: Kopyalamaya Karşı Korumalıdır!