Veri Madenciliği Final Deneme Sınavı -3

Haziran 14, 2024

#1. Aşağıdakilerden hangisi birleştirme (aggregation) işleminin bir riskidir?

A) Veri kaynaklarının karmaşıklığının artması

B) Ölçeklerin değişmesi

C) Detaylardan bazılarının kaybolması

D) Veri boyutlarının artması

E) Hiçbiri

Cevap: C) Detaylardan bazılarının kaybolması

Açıklama: Birleştirme işlemi sırasında bazı detayların kaybolması riski vardır, bu da veri analizinde önemli bilgilere ulaşmayı zorlaştırabilir.

#2. A firması tarafından üretilen ampullerden 80 adet seçilmiş ve ortalama 1258 saat çalıştığı görülmüştür. Ana kütleye ait standart sapma 94 saattir. B firması tarafından üretilen ampullerden 60 adet seçilmiş ve ortalama 1029 saat çalıştığı görülmüştür. Ana kütleye ait standart sapma 68 saattir. A firmasının ampul fiyatı daha fazla olduğu için bir test yapılacaktır. A firması tarafından üretilen ampullerin çalışma süresi, B firması tarafından üretilen ampullerin çalışma süresinden 200 saat fazlaysa, A firmasının ampulleri satın alınacaktır. ???????? = 0.011 için hangi firmanın ampullerinin satın alınacağını test ediniz. - Yukarıdaki örneğe göre hesaplanan test istatistiği değeri kaçtır?

A) 2,58

B) 2,12

C) 1,96

D) 3,02

E) 2,33

Cevap: B) 2,12

Açıklama: Z-testi kullanılarak hesaplanan test istatistiği değeri 2,12’dir.

#3. Hangi durumda Basit Fonksiyonel Dönüşümler veya Normalizasyon kullanılabilir?

A) Veri setindeki değişkenlerin sayısını artırmak için

B) Veri setindeki değişkenlerin değerlerini bozmak için

C) Veri setinin analizde daha anlamlı ve doğrusal bir şekle getirilmesi için

D) Veri setindeki değişkenlerin orijinal dağılımını korumak için

E) Veri setindeki değişkenlerin arasındaki ilişkiyi kesmek için

Cevap: C) Veri setinin analizde daha anlamlı ve doğrusal bir şekle getirilmesi için

Açıklama: Basit fonksiyonel dönüşümler ve normalizasyon, veri setini analizde daha anlamlı ve doğrusal bir şekle getirmek için kullanılır.

#4. Destek tabanlı kesme neden önemlidir?

A) Tüm kuralları eler

B) Güveni artırır

C) Alt küme oluşturur

D) Kural kümesini bulur

E) Sık öge kümesini bulur

Cevap: E) Sık öge kümesini bulur

Açıklama: Destek tabanlı kesme, sık öge kümelerinin bulunmasında önemlidir. Yalnızca belirli bir destek eşiğinin üzerinde olan öge kümeleri sık öge kümeleri olarak kabul edilir.

#5. Lojistik regresyonda, çıktı değişkeni 0 ile 1 arasında olan olasılık değerini ifade eder. Eğer bir modelin hesapladığı olasılık değeri 0.7 ise, bu durum neyi öngörür?

A) Eşik değerin üzerinde olduğu için olayın gerçekleşme olasılığının yüksek olduğunu öngörür

B) Olayın hiç gerçekleşmeyeceğini öngörür

C) Modelin yanlış olduğunu gösterir

D) Modelin kararsız olduğunu gösterir

E) Eşik değerin altında olduğu için olayın gerçekleşme olasılığının düşük olduğunu öngörür

Cevap: A) Eşik değerin üzerinde olduğu için olayın gerçekleşme olasılığının yüksek olduğunu öngörür

Açıklama: Lojistik regresyonda, hesaplanan olasılık değeri belirli bir eşik değerin üzerinde ise, bu olayın gerçekleşme olasılığının yüksek olduğunu öngörür.

#6. Lojistik regresyonun doğrusal regresyondan farkı nedir?

A) Olasılık tahminlerini sağlaması

B) Kategorik değişkenlerin modellemesine uygun olmaması

C) Doğrusal fonksiyonlar kullanmaması

D) Lojistik ve taşıma alanında uygulanması

E) Doğrusal terimlerin eksik olması

Cevap: A) Olasılık tahminlerini sağlaması

Açıklama: Lojistik regresyon, olasılık tahminleri yapar ve bu nedenle ikili ve kategorik sonuçları modellemek için uygundur.

#7. Aday öge kümesi sayısını azaltma ve karşılaştırmaların sayısını azaltma işlemleri hangi amaç için yapılır?<

A) Gereksiz kuralları kesmek

B) Yüksek güvenli kurallar oluşturmak

C) Alt küme oluşturmak

D) Kurallar oluşturmak

E) Sık öge kümelerini oluşturmak

Cevap: E) Sık öge kümelerini oluşturmak

Açıklama: Aday öge kümesi sayısını ve karşılaştırmaların sayısını azaltma işlemleri, sık öge kümelerinin daha verimli bir şekilde bulunmasını sağlar.

#8. I = {a, b, c, d, e} kümesinden oluşturulan {a, b} → {d} kuralı düşük güven oranlı bir kuralsa aşağıdaki kurallardan hangisi düşük oranlı bir kuraldır?

A) {b} → {c}

B) {a} → {b}

C) {d} → {b}

D) {c} → {e}

E) {b} → {e}

Cevap: A) {b} → {c}

Açıklama: {a, b} → {d} kuralı düşük güven oranlı bir kuralsa, benzer şekilde {b} → {c} kuralı da düşük güven oranlı bir kural olabilir, çünkü aynı veri setinde benzer düşük güvenli ilişkiler ortaya çıkabilir.

#9. Yaşlı ve genç yetişkinler arasındaki algılanan yaşam doyumunun farklarını incelemek amacıyla bir araştırma yapılmıştır. 10 kişilik iki gruptan oluşan, 70 yaş üstü yaşlı yetişkinlere ve 20 – 30 yaş arası genç yetişkinlere yüksek güvenilirlik ve geçerliliği olduğu bilinen bir yaşam memnuniyeti testi verilmiştir. Ölçüm puanları 0 (en düşük) – 60 (en yüksek) arasındadır. Yaşlı yetişkinlerin verdiği puanların ortalaması 44.5 ve varyansı 75.39 iken genç yetişkinlerin verdiği puanların ortalaması 28.1 ve varyansı 72.99 olarak hesaplanmıştır. Yaşlı ve genç yetişkinler arasındaki ortalama yaşam memnuniyetinin farklı olduğu iddiasını %5 anlam düzeyinde test ediniz ve yorumlayınız. - Yukarıdaki örneğe göre kritik test istatistiği değeri kaçtır?

A) 3,91

B) 3,59

C) 4,26

D) 3,02

E) 2,23

Cevap: E) 2,23

Açıklama: Kritik test istatistiği değeri %5 anlamlılık düzeyinde 2,23’tür.

#10. Olasılıklar oranı neyi ifade eder?

A) Bir olayın gerçekleşmeme olasılığının gerçekleşme olasılığına oranı

B) Bir olayın gerçekleşme olasılığı

C) Tahmin edicideki bir birim değişiklikten sonraki olasılıkların orijinal olasılıklara oranı

D) Bir olayın gerçekleşme olasılığının gerçekleşmeme olasılığına oranı

E) İki bağımsız değişkenin gerçekleşme olasılıklarının oranı

Cevap: D) Bir olayın gerçekleşme olasılığının gerçekleşmeme olasılığına oranı

Açıklama: Olasılıklar oranı, bir olayın gerçekleşme olasılığının gerçekleşmeme olasılığına oranını ifade eder ve lojistik regresyonda önemli bir kavramdır.

#11. Hangi lojistik regresyon türü, "Kırmızı/Yeşil/Mavi" gibi sıralı kategorilere sahip bir yanıt değişkeni için kullanılır?

A) Binomial Lojistik Regresyon

B) Multinomial Lojistik Regresyon

C) Ordinal Lojistik Regresyon

D) Çoklu Değişkenli Lojistik Regresyon

E) Hiçbiri, sıralı kategorilere uygun bir regresyon türü yok

Cevap: B) Multinomial Lojistik Regresyon

Açıklama: Multinomial lojistik regresyon, sıralı olmayan kategorik sonuçlar için kullanılır, ancak sorudaki “Kırmızı/Yeşil/Mavi” gibi kategorilere sahip yanıt değişkeni için daha uygundur.

#12. Aşağıdaki ifadelerin hangileri yanlıştır? - I. Veri madenciliğinde hipotez testleri, elde edilen veri örüntülerinin istatistiksel olarak anlamlı olup olmadığını değerlendirir. - II. Hipotez testleri, değişkenler arasındaki ilişkilerin istatistiksel anlamlılığını değerlendirmek için kullanılabilir. - III. Hipotez testleri, veri madenciliğinde kullanılan algoritmaların doğruluğunu belirlemek için kullanılır.

A) I-II-III

B) Hepsi doğru

C) Yalnız III

D) I-II

E) II-III

Cevap: C) Yalnız III

Açıklama: Hipotez testleri, veri madenciliğinde kullanılan algoritmaların doğruluğunu belirlemek için kullanılmaz. Bu testler, değişkenler arasındaki ilişkilerin ve elde edilen veri örüntülerinin istatistiksel anlamlılığını değerlendirir.

#13. Bir birliktelik kuralının desteği nedir?

A) Bir kuralın ne sıklıkta uygulandığını

B) X'i içeren işlemlerde X ve Y ögelerinin ne sıklıkta göründüğünü

C) X ve Y ögelerini içeren işlemlerin ne sıklıkta göründüğünü

D) Bir öge setini içeren işlem sayısı

E) Veri setindeki işlem genişliği

Cevap: C) X ve Y ögelerini içeren işlemlerin ne sıklıkta göründüğünü

Açıklama: Bir kuralın desteği, kuralı içeren işlemlerin toplam işlem sayısına oranıdır ve kuralın ne kadar yaygın olduğunu gösterir.

#14. Yaşlı ve genç yetişkinler arasındaki algılanan yaşam doyumunun farklarını incelemek amacıyla bir araştırma yapılmıştır. 10 kişilik iki gruptan oluşan, 70 yaş üstü yaşlı yetişkinlere ve 20 – 30 yaş arası genç yetişkinlere yüksek güvenilirlik ve geçerliliği olduğu bilinen bir yaşam memnuniyeti testi verilmiştir. Ölçüm puanları 0 (en düşük) – 60 (en yüksek) arasındadır. Yaşlı yetişkinlerin verdiği puanların ortalaması 44.5 ve varyansı 75.39 iken genç yetişkinlerin verdiği puanların ortalaması 28.1 ve varyansı 72.99 olarak hesaplanmıştır. Yaşlı ve genç yetişkinler arasındaki ortalama yaşam memnuniyetinin farklı olduğu iddiasını %5 anlam düzeyinde test ediniz ve yorumlayınız. - Yukarıdaki örnekte hangi test istatistiği kullanılmalıdır?

A) Z-testi

B) T-testi

C) G testi

D) Ki-kare

E) F testi

Cevap: B) T-testi

Açıklama: T-testi, küçük örneklem büyüklükleri ve bilinmeyen populasyon standart sapmaları için kullanılır.

#15. Apriori prensibine göre, bir sık öge kümesinin alt kümeleri hakkında hangisi doğrudur?

A) Alt kümelerin hiçbiri sık olamaz

B) Sadece bir alt küme sık olabilir

C) Tüm alt kümeler sık olabilir

D) Yalnızca en büyük alt küme sık olabilir

E) Hiçbir alt küme sık olamaz

Cevap: C) Tüm alt kümeler sık olabilir

Açıklama: Apriori prensibine göre, bir sık öge kümesinin tüm alt kümeleri de sıktır. Bu, sık öge kümelerinin oluşturulmasında önemli bir temel oluşturur.

#16. Aşağıdaki yöntemlerden hangileri özellik oluşturma (feature creation) için kullanılabilir? - I. Öznitelik oluşturma - II. Veriyi yeni bir uzaya eşleme - III. Öznitelik inşası

A) I-II

B) II-III

D) I-II-III

E) Yalnız I

Cevap: D) I-II-III

Açıklama: Öznitelik oluşturma, veriyi yeni bir uzaya eşleme ve öznitelik inşası, özellik oluşturma için kullanılan yöntemlerdir.

#17. Kategorik bir özniteliğin ikili hale getirilmesinde aşağıdakilerden hangileri yanlıştır? - I. Veri özelliği sıralı ise, atama yaparken sıralamayı korumak gerekir - II. Kategorik değerleri ikili formata dönüştürürken 0 ve 1'leri istenilen şekilde atanabilir - III. Kategori sayısı kadar sütun oluşturmak gerekir

A) I-II

B) II-III

C) Yalnız II

D) Yalnız III

E) Hiçbiri

Cevap: D) Yalnız III

Açıklama: Kategorik bir özniteliğin ikili hale getirilmesinde, kategori sayısı kadar sütun oluşturmak gerekmez. Bu işlem, genellikle bir sıcak kodlama (one-hot encoding) yöntemi ile gerçekleştirilir.

#18. Lojistik regresyonda en uygun eğriyi bulmak için hangi yöntem kullanılır?

A) Ortalama Kareler Hatası

B) R-Kare

C) En Küçük Kareler Yöntemi

D) En Olası Tahmin Yöntemi

E) Doğrusal Dönüşüm

Cevap: D) En Olası Tahmin Yöntemi

Açıklama: Lojistik regresyonda en uygun eğriyi bulmak için En Olası Tahmin (Maximum Likelihood Estimation) yöntemi kullanılır.

#19. Belli bir parçanın üretimi için gereken ortalama zamanın 11.5 dakika olduğu biliniyor. İşe alınan 10 işçinin bu mamulü üretim süreleri gözlemleniyor ve aşağıdaki sonuçlar elde ediliyor. %5 anlam düzeyinde yeni işe alınan işçilerin bu mamulü üretim süresinin eski işçilerden daha fazla olup olmadığını araştırınız. (İpucu: Bu soru için toplanan verilerin kendisi verilmiştir. Daha önceki örneklerde ve sorularda toplanan verilerden elde edilen ortalamalar veya standart sapmalar verilmişti.) - Yukarıdaki örneğe göre hesaplanan test istatistiği değeri kaçtır?

A) 2,91

B) 3,19

C) 2,26

D) 1,83

E) 2,06

Cevap: E) 2,06

Açıklama: T-testi kullanılarak hesaplanan test istatistiği değeri 2,06’dır.

#20. Boyut azaltmanın avantajlarından hangisi doğrudur?

A) Model performansını azaltır

B) Veri işleme sürelerini kısaltır

C) Depolama alanı gereksinimlerini artırır

D) Gürültüyü artırır

E) Veri manipülasyonunu zorlaştırır

Cevap: B) Veri işleme sürelerini kısaltır

Açıklama: Boyut azaltma, veri işleme sürelerini kısaltarak analiz süreçlerini hızlandırır ve daha etkin hale getirir.

TESTi BiTiR, PUANINI GÖR

SONUÇ

İstanbul Üniversitesi Açık ve Uzaktan Eğitim Fakültesi (Auzef)
Açık Öğretim Fakültesi
Bölüm : Yönetim Bilişim Sistemleri Lisans
4. Sınıf Veri Madenciliği Bahar Dönemi
Veri Madenciliği Final Deneme Sınavı -3

HD Quiz powered by harmonic design

Veri Madenciliği Final Deneme Sınavı -3

İstanbul Üniversitesi Açık ve Uzaktan Eğitim Fakültesi (Auzef) Açık Öğretim Fakültesi Bölüm : Yönetim Bilişim Sistemleri Lisans 4. Sınıf Veri Madenciliği Bahar Dönemi Veri Madenciliği Final Deneme Sınavı -3

Veri Madenciliği Final Deneme Sınavı -3

Veri Keşfi ve Görselleştirme – Ünite 3

Veri Keşfi ve Görselleştirme

Veri keşfi ve görselleştirme, veri analizi sürecinin kritik aşamalarından biridir. Bu süreç, ham verilerin incelenmesi, anlamlı bilgiler elde edilmesi ve verilerin görsel temsil edilmesi yoluyla karar verme sürecine katkıda bulunur. Veri keşfi, verilerin özelliklerini anlamak, örüntüleri tespit etmek ve anormallikleri belirlemek için kullanılırken, veri görselleştirme bu bilgilerin anlaşılır bir şekilde sunulmasını sağlar.

1. Merkezi Eğilim Ölçüleri

Merkezi eğilim ölçüleri, veri setinin merkezi bir değer etrafında nasıl dağıldığını gösterir. En yaygın merkezi eğilim ölçüleri ortalama, medyan ve moddur:

Ortalama: Veri setindeki tüm değerlerin toplamının, değerlerin sayısına bölünmesiyle elde edilir. Aşırı değerler ortalamayı etkileyebilir.

Medyan: Veri setindeki ortanca değeri temsil eder. Aşırı değerlerden etkilenmez ve verilerin yarısını üstünde, yarısını altında bırakır.

Mod: Veri setinde en sık tekrar eden değerdir. Veri setinde birden fazla mod olabilir.

2. Yayılım Ölçüleri

Yayılım ölçüleri, veri setindeki değerlerin ne kadar geniş bir alana yayıldığını gösterir. En yaygın yayılım ölçüleri aralık, varyans ve standart sapmadır:

Aralık: Veri setindeki en büyük ve en küçük değer arasındaki farktır.

Varyans: Değerlerin ortalama etrafındaki dağılımını ölçer ve değerlerin ortalamadan ne kadar saptığını gösterir.

Standart Sapma: Varyansın kareköküdür ve veri setindeki değerlerin ortalama etrafında ne kadar dağıldığını gösterir.

3. Görselleştirme Teknikleri

Veri görselleştirme, verilerin grafikler ve diğer görsel araçlar kullanılarak temsil edilmesidir. Yaygın görselleştirme teknikleri şunlardır:

Histogram: Veri setindeki değerlerin frekans dağılımını göstermek için kullanılır. Veriler belirli aralıklara bölünerek sütun grafiği şeklinde gösterilir.

Kutu Grafiği (Box Plot): Veri setindeki çeyreklikleri, medyanı ve olası aykırı değerleri görsel olarak temsil eder.

Pasta Grafiği: Kategorik verilerin oranlarını ve yüzdelerini görsel olarak temsil eder. Her dilim, toplamın belirli bir yüzdesini temsil eder.

Saçılım Grafiği (Scatter Plot): İki değişken arasındaki ilişkiyi görsel olarak göstermek için kullanılır. Noktalar, iki değişkenin değerlerine göre konumlandırılır.

Kök ve Yaprak Diyagramı: Sürekli verilerin dağılımını ve frekansını göstermek için kullanılır.

4. Veri Görselleştirmenin Önemi

Veri görselleştirme, karmaşık verilerin anlaşılmasını kolaylaştırır ve verilerdeki örüntüleri, trendleri ve anormallikleri hızlı bir şekilde tespit etmeyi sağlar. Ayrıca, görselleştirmeler, verilerin daha etkili bir şekilde sunulmasına yardımcı olur ve karar verme sürecinde önemli bir rol oynar.

Sonuç olarak, veri keşfi ve görselleştirme, veri analizi sürecinin ayrılmaz bir parçasıdır ve verilerin anlamlandırılmasında, yorumlanmasında ve sunulmasında kritik bir rol oynar. Bu süreçler, verilerin daha etkili bir şekilde kullanılmasını ve karar verme süreçlerinin iyileştirilmesini sağlar.

Veri Madenciliği Final Deneme Sınavı -3

Veri Keşfi ve Görselleştirme – Ünite 3

1- Veri setinde en sık tekrar eden değeri ifade eden istatistik hangisidir?

A) Ortalama
B) Standart Sapma
C) Medyan
D) Mod
E) Varyans

Cevap: D) Mod

Açıklama: Mod, veri setinde en sık tekrar eden değeri ifade eder ve veri dağılımında tepe noktasını temsil eder.

2- Veri setindeki değerlerin yarısından fazlasını/ortasını belirten istatistik hangisidir?

A) Ortalama
B) Standart Sapma
C) Medyan
D) Mod
E) Aralık

Cevap: C) Medyan

Açıklama: Medyan, veri setindeki değerlerin ortasını belirten ve veri setini iki eşit parçaya bölen istatistiktir.

3- Veri setindeki en büyük ve en küçük değer arasındaki farkı gösteren istatistik hangisidir?

A) Mod
B) Aralık
C) Medyan
D) Ortalama
E) Standart Sapma

Cevap: B) Aralık

Açıklama: Aralık, veri setindeki en büyük ve en küçük değer arasındaki farkı ifade eder ve veri dağılımının genişliğini gösterir.

4- Veri setindeki değerlerin ortalama etrafındaki yayılımı ölçen istatistik hangisidir?

A) Medyan
B) Varyans
C) Mod
D) Aralık
E) Standart Sapma

Cevap: B) Varyans

Açıklama: Varyans, veri setindeki değerlerin ortalama etrafındaki yayılımını ölçer ve değerlerin ne kadar dağıldığını gösterir.

5- Aşırı değerlerin bulunduğu bir veri setinde hangi merkezi eğilim ölçüsü, genellikle yanıltıcı olabilir?

A) Mod
B) Medyan
C) Standart Sapma
D) Varyans
E) Aralık

Cevap: B) Medyan

Açıklama: Aşırı değerlerin bulunduğu bir veri setinde, medyan merkezi eğilim ölçüsü olarak genellikle yanıltıcı olabilir, çünkü aşırı değerler medyanı etkileyebilir.

6- Kök ve yaprak diyagramı hangi amaçla kullanılır?

A) İki değişken arasındaki ilişkiyi göstermek için
B) Sürekli verilerin dağılımını göstermek için
C) Aşırı değerleri belirlemek için
D) Veri setinin merkezi eğilimini göstermek için
E) Kategorik verilerin oransal dağılımını göstermek için

Cevap: B) Sürekli verilerin dağılımını göstermek için

Açıklama: Kök ve yaprak diyagramı, sürekli verilerin dağılımını ve veri setindeki bireysel değerlerin frekansını görselleştirmek için kullanılır.

7- Histogram hangi veri özelliklerini göstermek için kullanılır?

A) Belli bir aralıktaki dağılım
B) Medyan
C) Çeyreklikler
D) Aykırı değerler
E) Ortalama

Cevap: A) Belli bir aralıktaki dağılım

Açıklama: Histogram, veri setindeki değerlerin belli bir aralıktaki dağılımını göstermek için kullanılır ve frekans dağılımını görselleştirir.

8- Kutu grafiği hangi istatistikleri görsel olarak temsil eder?

A) Oransal dağılım
B) Standart Sapma
C) Çeyreklikler
D) Medyan
E) Varyans

Cevap: C) Çeyreklikler

Açıklama: Kutu grafiği, veri setindeki çeyreklikleri, medyanı ve olası aykırı değerleri görsel olarak temsil eder.

9- Pasta grafiği hangi tür verilerin görsel analizi için kullanılır?

A) Sürekli veriler
B) Kategorik veriler
C) Dağılım verileri
D) Aritmetik veriler
E) Her tür veri

Cevap: B) Kategorik veriler

Açıklama: Pasta grafiği, kategorik verilerin oranlarını ve yüzdelerini görsel olarak temsil etmek için kullanılır.

10- Saçılım grafiği hangi tür ilişkileri görsel olarak göstermek için kullanılır?

A) Lineer ilişkiler
B) Kategorik ilişkiler
C) Karmaşık ilişkiler
D) İki değişken arasındaki ilişkiler
E) Eşzamanlı ilişkiler

Cevap: D) İki değişken arasındaki ilişkiler

Açıklama: Saçılım grafiği, iki değişken arasındaki ilişkileri ve bu ilişkinin yönünü ve gücünü görsel olarak göstermek için kullanılır.

Veri Madenciliği Final Deneme Sınavı -3

Yönetim Bilişim Sistemleri Lisans

Yönetim Bilişim Sistemleri Lisans

Auzef Yönetim Bilişim Sistemleri Lisans 4. Sınıf Bahar Dönemi Final Sınav Soruları ve Deneme Sınavları, 2024 Sınav Soruları

#1. Aşağıdakilerden hangisi birleştirme (aggregation) işleminin bir riskidir?

#3. Hangi durumda Basit Fonksiyonel Dönüşümler veya Normalizasyon kullanılabilir?

#4. Destek tabanlı kesme neden önemlidir?

#5. Lojistik regresyonda, çıktı değişkeni 0 ile 1 arasında olan olasılık değerini ifade eder. Eğer bir modelin hesapladığı olasılık değeri 0.7 ise, bu durum neyi öngörür?

#6. Lojistik regresyonun doğrusal regresyondan farkı nedir?

#7. Aday öge kümesi sayısını azaltma ve karşılaştırmaların sayısını azaltma işlemleri hangi amaç için yapılır?<

#8. I = {a, b, c, d, e} kümesinden oluşturulan {a, b} → {d} kuralı düşük güven oranlı bir kuralsa aşağıdaki kurallardan hangisi düşük oranlı bir kuraldır?

#10. Olasılıklar oranı neyi ifade eder?

#11. Hangi lojistik regresyon türü, "Kırmızı/Yeşil/Mavi" gibi sıralı kategorilere sahip bir yanıt değişkeni için kullanılır?

#13. Bir birliktelik kuralının desteği nedir?

#15. Apriori prensibine göre, bir sık öge kümesinin alt kümeleri hakkında hangisi doğrudur?

#16. Aşağıdaki yöntemlerden hangileri özellik oluşturma (feature creation) için kullanılabilir? - I. Öznitelik oluşturma - II. Veriyi yeni bir uzaya eşleme - III. Öznitelik inşası

#18. Lojistik regresyonda en uygun eğriyi bulmak için hangi yöntem kullanılır?

#20. Boyut azaltmanın avantajlarından hangisi doğrudur?

SONUÇ

Veri Madenciliği Final Deneme Sınavı -3

Veri Madenciliği Final Deneme Sınavı -3

Veri Keşfi ve Görselleştirme – Ünite 3

1. Merkezi Eğilim Ölçüleri

2. Yayılım Ölçüleri

3. Görselleştirme Teknikleri

4. Veri Görselleştirmenin Önemi

Veri Madenciliği Final Deneme Sınavı -3

Veri Keşfi ve Görselleştirme – Ünite 3

1- Veri setinde en sık tekrar eden değeri ifade eden istatistik hangisidir?

2- Veri setindeki değerlerin yarısından fazlasını/ortasını belirten istatistik hangisidir?

3- Veri setindeki en büyük ve en küçük değer arasındaki farkı gösteren istatistik hangisidir?

4- Veri setindeki değerlerin ortalama etrafındaki yayılımı ölçen istatistik hangisidir?

5- Aşırı değerlerin bulunduğu bir veri setinde hangi merkezi eğilim ölçüsü, genellikle yanıltıcı olabilir?

6- Kök ve yaprak diyagramı hangi amaçla kullanılır?

7- Histogram hangi veri özelliklerini göstermek için kullanılır?

8- Kutu grafiği hangi istatistikleri görsel olarak temsil eder?

9- Pasta grafiği hangi tür verilerin görsel analizi için kullanılır?

10- Saçılım grafiği hangi tür ilişkileri görsel olarak göstermek için kullanılır?

Veri Madenciliği Final Deneme Sınavı -3

Editor