auzefVeri MadenciliğiYönetim Bilişim Sistemleri

Veri Madenciliği Final Deneme Sınavı -3

Veri Madenciliği Final Deneme Sınavı -3

#1. Lojistik regresyonda, çıktı değişkeni 0 ile 1 arasında olan olasılık değerini ifade eder. Eğer bir modelin hesapladığı olasılık değeri 0.7 ise, bu durum neyi öngörür?

Cevap: A) Eşik değerin üzerinde olduğu için olayın gerçekleşme olasılığının yüksek olduğunu öngörür

Açıklama: Lojistik regresyonda, hesaplanan olasılık değeri belirli bir eşik değerin üzerinde ise, bu olayın gerçekleşme olasılığının yüksek olduğunu öngörür.

#2. Hangi durumda Basit Fonksiyonel Dönüşümler veya Normalizasyon kullanılabilir?

Cevap: C) Veri setinin analizde daha anlamlı ve doğrusal bir şekle getirilmesi için

Açıklama: Basit fonksiyonel dönüşümler ve normalizasyon, veri setini analizde daha anlamlı ve doğrusal bir şekle getirmek için kullanılır.

#3. A firması tarafından üretilen ampullerden 80 adet seçilmiş ve ortalama 1258 saat çalıştığı görülmüştür. Ana kütleye ait standart sapma 94 saattir. B firması tarafından üretilen ampullerden 60 adet seçilmiş ve ortalama 1029 saat çalıştığı görülmüştür. Ana kütleye ait standart sapma 68 saattir. A firmasının ampul fiyatı daha fazla olduğu için bir test yapılacaktır. A firması tarafından üretilen ampullerin çalışma süresi, B firması tarafından üretilen ampullerin çalışma süresinden 200 saat fazlaysa, A firmasının ampulleri satın alınacaktır. 𝛼𝛼 = 0.011 için hangi firmanın ampullerinin satın alınacağını test ediniz. - Yukarıdaki örneğe göre hesaplanan test istatistiği değeri kaçtır?

Cevap: B) 2,12

Açıklama: Z-testi kullanılarak hesaplanan test istatistiği değeri 2,12’dir.

#4. Aşağıdakilerden hangisi birleştirme (aggregation) işleminin bir riskidir?

Cevap: C) Detaylardan bazılarının kaybolması

Açıklama: Birleştirme işlemi sırasında bazı detayların kaybolması riski vardır, bu da veri analizinde önemli bilgilere ulaşmayı zorlaştırabilir.

#5. Lojistik regresyonun doğrusal regresyondan farkı nedir?

Cevap: A) Olasılık tahminlerini sağlaması

Açıklama: Lojistik regresyon, olasılık tahminleri yapar ve bu nedenle ikili ve kategorik sonuçları modellemek için uygundur.

#6. Belli bir parçanın üretimi için gereken ortalama zamanın 11.5 dakika olduğu biliniyor. İşe alınan 10 işçinin bu mamulü üretim süreleri gözlemleniyor ve aşağıdaki sonuçlar elde ediliyor. %5 anlam düzeyinde yeni işe alınan işçilerin bu mamulü üretim süresinin eski işçilerden daha fazla olup olmadığını araştırınız. (İpucu: Bu soru için toplanan verilerin kendisi verilmiştir. Daha önceki örneklerde ve sorularda toplanan verilerden elde edilen ortalamalar veya standart sapmalar verilmişti.) - Yukarıdaki örneğe göre hesaplanan test istatistiği değeri kaçtır?

Cevap: E) 2,06

Açıklama: T-testi kullanılarak hesaplanan test istatistiği değeri 2,06’dır.

#7. Hangi lojistik regresyon türü, "Kırmızı/Yeşil/Mavi" gibi sıralı kategorilere sahip bir yanıt değişkeni için kullanılır?

Cevap: B) Multinomial Lojistik Regresyon

Açıklama: Multinomial lojistik regresyon, sıralı olmayan kategorik sonuçlar için kullanılır, ancak sorudaki “Kırmızı/Yeşil/Mavi” gibi kategorilere sahip yanıt değişkeni için daha uygundur.

#8. Bir birliktelik kuralının desteği nedir?

Cevap: C) X ve Y ögelerini içeren işlemlerin ne sıklıkta göründüğünü

Açıklama: Bir kuralın desteği, kuralı içeren işlemlerin toplam işlem sayısına oranıdır ve kuralın ne kadar yaygın olduğunu gösterir.

#9. Yaşlı ve genç yetişkinler arasındaki algılanan yaşam doyumunun farklarını incelemek amacıyla bir araştırma yapılmıştır. 10 kişilik iki gruptan oluşan, 70 yaş üstü yaşlı yetişkinlere ve 20 – 30 yaş arası genç yetişkinlere yüksek güvenilirlik ve geçerliliği olduğu bilinen bir yaşam memnuniyeti testi verilmiştir. Ölçüm puanları 0 (en düşük) – 60 (en yüksek) arasındadır. Yaşlı yetişkinlerin verdiği puanların ortalaması 44.5 ve varyansı 75.39 iken genç yetişkinlerin verdiği puanların ortalaması 28.1 ve varyansı 72.99 olarak hesaplanmıştır. Yaşlı ve genç yetişkinler arasındaki ortalama yaşam memnuniyetinin farklı olduğu iddiasını %5 anlam düzeyinde test ediniz ve yorumlayınız. - Yukarıdaki örnekte hangi test istatistiği kullanılmalıdır?

Cevap: B) T-testi

Açıklama: T-testi, küçük örneklem büyüklükleri ve bilinmeyen populasyon standart sapmaları için kullanılır.

#10. Yaşlı ve genç yetişkinler arasındaki algılanan yaşam doyumunun farklarını incelemek amacıyla bir araştırma yapılmıştır. 10 kişilik iki gruptan oluşan, 70 yaş üstü yaşlı yetişkinlere ve 20 – 30 yaş arası genç yetişkinlere yüksek güvenilirlik ve geçerliliği olduğu bilinen bir yaşam memnuniyeti testi verilmiştir. Ölçüm puanları 0 (en düşük) – 60 (en yüksek) arasındadır. Yaşlı yetişkinlerin verdiği puanların ortalaması 44.5 ve varyansı 75.39 iken genç yetişkinlerin verdiği puanların ortalaması 28.1 ve varyansı 72.99 olarak hesaplanmıştır. Yaşlı ve genç yetişkinler arasındaki ortalama yaşam memnuniyetinin farklı olduğu iddiasını %5 anlam düzeyinde test ediniz ve yorumlayınız. - Yukarıdaki örneğe göre kritik test istatistiği değeri kaçtır?

Cevap: E) 2,23

Açıklama: Kritik test istatistiği değeri %5 anlamlılık düzeyinde 2,23’tür.

#11. Aşağıdaki yöntemlerden hangileri özellik oluşturma (feature creation) için kullanılabilir? - I. Öznitelik oluşturma - II. Veriyi yeni bir uzaya eşleme - III. Öznitelik inşası

Cevap: D) I-II-III

Açıklama: Öznitelik oluşturma, veriyi yeni bir uzaya eşleme ve öznitelik inşası, özellik oluşturma için kullanılan yöntemlerdir.

#12. Aşağıdaki ifadelerin hangileri yanlıştır? - I. Veri madenciliğinde hipotez testleri, elde edilen veri örüntülerinin istatistiksel olarak anlamlı olup olmadığını değerlendirir. - II. Hipotez testleri, değişkenler arasındaki ilişkilerin istatistiksel anlamlılığını değerlendirmek için kullanılabilir. - III. Hipotez testleri, veri madenciliğinde kullanılan algoritmaların doğruluğunu belirlemek için kullanılır.

Cevap: C) Yalnız III

Açıklama: Hipotez testleri, veri madenciliğinde kullanılan algoritmaların doğruluğunu belirlemek için kullanılmaz. Bu testler, değişkenler arasındaki ilişkilerin ve elde edilen veri örüntülerinin istatistiksel anlamlılığını değerlendirir.

#13. Olasılıklar oranı neyi ifade eder?

Cevap: D) Bir olayın gerçekleşme olasılığının gerçekleşmeme olasılığına oranı

Açıklama: Olasılıklar oranı, bir olayın gerçekleşme olasılığının gerçekleşmeme olasılığına oranını ifade eder ve lojistik regresyonda önemli bir kavramdır.

#14. Boyut azaltmanın avantajlarından hangisi doğrudur?

Cevap: B) Veri işleme sürelerini kısaltır

Açıklama: Boyut azaltma, veri işleme sürelerini kısaltarak analiz süreçlerini hızlandırır ve daha etkin hale getirir.

#15. Kategorik bir özniteliğin ikili hale getirilmesinde aşağıdakilerden hangileri yanlıştır? - I. Veri özelliği sıralı ise, atama yaparken sıralamayı korumak gerekir - II. Kategorik değerleri ikili formata dönüştürürken 0 ve 1'leri istenilen şekilde atanabilir - III. Kategori sayısı kadar sütun oluşturmak gerekir

Cevap: D) Yalnız III

Açıklama: Kategorik bir özniteliğin ikili hale getirilmesinde, kategori sayısı kadar sütun oluşturmak gerekmez. Bu işlem, genellikle bir sıcak kodlama (one-hot encoding) yöntemi ile gerçekleştirilir.

#16. Lojistik regresyonda en uygun eğriyi bulmak için hangi yöntem kullanılır?

Cevap: D) En Olası Tahmin Yöntemi

Açıklama: Lojistik regresyonda en uygun eğriyi bulmak için En Olası Tahmin (Maximum Likelihood Estimation) yöntemi kullanılır.

#17. I = {a, b, c, d, e} kümesinden oluşturulan {a, b} → {d} kuralı düşük güven oranlı bir kuralsa aşağıdaki kurallardan hangisi düşük oranlı bir kuraldır?

Cevap: A) {b} → {c}

Açıklama: {a, b} → {d} kuralı düşük güven oranlı bir kuralsa, benzer şekilde {b} → {c} kuralı da düşük güven oranlı bir kural olabilir, çünkü aynı veri setinde benzer düşük güvenli ilişkiler ortaya çıkabilir.

#18. Destek tabanlı kesme neden önemlidir?

Cevap: E) Sık öge kümesini bulur

Açıklama: Destek tabanlı kesme, sık öge kümelerinin bulunmasında önemlidir. Yalnızca belirli bir destek eşiğinin üzerinde olan öge kümeleri sık öge kümeleri olarak kabul edilir.

#19. Aday öge kümesi sayısını azaltma ve karşılaştırmaların sayısını azaltma işlemleri hangi amaç için yapılır?<

Cevap: E) Sık öge kümelerini oluşturmak

Açıklama: Aday öge kümesi sayısını ve karşılaştırmaların sayısını azaltma işlemleri, sık öge kümelerinin daha verimli bir şekilde bulunmasını sağlar.

#20. Apriori prensibine göre, bir sık öge kümesinin alt kümeleri hakkında hangisi doğrudur?

Cevap: C) Tüm alt kümeler sık olabilir

Açıklama: Apriori prensibine göre, bir sık öge kümesinin tüm alt kümeleri de sıktır. Bu, sık öge kümelerinin oluşturulmasında önemli bir temel oluşturur.

TESTi BiTiR, PUANINI GÖR

SONUÇ

-

İstanbul Üniversitesi Açık ve Uzaktan Eğitim Fakültesi (Auzef)
Açık Öğretim Fakültesi
Bölüm : Yönetim Bilişim Sistemleri Lisans
4. Sınıf  Veri Madenciliği Bahar Dönemi
Veri Madenciliği Final Deneme Sınavı -3

İstanbul Üniversitesi Açık ve Uzaktan Eğitim Fakültesi (Auzef)
Açık Öğretim Fakültesi
Bölüm : Yönetim Bilişim Sistemleri Lisans
4. Sınıf  Veri Madenciliği Bahar Dönemi
Veri Madenciliği Final Deneme Sınavı -3

Share your score!
Tweet your score!
Share to other

HD Quiz powered by harmonic design

Veri Madenciliği Final Deneme Sınavı -3

İstanbul Üniversitesi Açık ve Uzaktan Eğitim Fakültesi (Auzef)
Açık Öğretim Fakültesi
Bölüm : Yönetim Bilişim Sistemleri Lisans
4. Sınıf  Veri Madenciliği Bahar Dönemi
Veri Madenciliği Final Deneme Sınavı -3

Veri Madenciliği Final Deneme Sınavı -3

Veri Keşfi ve Görselleştirme – Ünite 3

Veri Keşfi ve Görselleştirme

Veri keşfi ve görselleştirme, veri analizi sürecinin kritik aşamalarından biridir. Bu süreç, ham verilerin incelenmesi, anlamlı bilgiler elde edilmesi ve verilerin görsel temsil edilmesi yoluyla karar verme sürecine katkıda bulunur. Veri keşfi, verilerin özelliklerini anlamak, örüntüleri tespit etmek ve anormallikleri belirlemek için kullanılırken, veri görselleştirme bu bilgilerin anlaşılır bir şekilde sunulmasını sağlar.

1. Merkezi Eğilim Ölçüleri

Merkezi eğilim ölçüleri, veri setinin merkezi bir değer etrafında nasıl dağıldığını gösterir. En yaygın merkezi eğilim ölçüleri ortalama, medyan ve moddur:

Ortalama: Veri setindeki tüm değerlerin toplamının, değerlerin sayısına bölünmesiyle elde edilir. Aşırı değerler ortalamayı etkileyebilir.

Medyan: Veri setindeki ortanca değeri temsil eder. Aşırı değerlerden etkilenmez ve verilerin yarısını üstünde, yarısını altında bırakır.

Mod: Veri setinde en sık tekrar eden değerdir. Veri setinde birden fazla mod olabilir.

2. Yayılım Ölçüleri

Yayılım ölçüleri, veri setindeki değerlerin ne kadar geniş bir alana yayıldığını gösterir. En yaygın yayılım ölçüleri aralık, varyans ve standart sapmadır:

Aralık: Veri setindeki en büyük ve en küçük değer arasındaki farktır.

Varyans: Değerlerin ortalama etrafındaki dağılımını ölçer ve değerlerin ortalamadan ne kadar saptığını gösterir.

Standart Sapma: Varyansın kareköküdür ve veri setindeki değerlerin ortalama etrafında ne kadar dağıldığını gösterir.

3. Görselleştirme Teknikleri

Veri görselleştirme, verilerin grafikler ve diğer görsel araçlar kullanılarak temsil edilmesidir. Yaygın görselleştirme teknikleri şunlardır:

Histogram: Veri setindeki değerlerin frekans dağılımını göstermek için kullanılır. Veriler belirli aralıklara bölünerek sütun grafiği şeklinde gösterilir.

Kutu Grafiği (Box Plot): Veri setindeki çeyreklikleri, medyanı ve olası aykırı değerleri görsel olarak temsil eder.

Pasta Grafiği: Kategorik verilerin oranlarını ve yüzdelerini görsel olarak temsil eder. Her dilim, toplamın belirli bir yüzdesini temsil eder.

Saçılım Grafiği (Scatter Plot): İki değişken arasındaki ilişkiyi görsel olarak göstermek için kullanılır. Noktalar, iki değişkenin değerlerine göre konumlandırılır.

Kök ve Yaprak Diyagramı: Sürekli verilerin dağılımını ve frekansını göstermek için kullanılır.

4. Veri Görselleştirmenin Önemi

Veri görselleştirme, karmaşık verilerin anlaşılmasını kolaylaştırır ve verilerdeki örüntüleri, trendleri ve anormallikleri hızlı bir şekilde tespit etmeyi sağlar. Ayrıca, görselleştirmeler, verilerin daha etkili bir şekilde sunulmasına yardımcı olur ve karar verme sürecinde önemli bir rol oynar.

Sonuç olarak, veri keşfi ve görselleştirme, veri analizi sürecinin ayrılmaz bir parçasıdır ve verilerin anlamlandırılmasında, yorumlanmasında ve sunulmasında kritik bir rol oynar. Bu süreçler, verilerin daha etkili bir şekilde kullanılmasını ve karar verme süreçlerinin iyileştirilmesini sağlar.

Veri Madenciliği Final Deneme Sınavı -3

Veri Keşfi ve Görselleştirme – Ünite 3

1- Veri setinde en sık tekrar eden değeri ifade eden istatistik hangisidir?

A) Ortalama
B) Standart Sapma
C) Medyan
D) Mod
E) Varyans

Cevap: D) Mod

Açıklama: Mod, veri setinde en sık tekrar eden değeri ifade eder ve veri dağılımında tepe noktasını temsil eder.

2- Veri setindeki değerlerin yarısından fazlasını/ortasını belirten istatistik hangisidir?

A) Ortalama
B) Standart Sapma
C) Medyan
D) Mod
E) Aralık

Cevap: C) Medyan

Açıklama: Medyan, veri setindeki değerlerin ortasını belirten ve veri setini iki eşit parçaya bölen istatistiktir.

3- Veri setindeki en büyük ve en küçük değer arasındaki farkı gösteren istatistik hangisidir?

A) Mod
B) Aralık
C) Medyan
D) Ortalama
E) Standart Sapma

Cevap: B) Aralık

Açıklama: Aralık, veri setindeki en büyük ve en küçük değer arasındaki farkı ifade eder ve veri dağılımının genişliğini gösterir.

4- Veri setindeki değerlerin ortalama etrafındaki yayılımı ölçen istatistik hangisidir?

A) Medyan
B) Varyans
C) Mod
D) Aralık
E) Standart Sapma

Cevap: B) Varyans

Açıklama: Varyans, veri setindeki değerlerin ortalama etrafındaki yayılımını ölçer ve değerlerin ne kadar dağıldığını gösterir.

5- Aşırı değerlerin bulunduğu bir veri setinde hangi merkezi eğilim ölçüsü, genellikle yanıltıcı olabilir?

A) Mod
B) Medyan
C) Standart Sapma
D) Varyans
E) Aralık

Cevap: B) Medyan

Açıklama: Aşırı değerlerin bulunduğu bir veri setinde, medyan merkezi eğilim ölçüsü olarak genellikle yanıltıcı olabilir, çünkü aşırı değerler medyanı etkileyebilir.

6- Kök ve yaprak diyagramı hangi amaçla kullanılır?

A) İki değişken arasındaki ilişkiyi göstermek için
B) Sürekli verilerin dağılımını göstermek için
C) Aşırı değerleri belirlemek için
D) Veri setinin merkezi eğilimini göstermek için
E) Kategorik verilerin oransal dağılımını göstermek için

Cevap: B) Sürekli verilerin dağılımını göstermek için

Açıklama: Kök ve yaprak diyagramı, sürekli verilerin dağılımını ve veri setindeki bireysel değerlerin frekansını görselleştirmek için kullanılır.

7- Histogram hangi veri özelliklerini göstermek için kullanılır?

A) Belli bir aralıktaki dağılım
B) Medyan
C) Çeyreklikler
D) Aykırı değerler
E) Ortalama

Cevap: A) Belli bir aralıktaki dağılım

Açıklama: Histogram, veri setindeki değerlerin belli bir aralıktaki dağılımını göstermek için kullanılır ve frekans dağılımını görselleştirir.

8- Kutu grafiği hangi istatistikleri görsel olarak temsil eder?

A) Oransal dağılım
B) Standart Sapma
C) Çeyreklikler
D) Medyan
E) Varyans

Cevap: C) Çeyreklikler

Açıklama: Kutu grafiği, veri setindeki çeyreklikleri, medyanı ve olası aykırı değerleri görsel olarak temsil eder.

9- Pasta grafiği hangi tür verilerin görsel analizi için kullanılır?

A) Sürekli veriler
B) Kategorik veriler
C) Dağılım verileri
D) Aritmetik veriler
E) Her tür veri

Cevap: B) Kategorik veriler

Açıklama: Pasta grafiği, kategorik verilerin oranlarını ve yüzdelerini görsel olarak temsil etmek için kullanılır.

10- Saçılım grafiği hangi tür ilişkileri görsel olarak göstermek için kullanılır?

A) Lineer ilişkiler
B) Kategorik ilişkiler
C) Karmaşık ilişkiler
D) İki değişken arasındaki ilişkiler
E) Eşzamanlı ilişkiler

Cevap: D) İki değişken arasındaki ilişkiler

Açıklama: Saçılım grafiği, iki değişken arasındaki ilişkileri ve bu ilişkinin yönünü ve gücünü görsel olarak göstermek için kullanılır.

Veri Madenciliği Final Deneme Sınavı -3

Yönetim Bilişim Sistemleri Lisans
Veri Madenciliği Yönetim Bilişim Sistemleri Lisans

Yönetim Bilişim Sistemleri Lisans

Auzef Yönetim Bilişim Sistemleri Lisans 4. Sınıf Bahar Dönemi Final Sınav Soruları ve Deneme Sınavları, 2024 Sınav Soruları

Editor

Editör

error: Kopyalamaya Karşı Korumalıdır!