Kullanıcı Davranış Tahmini- Sınıflandırma

Web Analitiği Ve Zekâsı Ünite -6

Mart 13, 2025

Kullanıcı Davranış Tahmini- Sınıflandırma

İstanbul Üniversitesi Açık ve Uzaktan Eğitim Fakültesi (Auzef) Açık Öğretim Fakültesi Bölüm : Web Tasarımı ve Kodlama 2. Sınıf Bahar Dönemi Web Analitiği Ve Zekâsı Ünite -6 Kullanıcı Davranış Tahmini- Sınıflandırma

Kullanıcı Davranış Tahmini- Sınıflandırma

Webde Veri Sınıflandırma

Veri sınıflandırma, büyük veri setlerindeki öğeleri belirli kategorilere ayırmak için kullanılan temel bir makine öğrenmesi tekniğidir. Günümüzde spam filtreleme, müşteri segmentasyonu, hastalık teşhisi ve kredi risk analizleri gibi birçok alanda sınıflandırma algoritmaları aktif olarak kullanılmaktadır. Web analitiğinde sınıflandırma, kullanıcı davranışlarını anlamak ve gelecekteki eğilimleri tahmin etmek için önemli bir araçtır.

Sınıflandırmanın Temel Kavramları

Sınıflandırma sürecinde iki ana değişken türü bulunur:

Bağımsız Değişkenler (Predictors): Modeli eğitmek için kullanılan girdilerdir. Örneğin, bir e-ticaret sitesinde bir müşterinin alışveriş geçmişi bağımsız değişken olabilir.
Bağımlı Değişken (Target Variable): Modelin tahmin etmeye çalıştığı değişkendir. Örneğin, müşterinin satın alım yapıp yapmayacağı sınıflandırma sonucudur.

Sınıflandırma algoritmaları genellikle kategorik hedef değişkenlerle çalışır. Örneğin, bir e-posta’nın “Spam” veya “Normal” olarak sınıflandırılması tipik bir örnektir.

Sınıflandırma Algoritmaları

Birçok farklı sınıflandırma algoritması bulunmaktadır. Bunlardan bazıları şunlardır:

Karar Ağaçları (Decision Trees): Veriyi dallara ayırarak sınıflandırma yapan açıklanabilir bir modeldir.
k-En Yakın Komşu (k-Nearest Neighbors, k-NN): Yeni bir gözlemi en yakın komşularıyla karşılaştırarak sınıflandırır.
Destek Vektör Makineleri (Support Vector Machines, SVM): Veri noktalarını farklı sınıflara ayıran en iyi sınırı belirlemeye çalışır.
Naïve Bayes: Olasılıksal yaklaşımla çalışan ve özellikle metin sınıflandırmada yaygın kullanılan bir yöntemdir.
Lojistik Regresyon: İkili sınıflandırma problemlerinde yaygın olarak kullanılan istatistiksel bir modeldir.

Her algoritmanın avantajları ve dezavantajları vardır. Örneğin, k-NN algoritması küçük veri setleri için etkili çalışırken, büyük veri setlerinde yüksek hesaplama maliyeti gerektirebilir.

Model Performans Değerlendirme Ölçütleri

Bir sınıflandırma modelinin başarısını ölçmek için çeşitli metrikler kullanılır:

Doğruluk (Accuracy): Modelin doğru tahmin ettiği örneklerin toplam tahminlere oranıdır.
Hassasiyet (Precision): Modelin pozitif olarak tahmin ettiği değerlerin gerçekte ne kadar doğru olduğunu gösterir.
Duyarlılık (Sensitivity/Recall): Modelin gerçekten pozitif olanları ne kadar iyi tespit ettiğini ölçer.
F1-Skoru: Hassasiyet ve duyarlılığın harmonik ortalamasını alarak modelin genel performansını değerlendirir.

Örneğin, sağlık sektöründe yanlış negatiflerin (FN) ciddi sonuçlar doğurabileceği durumlarda, duyarlılık (recall) metriğine özellikle dikkat edilir.

Veri Hazırlama Süreci

Sınıflandırma modellerinin başarılı olabilmesi için verinin uygun şekilde işlenmesi gerekir. Bu süreç genellikle aşağıdaki adımları içerir:

Veri Temizleme: Eksik ve hatalı verilerin düzeltilmesi.
Özellik Seçimi: Model için en önemli değişkenlerin belirlenmesi.
Veri Dönüştürme: Kategorik verilerin sayısal hale getirilmesi (Yapay Kodlama – Dummy Coding).
Örnekleme (Sampling): Eğitim ve test veri setlerinin oluşturulması. (Örneğin, Tabakalı Örnekleme – Stratified Sampling)
Model Eğitme ve Test Etme: Modelin eğitilmesi ve performansının değerlendirilmesi.

Özellikle dengesiz veri setlerinde Tabakalı Örnekleme (Stratified Sampling) yöntemi kullanılarak her sınıfın dengeli dağılımı sağlanır.

k-Kat Çapraz Geçerleme (k-Fold Cross Validation)

Sınıflandırma modellerinin başarısını ölçerken k-Kat Çapraz Geçerleme tekniği yaygın olarak kullanılır. Bu yöntemde veri seti k eşit parçaya bölünerek her parça bir kez test, kalan k-1 parça ise eğitim için kullanılır. Bu yöntem:

Küçük veri setlerinde tüm verilerin model tarafından öğrenilmesini sağlar.
Modelin rastgele veri bölme hatalarından etkilenmesini önler.
Genel performans ölçümlerini daha güvenilir hale getirir.

Modelin Eğitim ve Test Veri Setlerine Ayrılması

Bir veri setinin eğitim ve test olarak ayrılması, modelin performansını doğru değerlendirmek için önemlidir. R programlama dilinde createDataPartition() fonksiyonu kullanılarak verinin %75’ini eğitim, %25’ini test olarak ayırmak mümkündür.

Örneğin, aşağıdaki R kodu bu işlemi gerçekleştirir:

set.seed(123)
indks <- createDataPartition(veri$Revenue, p = 0.75, list = FALSE)
egitim_verisi <- veri[indks, ]
test_verisi <- veri[-indks, ]

Burada p = 0.75 parametresi, verinin %75’inin eğitim veri setine ayrılmasını sağlar.

Sonuç

Sınıflandırma, web analitiği, sağlık, finans ve e-ticaret gibi birçok alanda kritik bir rol oynar. Farklı sınıflandırma algoritmaları farklı veri setleri için daha uygun olabilir. Model performansını artırmak için veri temizleme, özellik seçimi ve çapraz geçerleme gibi teknikler uygulanmalıdır. Doğru algoritmanın seçilmesi ve modelin uygun şekilde değerlendirilmesi, başarılı bir sınıflandırma analizi için temel gerekliliklerdir

@lolonolo_com

Kullanıcı Davranış Tahmini- Sınıflandırma

Web Analitiği Ve Zekâsı Ünite -6

Kullanıcı Davranış Tahmini- Sınıflandırma

Web Analitiği ve Zekâsı – Ünite 6: Sınıflandırma

1- Aşağıdaki ifadelerden hangisi sınıflandırma ile ilgili yanlış bir ifadedir?

A) Sınıflandırma, bir veri setindeki öğeleri önceden tanımlanmış sınıflara ayırmayı amaçlar.
B) Sınıflandırma algoritmaları yalnızca sayısal hedef değişkenler için kullanılabilir.
C) Karar ağaçları, destek vektör makineleri ve k-En Yakın Komşu algoritmaları sınıflandırmada kullanılabilir.
D) Sınıflandırma problemlerinde hedef nitelik bağımlı değişken olarak düşünülebilir.
E) Tahmin edici nitelikler bağımsız değişken olarak düşünülebilir.

Cevap: B) Sınıflandırma algoritmaları yalnızca sayısal hedef değişkenler için kullanılabilir.

Açıklama : Sınıflandırma, verileri belirli kategorilere veya sınıflara ayırmayı amaçlayan bir makine öğrenmesi problemidir. Örneğin, e-posta filtresi bir mesajın spam olup olmadığını belirlerken sınıflandırma algoritmaları kullanır.
Yanlış olan ifade: “Sınıflandırma algoritmaları yalnızca sayısal hedef değişkenler için kullanılabilir.”
Bu yanlış çünkü sınıflandırma problemlerinde genellikle kategorik hedef değişkenler kullanılır (örn: “Evet / Hayır”, “Spam / Normal”, “Hasta / Sağlıklı”). Sayısal değişkenlerle çalışan algoritmalar ise regresyon modelleridir.

2- Bir sınıflandırma probleminin çözümünde kullanılan tahmin edici nitelikler için aşağıdakilerden hangisi doğru bir tanımlamadır?

A) Modelin tahmin ettiği hedef değişkenlerdir.
B) Model eğitimi sırasında kullanılır ve bağımlı değişkenlerdir.
C) Model değerlendirme sırasında yalnızca test verisinde bulunurlar.
D) Modeli eğitmek için kullanılan bağımsız değişkenlerdir.
E) Hedef nitelik kategorilerinin temsil edildiği yapay kodlama sütunlarıdır.

Cevap: D) Modeli eğitmek için kullanılan bağımsız değişkenlerdir.

Açıklama : Sınıflandırma modellerinde bağımsız değişkenler (predictor variables) modeli eğitmek için kullanılır. Bu değişkenler, bağımlı değişkenin (hedef değişkenin) tahmin edilmesini sağlar.
Örneğin, bir hastanın tıbbi test sonuçlarını içeren bir veri setinde, test sonuçları bağımsız değişkenlerdir ve “Hastalıklı / Sağlıklı” etiketi bağımlı değişkendir.
Doğru ifade: “Modeli eğitmek için kullanılan bağımsız değişkenlerdir.”

3- Aşağıdakilerden hangisi k-En Yakın Komşu (k-NN) algoritmasının özelliklerinden biri değildir?

A) Hem sınıflandırma hem de regresyon problemleri için kullanılabilir.
B) Euclidean, Cosine gibi uzaklık fonksiyonları k-NN ile kullanılabilir.
C) Algoritmada karar aşamasında, sınıfı belirlenmek istenen gözleme en yakın k komşunun tahmin edici niteliklerinin sayısı dikkate alınır.
D) Modelin doğruluğu, komşu sayısı (k) seçimine bağlıdır.
E) Büyük veri setlerinde yüksek hesaplama maliyetine sahiptir.

Cevap: C) Algoritmada karar aşamasında, sınıfı belirlenmek istenen gözleme en yakın k komşunun tahmin edici niteliklerinin sayısı dikkate alınır.

Açıklama : k-En Yakın Komşu (k-NN) algoritması, hem sınıflandırma hem de regresyon problemlerinde kullanılabilen bir makine öğrenmesi yöntemidir. k-NN modeli, yeni bir veri noktasının hangi sınıfa ait olduğunu belirlemek için en yakın “k” komşunun sınıflarını analiz eder.
Yanlış ifade: “Algoritmada karar aşamasında, sınıfı belirlenmek istenen gözleme en yakın k komşunun tahmin edici niteliklerinin sayısı dikkate alınır.”
Gerçekte, karar verme süreci komşuların sınıf etiketleriyle belirlenir, tahmin edici niteliklerin sayısı değil.

4- Aşağıdaki yöntemlerden hangisi bir veri setinde tabakalı örnekleme (stratified sampling) işlemini ifade eder?

A) Veri setini rastgele ikiye ayırarak eğitim ve test veri seti oluşturma.
B) Veri setinde hedef nitelik kategorilerinin frekans oranını koruyarak eğitim ve test veri seti oluşturma.
C) Veri setini üçe ayırarak eğitim, doğrulama ve test veri setleri oluşturma.
D) Veri setini eşit boyutlu k parçalara ayırarak çapraz geçerleme yapma.
E) Veri setinde yalnızca hedef nitelik etiketlerini değiştirme.

Cevap: B) Veri setinde hedef nitelik kategorilerinin frekans oranını koruyarak eğitim ve test veri seti oluşturma.

Açıklama : Tabakalı örnekleme (Stratified Sampling) yöntemi, eğitim ve test veri setlerinin hedef değişkenin dağılımına göre orantılı şekilde bölünmesini sağlar.
Örneğin, eğer veri setinde “Hasta / Sağlıklı” etiketi %80-%20 oranında dağılıyorsa, eğitim ve test veri setlerinde de bu oran korunur.
Doğru ifade: “Veri setinde hedef nitelik kategorilerinin frekans oranını koruyarak eğitim ve test veri seti oluşturma.”

5- Bir sınıflandırma modelinin performans değerlendirme ölçütü olan doğruluk (accuracy) nasıl hesaplanır?

A) (TP + TN) / (TP+TN+FP+FN)
B) (TP + FP) / (TP+TN+FP+FN)
C) TP / (TP+FN)
D) FP / (TN+FP)
E) (FP + FN) / (TP+TN+FP+FN)

Cevap: A) (TP + TN) / (TP+TN+FP+FN)

Açıklama : Doğruluk (Accuracy), sınıflandırma modellerinin performansını ölçen temel metriklerden biridir.
Doğruluk şu formülle hesaplanır:

Kullanıcı Davranış Tahmini- Sınıflandırma : Accuracy

Burada:

TP (True Positive): Modelin doğru şekilde “Pozitif” olarak tahmin ettiği örnekler
TN (True Negative): Modelin doğru şekilde “Negatif” olarak tahmin ettiği örnekler
FP (False Positive): Modelin yanlışlıkla “Pozitif” olarak tahmin ettiği negatif örnekler
FN (False Negative): Modelin yanlışlıkla “Negatif” olarak tahmin ettiği pozitif örnekler
Doğruluk, modelin tüm doğru tahminlerini (TP+TN) tüm tahminlere bölerek hesaplar.

6- Bir sınıflandırma probleminin çözümünde, modelin pozitif sınıfı doğru tahmin etme oranı aşağıdaki ölçütlerden hangisidir?

A) Belirleyicilik (Specificity)
B) Kesinlik (Precision)
C) Negatif Öngörü Değeri (Negative Predictive Value)
D) Hata Oranı (Error Rate)
E) Duyarlılık (Sensitivity)

Cevap: E) Duyarlılık (Sensitivity)

Açıklama : Duyarlılık (Sensitivity), bir modelin pozitif sınıfı doğru tahmin etme oranını gösterir.

Kullanıcı Davranış Tahmini- Sınıflandırma : Sensitivity

Yani, modelin gerçek pozitifleri ne kadar iyi tespit ettiğini gösterir.
Örneğin, bir kanser teşhis modeli için duyarlılık çok önemlidir, çünkü yanlış negatifler (FN) ciddi sonuçlar doğurabilir.

7- Aşağıdakilerden hangisi k-Kat Çapraz Geçerleme (k-Fold Cross-Validation) yönteminin avantajı olarak gösterilebilir?

A) Küçük veri setlerinde tüm veri noktalarının eğitimde kullanılması.
B) Test veri setinin tamamen bağımsız olması.
C) Her veri örneğinin hem eğitim hem de test setinde yer alması.
D) Eğitim ve test veri setlerinin aynı örneklerden oluşması.
E) Rastgele veri ayırma hatalarını azaltarak modelin genel performansını ölçmesi.

Cevap: E) Rastgele veri ayırma hatalarını azaltarak modelin genel performansını ölçmesi.

Açıklama :

k-Kat Çapraz Geçerleme (k-Fold Cross-Validation), modelin farklı eğitim ve test veri setleriyle test edilmesini sağlayarak genel performansını artırır.
Bu yöntem sayesinde:

Küçük veri setlerinde tüm verilerin eğitime dahil edilmesi sağlanır.
Modelin rastgele veri bölme hatalarından etkilenmemesi sağlanır.
Genel performans daha güvenilir hale gelir.
Avantajı: “Rastgele veri ayırma hatalarını azaltarak modelin genel performansını ölçmesi.”

8- Bir sınıflandırma algoritmasında yapay kodlama (dummy coding) işlemi hangi durumda uygulanabilir?

A) Sürekli nitelikler kategorik hale dönüştürüldüğünde.
B) Eksik veri içeren sütunları temizlemek için.
C) Eğitim veri setindeki sınıf etiketlerini değiştirmek için.
D) Kategorik nitelikleri sayısal formatta temsil etmek için.
E) Sadece hedef nitelik için dönüşüm gerektiğinde.

Cevap: D) Kategorik nitelikleri sayısal formatta temsil etmek için.

Açıklama : Yapay Kodlama (Dummy Coding), kategorik değişkenleri sayısal hale getirmek için kullanılan bir tekniktir.
Örneğin, bir veri setinde “Renk” değişkeni (“Kırmızı”, “Mavi”, “Yeşil”) gibi kategorik değerler içeriyorsa, bunları 0 ve 1 değerlerine sahip sütunlara dönüştürmek gerekir:

Kırmızı: (1,0,0)
Mavi: (0,1,0)
Yeşil: (0,0,1)
Doğru ifade: “Kategorik nitelikleri sayısal formatta temsil etmek için.”

9- F-ölçüsü (F1-score) aşağıdaki hangi iki performans değerlendirme ölçütünün harmonik ortalamasıdır?

A) Kesinlik ve duyarlılık
B) Kesinlik ve belirleyicilik
C) Duyarlılık ve belirleyicilik
D) Doğruluk ve hata oranı
E) Doğruluk ve duyarlılık

Cevap: A) Kesinlik ve duyarlılık

Açıklama : F1-Skoru (F1-Score), kesinlik (Precision) ve duyarlılığın (Sensitivity) harmonik ortalamasıdır.
Formülü şu şekildedir:

Kullanıcı Davranış Tahmini- Sınıflandırma : F1 Score

Kesinlik (Precision), modelin pozitif olarak tahmin ettiği örneklerin ne kadarının gerçekten pozitif olduğunu gösterir.
Duyarlılık (Recall/Sensitivity), modelin pozitif olanları ne kadar iyi tespit ettiğini gösterir.
F1-Skoru, dengesiz veri setlerinde model performansını ölçmek için önemlidir.

10- Aşağıdaki R kod bloğu veri setini eğitim ve test olarak ayırmak için kullanılmaktadır. Kodda hangi parametre veri setinin eğitim-test oranını belirler?

A) createDataPartition()
B) veri$Revenue
C) p = 0.75
D) set.seed()
E) list = FALSE

Cevap: C) p = 0.75

Açıklama : Bir veri setinin eğitim ve test olarak ayrılmasında, eğitim veri setinin ne kadarının kullanılacağını belirleyen en önemli parametre p değeridir.
Kod bloğunda:

set.seed(123)
indks <- createDataPartition(veri$Revenue, p = 0.75, list = FALSE)
egitim_verisi <- veri[indks, ]
test_verisi <- veri[-indks, ]

Burada p = 0.75, verinin %75’inin eğitim, %25’inin test olarak ayrılacağını belirtir.
Doğru ifade: “p = 0.75”

@lolonolo_com

Kullanıcı Davranış Tahmini- Sınıflandırma

Web Tasarım ve Kodlama

Auzef Web Tasarımı ve Kodlama 2. Sınıf bahar dönemi soruları deneme sınavları ve ünite soruları

Web Analitiği Ve Zekâsı Ünite -6

#1. Bir sınıflandırma probleminin çözümünde kullanılan tahmin edici nitelikler için aşağıdakilerden hangisi doğru bir tanımlamadır?

#2. 8- Bir sınıflandırma algoritmasında yapay kodlama (dummy coding) işlemi hangi durumda uygulanabilir?

#3. F-ölçüsü (F1-score) aşağıdaki hangi iki performans değerlendirme ölçütünün harmonik ortalamasıdır?

#4. Aşağıdaki ifadelerden hangisi sınıflandırma ile ilgili yanlış bir ifadedir?

#5. Aşağıdaki R kod bloğu veri setini eğitim ve test olarak ayırmak için kullanılmaktadır. Kodda hangi parametre veri setinin eğitim-test oranını belirler?

#6. Aşağıdakilerden hangisi k-En Yakın Komşu (k-NN) algoritmasının özelliklerinden biri değildir?

#7. Bir sınıflandırma modelinin performans değerlendirme ölçütü olan doğruluk (accuracy) nasıl hesaplanır?

#8. Bir sınıflandırma probleminin çözümünde, modelin pozitif sınıfı doğru tahmin etme oranı aşağıdaki ölçütlerden hangisidir?

#9. Aşağıdakilerden hangisi k-Kat Çapraz Geçerleme (k-Fold Cross-Validation) yönteminin avantajı olarak gösterilebilir?

#10. Aşağıdaki yöntemlerden hangisi bir veri setinde tabakalı örnekleme (stratified sampling) işlemini ifade eder?

SONUÇ

Kullanıcı Davranış Tahmini- Sınıflandırma

Kullanıcı Davranış Tahmini- Sınıflandırma

Kullanıcı Davranış Tahmini- Sınıflandırma

Webde Veri Sınıflandırma

Sınıflandırmanın Temel Kavramları

Sınıflandırma Algoritmaları

Model Performans Değerlendirme Ölçütleri

Veri Hazırlama Süreci

k-Kat Çapraz Geçerleme (k-Fold Cross Validation)

Modelin Eğitim ve Test Veri Setlerine Ayrılması

Sonuç

Kullanıcı Davranış Tahmini- Sınıflandırma

Kullanıcı Davranış Tahmini- Sınıflandırma

Web Analitiği ve Zekâsı – Ünite 6: Sınıflandırma

1- Aşağıdaki ifadelerden hangisi sınıflandırma ile ilgili yanlış bir ifadedir?

2- Bir sınıflandırma probleminin çözümünde kullanılan tahmin edici nitelikler için aşağıdakilerden hangisi doğru bir tanımlamadır?

3- Aşağıdakilerden hangisi k-En Yakın Komşu (k-NN) algoritmasının özelliklerinden biri değildir?

4- Aşağıdaki yöntemlerden hangisi bir veri setinde tabakalı örnekleme (stratified sampling) işlemini ifade eder?

5- Bir sınıflandırma modelinin performans değerlendirme ölçütü olan doğruluk (accuracy) nasıl hesaplanır?

6- Bir sınıflandırma probleminin çözümünde, modelin pozitif sınıfı doğru tahmin etme oranı aşağıdaki ölçütlerden hangisidir?

7- Aşağıdakilerden hangisi k-Kat Çapraz Geçerleme (k-Fold Cross-Validation) yönteminin avantajı olarak gösterilebilir?

8- Bir sınıflandırma algoritmasında yapay kodlama (dummy coding) işlemi hangi durumda uygulanabilir?

9- F-ölçüsü (F1-score) aşağıdaki hangi iki performans değerlendirme ölçütünün harmonik ortalamasıdır?

10- Aşağıdaki R kod bloğu veri setini eğitim ve test olarak ayırmak için kullanılmaktadır. Kodda hangi parametre veri setinin eğitim-test oranını belirler?

Editor