Web Analitiği Ve Zekâsı Ünite -7

Mart 13, 2025

Ziyaretçi Davranış Grupları- Kümeleme

İstanbul Üniversitesi Açık ve Uzaktan Eğitim Fakültesi (Auzef) Açık Öğretim Fakültesi Bölüm : Web Tasarımı ve Kodlama 2. Sınıf Bahar Dönemi Web Analitiği Ve Zekâsı Ünite -7 Ziyaretçi Davranış Grupları- Kümeleme

Ziyaretçi Davranış Grupları- Kümeleme

Webde Ziyaretçi Davranış Grupları – Kümeleme

Web analitiğinde, kullanıcı davranışlarını anlamak ve benzer özelliklere sahip ziyaretçileri belirlemek için kümeleme teknikleri yaygın olarak kullanılır. Kümeleme (Clustering), veri setini benzer özelliklere sahip alt gruplara ayıran gözetimsiz bir makine öğrenmesi tekniğidir. Bu yöntem, özellikle pazarlama stratejilerini geliştirmek, kişiselleştirilmiş kullanıcı deneyimleri oluşturmak ve müşteri segmentasyonunu iyileştirmek için kullanılır.

Kümeleme ve Temel Kavramlar

Kümeleme, etiketsiz verileri belirli gruplara ayırarak verideki yapıları keşfetmeye yardımcı olur. Bu süreçte kullanılan bazı temel kavramlar şunlardır:

Öznitelikler (Features): Kümeleme sürecinde kullanılan değişkenlerdir. Örneğin, ziyaret süresi, sayfa görüntüleme sayısı veya terk oranı gibi metrikler öznitelik olarak kullanılabilir.

Küme Merkezi (Centroid): Bir kümenin ortalama noktasıdır. Kümeleme algoritmaları, küme merkezlerini optimize ederek daha iyi ayrıştırılmış kümeler oluşturur.

Mesafe Metrikleri: Veri noktalarının birbirine olan benzerliğini ölçmek için kullanılır. Öklidyen mesafesi en yaygın kullanılan metriktir.

Kümeleme Algoritmaları

Çeşitli kümeleme algoritmaları arasında en yaygın kullanılanlar şunlardır:

K-ortalamalar (K-Means) Algoritması:

Veri noktalarını belirlenen k sayıda kümeye ayırır.

Küme merkezleri rastgele seçilir ve her veri noktası en yakın küme merkezine atanır.

Küme merkezleri güncellenerek süreç belirli bir eşik değere ulaşana kadar devam eder.

En yaygın kullanılan gözetimsiz öğrenme yöntemlerinden biridir.

Hiyerarşik Kümeleme:

Küçük kümeler oluşturularak birleşme veya bölünme işlemleriyle hiyerarşik bir yapı oluşturur.

Veri setinin tamamına uygulandığında özellikle görselleştirme açısından avantajlıdır.

DBSCAN (Density-Based Spatial Clustering of Applications with Noise):

Yoğunluk tabanlı bir kümeleme yöntemidir.

Gürültülü (aykırı) verileri dışarıda bırakırken yoğun bölgeleri kümeler.

Küme sayısını önceden belirlemeye gerek yoktur.

Veri Ön İşleme ve Ölçeklendirme

Kümeleme analizinin doğru sonuçlar vermesi için veri önceden işlenmeli ve uygun formatlara dönüştürülmelidir. Bu süreçte şu adımlar uygulanır:

Sayısal Sütunların Seçilmesi:

R programında subset() fonksiyonu kullanılarak yalnızca sayısal sütunlar seçilebilir:

sayisal_veri <- subset(veri, select = sapply(veri, is.numeric))

Veri Ölçeklendirme (Standartlaştırma):

scale() fonksiyonu ile verinin ortalama 0 ve standart sapma 1 olacak şekilde ölçeklenmesi sağlanır:

veri_scaled <- scale(veri)

Ölçeklendirme, özellikle K-means algoritmasının daha iyi çalışmasını sağlar.

Optimal Küme Sayısının Belirlenmesi

Kümeleme analizinde doğru küme sayısını belirlemek kritik bir adımdır. Bunun için kullanılan yöntemler:

Elbow Yöntemi:

Farklı küme sayılarında maliyet fonksiyonunun eğimini analiz ederek en uygun küme sayısını belirler.

Grafik üzerinden küme sayısındaki “dirsek” noktası belirlenir.

Silhouette Yöntemi:

Kümeleme kalitesini ölçerek kümeler arasındaki ayrımı değerlendirir.

Silhouette skoru 1’e ne kadar yakınsa kümeleme o kadar başarılıdır.

R’da silhouette() fonksiyonu ile hesaplanabilir.

Kümeleme Sonuçlarının Değerlendirilmesi ve Görselleştirme

Kümeleme modelinin sonuçlarını incelemek için kullanılan bazı yöntemler şunlardır:

Küme Merkezlerini Görüntüleme:

kmeans() fonksiyonunun centers parametresi ile küme merkezleri gözlemlenebilir:

print(kmeans_result$centers)

Her Kümedeki Gözlem Sayısını Gösterme:

table(kmeans_result$cluster) komutu kullanılarak her kümede kaç gözlem olduğu görülebilir:

table(kmeans_result$cluster)

Kümelerin Görselleştirilmesi:

factoextra paketi ile kümeler kolayca görselleştirilebilir:

library(factoextra)
fviz_cluster(kmeans_result, data = veri)

Bu görselleştirme, kümelerin nasıl dağıldığını anlamaya yardımcı olur.

Kümeleme Modelinde Rastgeleliği Kontrol Etmek

Makine öğrenmesi algoritmaları genellikle rastgele başlatıldığı için farklı çalıştırmalarda farklı sonuçlar verebilir. Sonuçların tutarlı olması için set.seed() fonksiyonu kullanılmalıdır:

set.seed(123)

Bu komut, her çalıştırmada aynı rastgele başlatma değerini kullanarak sonuçların tutarlı olmasını sağlar.

Sonuç

Ziyaretçi davranış gruplarını belirlemek için kümeleme analizi, web analitiğinde güçlü bir araçtır. K-ortalamalar, hiyerarşik kümeleme ve DBSCAN gibi algoritmalar farklı kullanım senaryolarına göre tercih edilebilir. Kümeleme modeli oluşturulmadan önce veri ölçeklendirme, optimal küme sayısının belirlenmesi ve görselleştirme teknikleri uygulanarak analiz daha sağlıklı hale getirilebilir. Doğru şekilde uygulanan kümeleme analizi, kullanıcı davranışlarını daha iyi anlamayı ve daha etkili stratejiler geliştirmeyi sağlar.

@lolonolo_com

Ziyaretçi Davranış Grupları- Kümeleme

Web Analitiği Ve Zekâsı Ünite -7

Ziyaretçi Davranış Grupları- Kümeleme

Web Analitiği ve Zekâsı – Ünite 7: Ziyaretçi Davranış Grupları – Kümeleme

1- Kümeleme analizinde k-ortalamalar (k-means) algoritmasının temel amacı nedir?

A) Veriyi belirli gruplara (kümelere) ayırmak.
B) Veri setindeki eksik verileri silmek.
C) Sütunlar arasında korelasyonu hesaplamak.
D) Sayısal sütunları normalize etmek.
E) Doğrusal regresyon modeli oluşturmak.

Cevap: A) Veriyi belirli gruplara (kümelere) ayırmak.

Açıklama : Kümeleme (Clustering) analizinde kullanılan k-ortalamalar (k-means) algoritması, veri setini önceden belirlenmiş “k” sayıda küme veya gruba ayırmayı amaçlar.
Bu algoritma, benzer özelliklere sahip verileri aynı gruba koyarken, farklı özelliklere sahip verileri farklı gruplara ayırır.

Nasıl Çalışır?

-Küme merkezleri rastgele seçilir.
-Veriler en yakın küme merkezine atanır.
-Küme merkezleri güncellenerek daha iyi bir ayırım yapılır.
-Belirli bir eşik değere ulaşılana kadar bu süreç devam eder.
-Bu nedenle k-ortalamalar algoritmasının temel amacı, veriyi belirli gruplara (kümelere) ayırmaktır.

2- R’da sadece sayısal sütunları seçmek için hangi fonksiyon kullanılır?

A) apply()
B) lapply()
C) subset()
D) sapply()
E) summary()

Cevap: C) subset()

Açıklama : R’da sadece sayısal sütunları seçmek için subset() fonksiyonu kullanılır.
– subset() fonksiyonu, belirli koşullara göre veri setinden satır ve sütun seçmek için kullanılır.
– Örneğin, sadece sayısal sütunları içeren bir veri çerçevesi oluşturmak için şu şekilde kullanabiliriz:
sayisal_veri <- subset(veri, select = sapply(veri, is.numeric))
Bu komut, veri setindeki yalnızca sayısal sütunları seçerek yeni bir veri seti oluşturur.

3- Veri ölçeklendirme (standartlaştırma) işlemi için hangi R fonksiyonu kullanılır?

A) scale()
B) normalized()
C) mean()
D) standardize()
E) center()

Cevap: A) scale()

Açıklama : Veri ölçeklendirme (standartlaştırma) işlemi için scale() fonksiyonu kullanılır.
Makine öğrenmesi ve istatistiksel analizlerde, özelliklerin farklı ölçeklerde olması modelin performansını olumsuz etkileyebilir.
scale() fonksiyonu, her sütunu ortalaması 0 ve standart sapması 1 olacak şekilde yeniden ölçeklendirir.
Örnek:
veri_scaled <- scale(veri)
Bu işlem, özellikle kümelerin daha doğru belirlenmesini sağlayarak kümeleme modelinin performansını artırır.

4- Optimal küme sayısını belirlemek için hangi yöntem kullanılmıştır?

A) Elbow yöntemi
B) k-kat çapraz geçerleme
C) Bootstrap yöntemi
D) Silhouette yöntemi
E) Random Forest

Cevap: D) Silhouette yöntemi

Açıklama : Optimal küme sayısını belirlemek için Silhouette yöntemi kullanılır.
Silhouette yöntemi, bir kümenin kalitesini ölçmek için kullanılır ve kümelerin birbirine ne kadar benzediğini gösterir.
Silhouette skoru 1’e ne kadar yakınsa, kümeleme o kadar başarılıdır.
Bir veri noktasının kendi kümesine olan uzaklığı ile diğer kümelere olan uzaklığı karşılaştırılarak hesaplanır.
Örneğin, R’da silhouette() fonksiyonu kullanılarak Silhouette skoru hesaplanabilir.

5- Kümeleme modeli sonucunda kmeans() fonksiyonundan elde edilen küme merkezlerini görmek için hangi kod kullanılır?

A) print(kmeans_result$cluster)
B) summary(kmeans_result)
C) table(kmeans_result$cluster)
D) plot(kmeans_result)
E) print(kmeans_result$centers)

Cevap: E) print(kmeans_result$centers)

Açıklama : Kümeleme modelinde kmeans() fonksiyonundan elde edilen küme merkezlerini görmek için print(kmeans_result$centers) kodu kullanılır.
Küme merkezleri, her kümenin merkezi konumunu temsil eder ve kümelerin özelliklerini anlamak için kullanılır.
Örnek kullanım:
print(kmeans_result$centers)
Bu kod, her kümenin ortalama değerlerini (merkezlerini) döndürerek küme yapısının anlaşılmasını sağlar.

6- R’da kümelerin görselleştirilmesi için hangi fonksiyon kullanılır?

A) plot()
B) fviz_cluster()
C) fviz_nbclust()
D) ggplot()
E) silhouette()

Cevap: B) fviz_cluster()

Açıklama : R’da kümelerin görselleştirilmesi için fviz_cluster() fonksiyonu kullanılır.

ggplot2 tabanlı olan factoextra paketi ile birlikte gelir ve kümeleme sonuçlarını grafiksel olarak sunar.
Kullanım :

library(factoextra)
fviz_cluster(kmeans_result, data = veri)

Bu komut, kümelerin nasıl dağıldığını göstererek kümeleme modelinin değerlendirilmesine yardımcı olur.

7- Aşağıdaki işlemlerden hangisi set.seed() fonksiyonunun kullanım amacıyla örtüşür?

A) Veri setindeki eksik verileri doldurmak.
B) Rastgele küme sayısını belirlemek.
C) Veriyi normalize etmek.
D) Her çalıştırmada aynı sonuçların elde edilmesini sağlamak.
E) Grafik görselleştirme işlemlerini başlatmak.

Cevap: D) Her çalıştırmada aynı sonuçların elde edilmesini sağlamak.

Açıklama : set.seed() fonksiyonu, her çalıştırmada aynı sonuçları elde etmeyi sağlar.

Makine öğrenmesi modelleri çalıştırıldığında, bazı işlemler rastgele değerlerle başlatılır.
set.seed() fonksiyonu, rastgele sayı üreticisini belirli bir başlangıç noktasına getirerek sonuçların tekrarlanabilir olmasını sağlar.
Örnek kullanım:
set.seed(123) Bu komut, aynı kodun her çalıştırıldığında aynı sonuçları vermesini garanti eder.

8- Kümeleme modelinde table(kmeans_result$cluster) komutu neyi gösterir?

A) Küme merkezlerini.
B) Kümelerin performans skorlarını.
C) Her kümedeki gözlem sayısını.
D) Optimal küme sayısını.
E) Eksik veri oranını.

Cevap: C) Her kümedeki gözlem sayısını.

Açıklama : Kümeleme modelinde table(kmeans_result$cluster) komutu, her kümedeki gözlem sayısını gösterir.
Örneğin:
table(kmeans_result$cluster)
Bu komut, her kümede kaç veri noktası olduğunu döndürerek küme boyutlarının dengeli olup olmadığını analiz etmeye yardımcı olur.

9- Silhouette skoru neyi ölçer?

A) Küme merkezlerinin standart sapmasını.
B) Kümeleme sonucunda verilerin birbirinden ne kadar farklı olduğunu.
C) Eksik değerlerin dağılımını.
D) Kategorik değişkenlerin korelasyonunu.
E) Sayısal değişkenlerin ortalama değerlerini.

Cevap: B) Kümeleme sonucunda verilerin birbirinden ne kadar farklı olduğunu.

Açıklama : Silhouette skoru, kümeleme sonucunda verilerin birbirinden ne kadar farklı olduğunu ölçer.

Silhouette yöntemi, bir veri noktasının kendi kümesine olan uzaklığı ile diğer kümelere olan uzaklığını kıyaslayarak kümelerin ayrışma kalitesini değerlendirir.
Silhouette skoru 1’e yakınsa kümeler iyi ayrılmıştır, 0’a yakınsa kümeler arasında net bir ayrım yoktur, negatifse kümeleme hatalı olabilir.
Örnek hesaplama:

library(cluster) silhouette_score <- silhouette(kmeans_result$cluster, dist(veri)) mean(silhouette_score[, 3])

10- R’da kümeleme analizinde, veri setindeki mesafelerin hesaplanması için aşağıdaki fonksiyonlardan hangisi kullanılır?

A) kmeans()
B) scale()
C) summary()
D) lapply()
E) dist()

Cevap: E) dist()

Açıklama : R’da kümeleme analizinde, veri setindeki mesafelerin hesaplanması için dist() fonksiyonu kullanılır.
dist() fonksiyonu, veri noktaları arasındaki Öklidyen veya diğer mesafeleri hesaplamak için kullanılır.
Örneğin:
mesafe_matrisi <- dist(veri)
Bu işlem, kümeleme algoritmalarının doğru çalışmasını sağlayarak veriler arasındaki benzerlikleri belirlemek için gereklidir.

@lolonolo_com

Ziyaretçi Davranış Grupları- Kümeleme

Web Tasarım ve Kodlama

Auzef Web Tasarımı ve Kodlama 2. Sınıf bahar dönemi soruları deneme sınavları ve ünite soruları

Web Analitiği Ve Zekâsı Ünite -7

#1. Aşağıdaki işlemlerden hangisi set.seed() fonksiyonunun kullanım amacıyla örtüşür?

#2. Veri ölçeklendirme (standartlaştırma) işlemi için hangi R fonksiyonu kullanılır?

#3. Kümeleme analizinde k-ortalamalar (k-means) algoritmasının temel amacı nedir?

#4. Kümeleme modelinde table(kmeans_result$cluster) komutu neyi gösterir?

#5. Silhouette skoru neyi ölçer?

#6. R’da kümeleme analizinde, veri setindeki mesafelerin hesaplanması için aşağıdaki fonksiyonlardan hangisi kullanılır?

#7. R’da kümelerin görselleştirilmesi için hangi fonksiyon kullanılır?

#8. R’da sadece sayısal sütunları seçmek için hangi fonksiyon kullanılır?

#9. Kümeleme modeli sonucunda kmeans() fonksiyonundan elde edilen küme merkezlerini görmek için hangi kod kullanılır?

#10. Optimal küme sayısını belirlemek için hangi yöntem kullanılmıştır?

SONUÇ

Ziyaretçi Davranış Grupları- Kümeleme

Ziyaretçi Davranış Grupları- Kümeleme

Webde Ziyaretçi Davranış Grupları – Kümeleme

Kümeleme ve Temel Kavramlar

Kümeleme Algoritmaları

Hiyerarşik Kümeleme:

Veri Ön İşleme ve Ölçeklendirme

Optimal Küme Sayısının Belirlenmesi

Kümeleme Sonuçlarının Değerlendirilmesi ve Görselleştirme

Kümeleme Modelinde Rastgeleliği Kontrol Etmek

Sonuç

Ziyaretçi Davranış Grupları- Kümeleme

Ziyaretçi Davranış Grupları- Kümeleme

Web Analitiği ve Zekâsı – Ünite 7: Ziyaretçi Davranış Grupları – Kümeleme

1- Kümeleme analizinde k-ortalamalar (k-means) algoritmasının temel amacı nedir?

Nasıl Çalışır?

2- R’da sadece sayısal sütunları seçmek için hangi fonksiyon kullanılır?

3- Veri ölçeklendirme (standartlaştırma) işlemi için hangi R fonksiyonu kullanılır?

4- Optimal küme sayısını belirlemek için hangi yöntem kullanılmıştır?

5- Kümeleme modeli sonucunda kmeans() fonksiyonundan elde edilen küme merkezlerini görmek için hangi kod kullanılır?

6- R’da kümelerin görselleştirilmesi için hangi fonksiyon kullanılır?

7- Aşağıdaki işlemlerden hangisi set.seed() fonksiyonunun kullanım amacıyla örtüşür?

8- Kümeleme modelinde table(kmeans_result$cluster) komutu neyi gösterir?

9- Silhouette skoru neyi ölçer?

10- R’da kümeleme analizinde, veri setindeki mesafelerin hesaplanması için aşağıdaki fonksiyonlardan hangisi kullanılır?

Editor