Veri Madenciliği Yöntemleri

Dr. Yalçın ÖZKAN

 

 

 

 

 

 farkımız, kitaplarımızda...

 

ISBN: 978-975-6797-82-2

4. Basım, Şubat 2020, 240 sayfa

(16,5x24 cm2), 80 gr 1. hamur kağıt                                    şimdi satın al


Veri Madenciliği Yöntemler PDF


Bu kitap, veri madenciliği yöntemlerini ele alan temel ve nitelikli bir eserdir. Sınıflama, kümeleme ve birliktelik kurallarıyla ilgili birçok algoritma en yalın biçimiyle incelenmiştir.

Veri madenciliği, kurumların zaman içerisinde sahip olduğu büyük boyutlardaki verilerden alışılagelen istatistik yöntemlerle elde edilemeyen veya elde edilmesi güç olan bilgileri elde etmek için bir çeşit verileri işleme ve çözümleme yöntemidir. Yani sahip olduğumuz veri kümesinden işimize yarayacak yararlı bilgiyi üretme yöntemidir.

Veri Madenciliği” adlı bu kitabımızda sırasıyla veri ambarı kavramı, veri madenciliği kavramı ve kullanım alanları, veri madenciliğinde kullanılan sınıflandırma algoritmaları, Twoing ve Gini algoritmaları, en yakın k-komşu algoritması, kümeleme konusu, hiyerarşik ve hiyerarşik olmayan kümeleme biçimi,  sepet çözümlemeleri adıyla bilinen birliktelik kuralları, “Bayes ağları” ve “Destek Vektör Makineleri” konusu ele alınmıştır; herbiri bir bölüm olarak düzenlenmiştir.

Böylesi bir “Veri Madenciliği” kitabı hem profesyoneller için yararlı bir başvuru kitabı hem de bilgisayar mühendisliği, matematik-bilgisayar, yönetim bilişim sistemleri, endüstri mühendisliği, yazılım mühendisliği gibi mühendislik ve sosyal bilimlerde dört yıllık lisans ve meslek yüksek okulu öğrencileri için yararlı bir ders kitabı özelliğindedir.



Önsözden. Günümüzde kurumlar büyük boyutlarda veri üretmekte ve bu veri içinde anlamlı ve yararlı bilgiyi ortaya çıkarmakta zorluklar yaşamaktadır. Geleneksel istatistik yöntemlerle büyük boyuttaki veriyi çözümlemek kolay değildir. Bu nedenle verileri işlemek ve çözümlemek için özel yöntemlere gereksinim duyulmuştur. Veri madenciliği yöntemleri bu gereksinimi karşılamak üzere ortaya çıkmıştır.

Elinizdeki bu kitap veri madenciliği yöntemlerini ele alan bir giriş kitabıdır. Sınıflama, kümeleme ve birliktelik kuralları ile ilgili birçok algoritmaya en basit biçimiyle yer vermektedir.

İşletmelerin kendi ürettiği veri yanısıra dış çevreden elde ettiği veriyi de saklayarak karar destek sistemlerini hazırlamaları söz konusu olmaktadır. Üretilen veriyi veri ambarı biçiminde tasarlayarak, karar destek sistemleri için bir alt yapı hazırlamak gerekebilecektir. Kitabımızın birinci bölümünde veri ambarı kavramını ana hatlarıyla ele alarak inceliyoruz. İkinci bölümde ise veri madenciliğinin ne olduğu ve nerelerde kullanıldığı konusu işlenmektedir.

Verinin bazı ortak özelliklerinden yararlanılarak sınıflandırılması yoluna gidilebilir. Sınıflandırma işlemi belirli bir süreç izlenerek yerine getirilir. Öncelikle bir eğitim kümesi ele alınarak onun üzerinde karar kuralları oluşturulur ve bu karar kuralları kullanılarak yeni durumlar yorumlanır. Veri madenciliğinin çok sayıda sınıflandırma algoritması bulunmaktadır. Üçüncü bölümde söz konusu yöntemlerden ID3 ve C4.5 algoritmaları ele alınarak incelenmektedir. Söz konusu algoritmalar, karar ağacında bilginin ölçülmesi ve entropiye dayalı olarak sınıflandırmanın başlatılması esasına dayanmaktadır.

Sınıflandırma işlemlerinde kullanılan bir diğer yöntem, “Sınıflandırma ve Karar Ağaçları” adıyla bilinmektedir. Bu yöntemde, karar ağacının ikili dallanmasına izin verilmektedir. Kitabın dördüncü bölümünde Twoing, Gini ve regresyon ağaçları algoritmaları ele alınarak incelenmektedir. Beşinci bölümde ise, veriyi sınıflandırmak en yakın k-komşu algoritması anlatılmaktadır. Bu yöntem, verilen bir noktaya en yakın k komşunun belirlenmesi ve yeni gözlemin buna göre değerlendirilmesi esasına dayanmaktadır.

Altıncı bölümde Bayes sınıflandırma modeli ele alınarak sınıflandırma işlemi farklı bir açıdan incelenmektedir. Bu bölümde ayrıca “Bayes ağları” ele alınmaktadır. Yedinci bölümde ise yine sınıflandırma işleminde kullanılmak üzere “Destek Vektör Makineleri” ele alınmakta ve matematiksel özellikleri üzerinde durulmaktadır.

Sekizinci bölümde kümeleme konusu işlenmektedir. Verinin birbirine  benzeyen kısımlarının gruplandırılmasına “kümeleme” adını veriyoruz. Kümeleme çözümlemeleri veri madenciliğinde geniş bir uygulama alanı bulmuştur. Bu ders kapsamında verilerin birbirine olan uzaklıklarını esas alarak hiyerarşik ve hiyerarşik olmayan kümeleme biçiminde geliştirilmiş iki algoritma türü anlatılmaktadır.

Bir arada gerçekleşen olayları ele alarak çözümleyen veri madenciliği yöntemlerine “birliktelik kuralları” adı verilmektedir. Bu yöntem özellikle pazarlama alanında “sepet çözümlememeleri” adıyla bilinmektedir. Bir satış mağazasında müşterilerin aynı anda satın aldıkları ürün sepeti birliktelik kuralları algoritmaları ile çözümlenerek müşterilerin harcama eğilimleri ortaya konulmaktadır. Dokuzuncu bölümde birliktelik kuralları ele alınarak incelenmektedir.


İÇİNDEKİLER

 

Bölüm 1.  Veri MADENCİLİĞİ ve VERİ Ambarı

      1.1.  Veriyi Bilgiye Dönüştürmenin Yolu 

      1.2.  Veri Madenciliği

      1.3.  Veri Madenciliği için Veri Kaynakları

1.3.1.   Veritabanı Sistemleri

1.3.2.   Veri Ambarı

1.3.3.   Veri Kümeleri

1.3.4.   Veri Ambarının Tasarlanması

1.3.4.1.  Konuya Yöneliktir

1.3.4.2.  Bütünleşiktir

1.3.4.3.  Zaman Boyutu Vardır

1.3.4.4.  Sadece Okunabilir

1.3.5.   Veri Ambarının Temel Özellikleri

1.3.6.   Veri Ambarının İçerdiği Veri

1.3.6.1.  Metedata

1.3.6.2.  Ayrıntı Veri

1.3.6.3.  Eski Ayrıntı Veri

1.3.6.4.  Düşük Düzeyde Örneklenmiş Veri

1.3.6.5.  Yüksek Düzeyde Örneklenmiş Veri

1.3.7.   Veri Ambarı Veri Modeli

      1.4. Özet

      1.5. Sorular

Bölüm 2. Veri Madenciliği SÜRECİ VE UYGULAMALARI

      2.1.  Uygulama Alanları

      2.2.  Veri Madenciliği Süreci

2.2.1.   Veri Temizleme

2.2.2.   Veri Bütünleştirme

2.2.3.   Veri İndirgeme

2.2.4.   Veri Dönüştürme

2.2.4.1.  Min-Max Normalleştirilmesi

2.2.4.2.  Z-score Standartlaştırma

2.2.5.   Veri Madenciliği Algoritmasını Uygulama

2.2.6.   Sonuçları Sunum ve Değerlendirme

      2.3. Veri Madenciliği Yöntemleri

2.3.1.   Sınıflandırma

2.3.2.   Kümeleme

2.3.3.   Birliktelik Kuralları

      2.4.  Özet

      2.5.  Sorular

Bölüm 3. Karar Ağaçları ile Sınıflandırma

      3.1.  Sınıflandırma

      3.2.  Sınıflandırma Süreci

      3.3.  Karar Ağaçları ile Sınıflandırma

      3.4.  Karar Ağaçlarında Dallanma Kriterleri

      3.5.  ID3 Algoritması

3.5.1.   Entropi

3.5.2.   Karar Ağacında Entropi

3.5.3.   Dallanma İçin Niteliklerin Seçilmesi ve Kazanç Ölçütü

3.5.4.   ID3 Algoritması

3.5.5.   Uygulama     

3.5.6.   Kazanç Oranı

      3.6.  C4.5 Algoritması

3.6.1.   Sayısal Değerlere Sahip Nitelikler

3.6.2.   Uygulama

3.6.3.   Bilinmeyen Öznitelik Değerleri

      3.7.  Karar Ağaçlarının Budanması

3.7.1.   C4.5'de Budama

      3.8.  Karar Kuralları Oluşturmak

      3.9.  Sınıflandırma Modelinin Doğruluğu

3.9.1.   Öngörülerin Elde Edilmesi

3.9.2.   Karışıklık Matrisi

3.9.3.   İki Sınıflı Modeller için Doğruluk Ölçütleri

3.9.4.   Aşırı Öğrenme Durumu

3.9.5.   Doğrulama Süreci

3.9.5.1.  Veri Kümesinin Eğitim ve Test için Bölünmesi

3.9.5.2.  Holdout Yöntemi

3.9.5.3.  k-Katlı Çapraz Doğrulama

3.9.5.4.  Birini Dışarıda Bırakan Çapraz Doğrulama

3.9.5.5.  Bootstarp

      3.10.  Özet

      3.11.  Sorular

Bölüm 4.  Sınıflandırma ve Regresyon Ağaçları

      4.1.  Twoing Algoritması

4.1.1.   Uygulama

4.1.2.   Modelin Başarımı

      4.2.  Gini Algoritması

4.2.1.   Uygulama

4.2.2.   Sürekli Değerlerin Kullanım

4.2.3.   Uygulama: Sayısal Değerler için Gini Algoritması

      4.3.  Regresyon Ağaçları

      4.4.  Özet

      4.4.   Sorular

Bölüm 5.  En Yakın k-komşu AlgoritmasI İLE SINIFLAMA      

      5.1.  En Yakın k-Komşu Algoritması

5.1.1.   Uygulama 1

5.1.2.   Uygulama 2

      5.2.  Ağırlıklı Oylama

5.2.1.   Uygulama 3

      5.3.  Özet

      5.4.  Sorular

Bölüm 6.  BAYES SINIFLANDIRICILAR

     6.1.  Koşullu Olasılık

      6.2.  Bayes Teoremi

      6.3.  Bayes Sınıflandırıcısı

6.3.1.   Sade Bayes Sınıflandırıcısı

6.3.2.   Uygulama 1

6.3.3.   Sınıflandırma Modelinin Performansı

6.3.4.   Bayes Sınıflandırıcılarda Sıfır Değer Sorunu

6.3.5.   Sayısal Nitelik Değerleri

6.3.6.   Uygulama 2

      6.4.  Özet

      6.5.  Sorular

Bölüm 7.  Destek Vektör Makinesi İLE Sınıflandırma

           7.1.  Doğrusal Olarak Ayrılabilme Durumu

7.1.1.      Primal Çözüm

7.1.2.      Lagrange Çarpanları

7.1.3.      Karush-Kuhn-Tucker Koşulları

7.1.4.      Dual Çözüm

      7.2.  Verilerin Doğrusal Olarak Ayrılamama Durumu

      7.3.  Doğrusal Olmayan Sınıflandırıcılar

7.3.1.   Doğrusal Olmayan Özellik Uzayı

7.3.2.   Çekirdek Fonksiyonlar

7.3.3.   Destek Vektör Makinası ve Çekirdek Fonksiyonlar

      7.4.  Özet

      7.5.  Sorular

Bölüm 8.  Kümeleme

      8.1.  Kümeleme Çözümlemesi

      8.2.  Uzaklık Ölçüleri

      8.3.  Hiyerarşik Kümeleme

8.3.1.   Birleştirici Hiyerarşik Yöntemler

8.3.2.   En Yakın Komşu Algoritması

8.3.2.1.  Uygulama

8.3.3.   En Uzak Komşu Algoritması

8.3.3.1.  Uygulama

      8.4.  Hiyerarşik Olmayan Kümeleme

8.4.1.   k-Ortalamalar Yöntemi

         8.4.1.1. Uygulama

      8.5.  Özet

      8.6.  Sorular

Bölüm 9. Birliktelik Kuralları

      9.1.  Destek ve Güven Ölçütleri

      9.2.  Apriori Algoritması

      9.3.  Uygulama

      9.4.  Özet

      9.5.  Sorular

Kaynakça

Dizin


Akademik bilimsel ve üniversite kitapları; Papatya Bilim; farkımız, kitaplarımızda...