DATA Veri Madenciliği Veri Analizi

Prof. Dr. Haldun AKPINAR

 

 

Farkımız, kitaplarımızda... Papatya Bilim

 

 

 

ISBN: 978-605-4220-81-6

Türkçe, Eylül 2014

448 sayfa, (16,5x24 cm2), 80 gr 1. hamur kağıt                  şimdi satın al


Enformasyon Teknolojileri dünyasındaki olağanüstü gelişmeler, doğal olarak zaman içerisinde aşama aşama diğer disiplinleri de etkilemeye başlamıştır. Basit istatistik analiz teknikleri, süratle yerlerini çok değişkenli ve karmaşık tekniklere bırakırken, yapay zekâ araştırmaları olağanüstü bir süratle gelişmiş, Kasparov ile satranç oynayan Deep Blue, Jeopardy’de IBM Watson insanları şaşkına çeviren düzeylere erişmiştir. Son olarak muhteşem bilim adamı Alan Turing’in, Turing Testi’nin de gerçekleştiği bu ay içinde gazetelerde yer bulmuştur.

Data (Veri) kavramı giderek önemini artırmış ve data ile başlayan kavramlarda olağanüstü bir artış ortaya çıkmıştır. İlk dönemlerdeki işletmelerin itici gücü, yerini giderek genetik çalışmalardaki olağanüstü veri analizi ihtiyacına bırakmıştır. Bir taraftan veri saklama ve erişimi için yeni teknolojiler devreye girerken, bu veri dizilerinin analizi yeni algoritmaların geliştirilmesini gerekli kılmıştır. Çeşitli disiplinlerle gerçekleşen arakesitler ve uygulama ihtiyaçları yeni yaklaşımların ortaya çıkmasına neden olmuştur.

Veri madenciliği birçok disiplinin katkılarıyla inşa edilmiş yığma bir yapıdır. Bu yapıda taşıyıcı birimler yapay zekâ, veri tabanı yönetim sistemleri, özellikle çok değişkenli istatistik analiz teknikleridir. Son dönemde bu disiplinlere uygulama alanlarındaki gelişmelerle birlikte her geçen gün yeni disiplinler katılmaktadır. Kitapta bu disiplinlere ilişkin bir takım özet bilgilere yer verilmişse de, okuyucunun enformasyon sistemleri ve teknolojileri, yapay zekâ, veri tabanları ve istatistik alanlarında bilgi sahibi olması kaçınılmazdır.

Bu kitap hem profesyoneller için hem de üniversitelerde verilen "veri madenciliği", "veri analizi" gibi dersler için önemli bir kaynak niteliğindedir.



  Veri Madenciliği PDF indir                  şimdi satın al


İÇİNDEKİLER

ÖNSÖZ

BÖLÜM 1 : Ölçmek

1.1. Scientia Potestas Est

1.2. Ölçmek ya da Ölçememek

1.3. Ölçü Skalası

1.3.1.      Nominal (isimsel) Skala

1.3.2.      Ordinal (sıralı) Skala

1.3.3.      Interval (aralıklı) Skala

1.3.4.      Ratio (oransal) Skala

 

 BÖLÜM 2 : Veri

2.1. Veri Yönetimi

2.2. Örnek Veri Dizileri

2.2.1. Iris / Süsen Çiçeği

2.2.2. Karaciğer

2.2.3. Bilgisayar Alımı

2.3. Veri Gösterimi

2.4. Veri Saklama Ortamları

2.5. Veri Saklama Yönetimi

2.6. Veri Betimleme

2.7. Görselleştirme

2.7.1. Çizgi, Sütun Grafiği ve Histogram

2.7.2. Box-Whisker Çizimi

2.7.3. Serpilme Çizimleri

2.7.4. Serpilme Matris Çizimi

2.7.5. Survey Plot

2.7.6. Paralel Koordinatlar

2.7.7. Yüzey, Eşyükselti ve Gofret Grafikleri

2.7.8. Chernoff Yüzleri

          2.8. Coğrafi Görselleştirme Örneği

 

 BÖLÜM 3 : Veri Madenciliği

          3.1. Veri Analizi

          3.2. Yapay Zekâ

3.2.1. Durum Uzayını Arama

                   Su Testisi Problemi

                   Köprüden Nasıl Geçmeli

                   Tic-Tac-Toe

3.2.2. Heuristic Arama

                   A* Heuristic Algoritması

                   Tepe Tırmanma Algoritması

          3.3. Veri Madenciliği Modelleri

3.3.1. Sınıflandırma

3.3.2. Kümeleme

3.3.3. Birliktelik Kuralları ve Ardışık Zamanlı Örüntüler

3.4. Veri Madenciliği Süreci

3.4.1. CRISP-DM Süreç Modeli

3.4.2. Semma Süreci – SAS

3.4.3. Süreç Önerisi

 

 BÖLÜM 4 : Veri Ön İşleme

 4.1. Veri Kalitesi

4.2. Veri Ön İşleme

4.3. Veri Entegrasyonu

4.3.1. Veri Konsolidasyonu

          ETL Süreci

          ELT Süreci

4.3.2. Veri Yayınımı / Federasyonu

4.4. Veri Temizleme

4.4.1. Veri Tutarsızlıklarının Saptanması

4.4.2. Gramer İncelemesi

4.4.3. Çifte Kayıtların Ayıklanması

4.4.4. Temizlenmiş Verinin Bakımı

4.4.5. Sanal Entegrasyonda Veri Temizleme

4.4.6. Veride Parazit Azaltımı

Veri Dilimleme

Görüntü İşlemede Dilimleme

Veri Perdahlama

          4.5. Eksik Verinin Tamamlanması

4.5.1. Eksik Veri Örüntüsünün Betimlenmesi

4.5.2. Eksik Verinin Tesadüfilik Düzeyinin Belirlenmesi

                   Tamamen Tesadüfi Eksiklik

                   Tesadüfi Eksiklik

                   Tesadüfi Olmayan Eksiklik

                   Tesadüfilik Sınıfının Belirlenmesi

4.5.3. Eksik Verinin Giderilmesi

Silme Yöntemleri

          Tam Gözlem Yöntemi

          Mevcut Gözlem Yöntemi

Tekli Atama Yöntemleri

          Aritmetik Ortalama Değeri ile Tamamlama

          Medyan Değeri ile Tamamlama

Tanımlanan Sayıda Komşunun Aritmetik Ortalaması / Medyan Değeri ile Tamamlama

Model Temelli Yöntemler

          Maksimum Olabilirlik

          Beklenti-Maksimizasyon Yöntemi

          Markov Zinciri Monte Carlo Yöntemi

          4.6. Sıra Dışı Değer Analizi

                   4.6.1. Tek Değişkenli Veri Dizilerinde

                                      Standart Sapma Kullanımı

                                      Kartiller Arası Uzaklık

                                      Dean Dixon Q Testi

                   4.6.2. Çok Değişkenli Veri Dizilerinde

4.7. Veri Dönüştürme

4.7.1. Veri Normalleştirme / Veri Standardizasyonu

                   z-Skor Normalleştirmesi

                   [0,1] Aralığında Normalleştirme

                   [-1,1] Aralığında Normalleştirme

                   10 Tabanına Göre Logaritma

                   Aritmetik Ortalamanın 1 Olduğu Normalleştirme

                   Standart Sapmanın 1 Olduğu Normalleştirme

4.7.2. Sürekli Veri Dizisi Değerlerinin Kategorik Değerlere Dönüştürülmesi

4.7.3. Nominal Veri Dizisi Değerleri için Kavram Hiyerarşisi

4.8. Veri İndirgeme

4.8.1. Öznitelik / Boyut Sayısının Azaltılması

4.8.2. Öznitelik Alt Dizisi Seçimi

Paketleyici Yöntemler

Filtre Kullanan Yöntemler

Gömülü Yöntemler

4.9. Faktör Analizi

                   4.9.1. Korelasyon / Kovaryans Matrisi

4.9.2. Barttlett Küresellik Testi

4.9.3. Anti-Image Korelasyon Matrisi

4.9.4. Faktör Çıkartımı

4.9.5. Faktör Yüklemeleri

4.9.6. Faktör Rotasyonu

4.10. Örnekleme

 

 BÖLÜM 5 : Uzaklık ve Benzerlik Ölçüleri

5.1. Uzaklık ve Benzerlik Ölçüleri

5.2. Uzaklık Ölçüleri

          5.2.1. Aralık Ölçek için Uzaklık Ölçüleri

                             Euclid ve Kareli Euclid Uzaklık Ölçüleri

          Minkowski Uzaklığı

          Chebyshev Uzaklığı

          Manhattan Uzaklığı

          Mahalanobis Uzaklığı

5.2.2. Frekans Uzaklık Ölçüleri

5.2.3. İkil Veri için Uzaklık Ölçüleri

          5.3. Benzerlik Ölçüleri

                   5.3.1. Aralık Ölçek için Benzerlik Ölçüleri

          Pearson Korelasyonu

          Kosinüs Benzerliği

          Karakter Dizisi Karşılaştırması

5.3.2. İkil Veri için Benzerlik Ölçüleri

          5.4. Uzaklık ve Benzerlik Ölçüleri Yeterli midir

 

BÖLÜM 6 : Sınıflandırma

6.1. Giriş

6.2. Lineer Diskriminanz Analizi

6.2.1. Diskriminanz Analizi Süreci

6.2.2. Kanonik Diskriminanz Fonksiyonu Katsayıları

6.2.3. Sonuçların Değerlendirilmesi

6.3. Karar Ağacı Öğrenimi

6.3.1. Karar Ağaçları

6.3.2. Karar Ağaçlarından Karar Ağacı Öğrenimine

6.3.3. En İyi Bölen Özniteliğin Seçilmesi

          Entropi Endeksi

          Gini Endeksi

          Sınıflandırma Hatası Endeksi

6.3.4. Budama Süreci

6.3.5. Karar Ağacı Algoritmaları

          CLS Ailesi

          AID Ailesi

          CART

          QUEST

                   6.3.6. Karar Ağaçlarının Doğruluğunun Test Edilmesi

          Ensemble Öğrenim

          REPTree

          RandomTree

          DecisionStump

          RandomForest

          NBTree

6.3.7. Kullanılan Yazılımlar

          6.4. k-En Yakın Komşu Algoritması

          6.5. Yapay Sinir Ağları

6.5.1. Temel Sinir Fizyolojisi

6.5.2. Biyolojik Sinir Hücrelerinden Yapay Sinir Ağlarına

6.5.3. Yapay Sinir Ağı Araştırmalarının Gelişimi

          McCulloch-Pitts Modeli

          Hebbian Öğrenimi

          Perceptron

          Perceptron Kuramının Yıkılışı

          Duraklama Dönemi

          Duraklama Döneminde Gerçekleştirilen Diğer Araştırmalar

          Yapay Sinir Ağlarının Yeniden Doğuşu

6.5.4. Geriye Yayınım Ağları

          Genelleştirilmiş Delta Kuralı

          GY Ağlarının Kullanımında Karşılaşılan Sorunlar

                    Eğitim Verisinin Seçilmesi

                    Kurulacak Ağın Boyutlarının Belirlenmesi

                    Başlangıç Ağırlık Değerlerinin ve

                    Öğrenme Parametresinin Belirlenmesi

          Ağırlık Matris Değerlerinin Hesaplanması

          Örnek Uygulama

6.5.6. Yapay Sinir Ağı Modellerinin Sınıflandırılması

          İleri Beslemeli

          Radyal Temelli Fonksiyonlar

          Kendini Düzenleyen Haritalar

          Tekrarlı Yapay Sinir Ağı Modelleri

          Learning Vector Quantization

          Modüler Yapay Sinir Ağları

          6.6. Destek Vektör Makineleri

6.6.1. Lineer Sınıflandırma

6.6.2. Lineer Olmayan Sınıflandırma

I.     Tip Problemler – Aylak Değişken Kullanımı

II.    Tip Problemler – Kernel Trick Kullanımı

 

BÖLÜM 7 : Kümeleme Algoritmaları

          7.1. Giriş

          7.1.1. Biyoloji, Hesapsal Biyoloji ve Biyoenformatik

7.1.2. Tıp

7.1.3. İşletme

7.1.4. Enformatik

7.1.5. Astronomi

7.1.6. Antropometri

7.1.7. Schelling’in Segregation Modeli

7.1.8. Görüntü Renklendirme ve İşleme

7.1.9. Mekânsal Veri Madenciliği

          7.2. Kümeleme Algoritmalarının Sınıflandırılması

          7.3. Hiyerarşik Küme Analizi

                   7.3.1. Tekli Bağlantı / En Yakın Komşu Yöntemi

                   7.3.2. Tam Bağlantı / En Uzak Komşu Yöntemi

                   7.3.3. Aritmetik Ortalamalı Bağlantı / Gruplar Arası Bağlantı. 305

7.3.4. Merkezi Bağlantı

7.3.5. Medyan Bağlantı

7.3.6. Ward Bağlantısı

7.3.7. Lance & Williams Yöntemi

7.3.8. Bağlantı Yöntemlerinin Karşılaştırılması

          7.4. Bölümleyici Küme Analizi

                   7.4.1. k-means Algoritması

                   7.4.2. Siluet Katsayısı

7.4.3. k-medoids Algoritması

7.4.4. k-modes Algoritması

7.4.5. k-median Algoritması

7.4.6. k-means++ Algoritması        

7.4.7. Canopy Kümeleme Algoritması

          7.5. Hiyerarşik Temelli Küme Analizi Algoritmaları

                   7.5.1. BIRCH

                                      Küme içi Homojenlik Ölçüleri

          Kümeler Arası Heterojenlik Ölçütleri

          Kümeleme Özelliği

          Kümeleme Özelliği Ağacı

          BIRCH Algoritmasının Temel Yapısı

          Yazılım

          Log-Likelihood Uzaklık Ölçüsü

                   7.5.2. CURE

          Tesadüfi Örnekleme

          Örnek Kütlenin Kümelenmesi

          Sıra Dışı Değerlerin Giderilmesi

          Ana Kütlenin Kümelere Atanması

                   7.5.3. ROCK

          Komşuluk                    

          Link                               

                   7.5.4. Chameleon

          Veri Dizilerinden Seyrek Bir Çizgenin Yapılandırılması

          Çizgenin Alt Kümelere Ayrılması

          Alt Kümelerin Birleştirilmesi

          Nispi Interconnectivity

          Nispi Yakınlık        

          Alt Kümelerin Birleştirilmesi

          7.6. Yoğunluk Temelli Algoritmalar

7.6.1. DBSCAN                    

7.6.2. OPTICS                    

7.6.3. DENCLUE

          7.7. Izgara Temelli Algoritmalar

                            STING                    

          7.8. Kendini Düzenleyen Haritalar

                            Örnek Uygulama        

7.9. Fuzzy Kümeleme

7.10. Yüksek Boyutlu Veri Dizilerinin Kümelenmesi

7.11. Küme Analizi Algoritmalarında Darboğazlar

7.12. Küme Analizi Sonuçlarının Değerlendirilmesi

          7.12.1. İçsel Değerlendirme

          Davies – Bouldin Endeksi

          Dunn Endeksi

7.12.2. Dışsal Değerlendirme

          Rand Endeksi

          F-Ölçüsü        

          Jackard Endeksi

          Fowlkes-Mallows Endeksi

Kaynakça

Dizin


Bilişim Bilgisayar kitapları:

Veri Madenciliği - Dr. Gökhan SİLAHTAROĞLU

Veri Madenciliği Yöntemleri - Dr. Yalçın ÖZKAN

Yapay Sinir Ağları - Prof. Dr. Ercan ÖZTEMEL

Bilgi Yönetimi ve Uygulamaları - Editör: Prof. Dr. Murat DİNÇMEN

Bilgi ve Bilginin Yönetimi - Editör: Prof. Dr. Sevinç GÜLSEÇEN

Bilgisayar Mühendisligine Giris - Editör: Dr. Rifat ÇÖLKESEN

Endüstri Mühendisligine Giris - Editör: Prof. Dr. Ercan ÖZTEMEL

Modern Sezgisel Teknikler ve Uygulamalar -

Elektronik Mühendisligine Giris Ortak Yazarli - Editör: Prof. Dr. Ali OKATAN ve Prof. Dr. Mahmut ÜN

Veritabanı ve Uygulamaları Yılmaz KAYA ve Ramazan TEKİN

Sistem Analizi ve Tasarımı - Prof.Dr. Oya KALIPSIZ ve ark.

Sistem Analizi ve Tasarımı - Dr. Gökhan SİLAHTAROĞLU

Yazılım Mühendisliği   - Dr.Erhan SARIDOĞAN

Veri Yapıları ve Algoritmalar  - Dr.Rifat ÇÖLKESEN

Veri Yapıları Algoritma Temelleri - Dr.Sefer KURNAZ

MATLAB Kılavuzu - Dr.Aslan INAN


Akademik bilimsel ve üniversite kitapları; bilişim ve bilgisayar kitapları