|
DATA Veri Madenciliği Veri Analizi Prof. Dr. Haldun AKPINAR
Farkımız, kitaplarımızda... Papatya Bilim
ISBN: 978-605-4220-81-6 Türkçe, Eylül 2014 448 sayfa, (16,5x24 cm2), 80 gr 1. hamur kağıt şimdi satın al | ||||
Enformasyon Teknolojileri dünyasındaki olağanüstü gelişmeler, doğal olarak zaman içerisinde aşama aşama diğer disiplinleri de etkilemeye başlamıştır. Basit istatistik analiz teknikleri, süratle yerlerini çok değişkenli ve karmaşık tekniklere bırakırken, yapay zekâ araştırmaları olağanüstü bir süratle gelişmiş, Kasparov ile satranç oynayan Deep Blue, Jeopardy’de IBM Watson insanları şaşkına çeviren düzeylere erişmiştir. Son olarak muhteşem bilim adamı Alan Turing’in, Turing Testi’nin de gerçekleştiği bu ay içinde gazetelerde yer bulmuştur. Data (Veri) kavramı giderek önemini artırmış ve data ile başlayan kavramlarda olağanüstü bir artış ortaya çıkmıştır. İlk dönemlerdeki işletmelerin itici gücü, yerini giderek genetik çalışmalardaki olağanüstü veri analizi ihtiyacına bırakmıştır. Bir taraftan veri saklama ve erişimi için yeni teknolojiler devreye girerken, bu veri dizilerinin analizi yeni algoritmaların geliştirilmesini gerekli kılmıştır. Çeşitli disiplinlerle gerçekleşen arakesitler ve uygulama ihtiyaçları yeni yaklaşımların ortaya çıkmasına neden olmuştur. Veri madenciliği birçok disiplinin katkılarıyla inşa edilmiş yığma bir yapıdır. Bu yapıda taşıyıcı birimler yapay zekâ, veri tabanı yönetim sistemleri, özellikle çok değişkenli istatistik analiz teknikleridir. Son dönemde bu disiplinlere uygulama alanlarındaki gelişmelerle birlikte her geçen gün yeni disiplinler katılmaktadır. Kitapta bu disiplinlere ilişkin bir takım özet bilgilere yer verilmişse de, okuyucunun enformasyon sistemleri ve teknolojileri, yapay zekâ, veri tabanları ve istatistik alanlarında bilgi sahibi olması kaçınılmazdır. Bu kitap hem profesyoneller için hem de üniversitelerde verilen "veri madenciliği", "veri analizi" gibi dersler için önemli bir kaynak niteliğindedir. Veri Madenciliği PDF indir şimdi satın al İÇİNDEKİLER ÖNSÖZ BÖLÜM 1 : Ölçmek 1.1. Scientia Potestas Est 1.2. Ölçmek ya da Ölçememek 1.3. Ölçü Skalası 1.3.1. Nominal (isimsel) Skala 1.3.2. Ordinal (sıralı) Skala 1.3.3. Interval (aralıklı) Skala 1.3.4. Ratio (oransal) Skala
BÖLÜM 2 : Veri 2.1. Veri Yönetimi 2.2. Örnek Veri Dizileri 2.2.1. Iris / Süsen Çiçeği 2.2.2. Karaciğer 2.2.3. Bilgisayar Alımı 2.3. Veri Gösterimi 2.4. Veri Saklama Ortamları 2.5. Veri Saklama Yönetimi 2.6. Veri Betimleme 2.7. Görselleştirme 2.7.1. Çizgi, Sütun Grafiği ve Histogram 2.7.2. Box-Whisker Çizimi 2.7.3. Serpilme Çizimleri 2.7.4. Serpilme Matris Çizimi 2.7.5. Survey Plot 2.7.6. Paralel Koordinatlar 2.7.7. Yüzey, Eşyükselti ve Gofret Grafikleri 2.7.8. Chernoff Yüzleri 2.8. Coğrafi Görselleştirme Örneği
BÖLÜM 3 : Veri Madenciliği 3.1. Veri Analizi 3.2. Yapay Zekâ 3.2.1. Durum Uzayını Arama Su Testisi Problemi Köprüden Nasıl Geçmeli Tic-Tac-Toe 3.2.2. Heuristic Arama A* Heuristic Algoritması Tepe Tırmanma Algoritması 3.3. Veri Madenciliği Modelleri 3.3.1. Sınıflandırma 3.3.2. Kümeleme 3.3.3. Birliktelik Kuralları ve Ardışık Zamanlı Örüntüler 3.4. Veri Madenciliği Süreci 3.4.1. CRISP-DM Süreç Modeli 3.4.2. Semma Süreci – SAS 3.4.3. Süreç Önerisi
BÖLÜM 4 : Veri Ön İşleme 4.1. Veri Kalitesi 4.2. Veri Ön İşleme 4.3. Veri Entegrasyonu 4.3.1. Veri Konsolidasyonu ETL Süreci ELT Süreci 4.3.2. Veri Yayınımı / Federasyonu 4.4. Veri Temizleme 4.4.1. Veri Tutarsızlıklarının Saptanması 4.4.2. Gramer İncelemesi 4.4.3. Çifte Kayıtların Ayıklanması 4.4.4. Temizlenmiş Verinin Bakımı 4.4.5. Sanal Entegrasyonda Veri Temizleme 4.4.6. Veride Parazit Azaltımı Veri Dilimleme Görüntü İşlemede Dilimleme Veri Perdahlama 4.5. Eksik Verinin Tamamlanması 4.5.1. Eksik Veri Örüntüsünün Betimlenmesi 4.5.2. Eksik Verinin Tesadüfilik Düzeyinin Belirlenmesi Tamamen Tesadüfi Eksiklik Tesadüfi Eksiklik Tesadüfi Olmayan Eksiklik Tesadüfilik Sınıfının Belirlenmesi 4.5.3. Eksik Verinin Giderilmesi Silme Yöntemleri Tam Gözlem Yöntemi Mevcut Gözlem Yöntemi Tekli Atama Yöntemleri Aritmetik Ortalama Değeri ile Tamamlama Medyan Değeri ile Tamamlama Tanımlanan Sayıda Komşunun Aritmetik Ortalaması / Medyan Değeri ile Tamamlama Model Temelli Yöntemler Maksimum Olabilirlik Beklenti-Maksimizasyon Yöntemi Markov Zinciri Monte Carlo Yöntemi 4.6. Sıra Dışı Değer Analizi 4.6.1. Tek Değişkenli Veri Dizilerinde Standart Sapma Kullanımı Kartiller Arası Uzaklık Dean Dixon Q Testi 4.6.2. Çok Değişkenli Veri Dizilerinde 4.7. Veri Dönüştürme 4.7.1. Veri Normalleştirme / Veri Standardizasyonu z-Skor Normalleştirmesi [0,1] Aralığında Normalleştirme [-1,1] Aralığında Normalleştirme 10 Tabanına Göre Logaritma Aritmetik Ortalamanın 1 Olduğu Normalleştirme Standart Sapmanın 1 Olduğu Normalleştirme 4.7.2. Sürekli Veri Dizisi Değerlerinin Kategorik Değerlere Dönüştürülmesi 4.7.3. Nominal Veri Dizisi Değerleri için Kavram Hiyerarşisi 4.8. Veri İndirgeme 4.8.1. Öznitelik / Boyut Sayısının Azaltılması 4.8.2. Öznitelik Alt Dizisi Seçimi Paketleyici Yöntemler Filtre Kullanan Yöntemler Gömülü Yöntemler 4.9. Faktör Analizi 4.9.1. Korelasyon / Kovaryans Matrisi 4.9.2. Barttlett Küresellik Testi 4.9.3. Anti-Image Korelasyon Matrisi 4.9.4. Faktör Çıkartımı 4.9.5. Faktör Yüklemeleri 4.9.6. Faktör Rotasyonu 4.10. Örnekleme
BÖLÜM 5 : Uzaklık ve Benzerlik Ölçüleri 5.1. Uzaklık ve Benzerlik Ölçüleri 5.2. Uzaklık Ölçüleri 5.2.1. Aralık Ölçek için Uzaklık Ölçüleri Euclid ve Kareli Euclid Uzaklık Ölçüleri Minkowski Uzaklığı Chebyshev Uzaklığı Manhattan Uzaklığı Mahalanobis Uzaklığı 5.2.2. Frekans Uzaklık Ölçüleri 5.2.3. İkil Veri için Uzaklık Ölçüleri 5.3. Benzerlik Ölçüleri 5.3.1. Aralık Ölçek için Benzerlik Ölçüleri Pearson Korelasyonu Kosinüs Benzerliği Karakter Dizisi Karşılaştırması 5.3.2. İkil Veri için Benzerlik Ölçüleri 5.4. Uzaklık ve Benzerlik Ölçüleri Yeterli midir
BÖLÜM 6 : Sınıflandırma 6.1. Giriş 6.2. Lineer Diskriminanz Analizi 6.2.1. Diskriminanz Analizi Süreci 6.2.2. Kanonik Diskriminanz Fonksiyonu Katsayıları 6.2.3. Sonuçların Değerlendirilmesi 6.3. Karar Ağacı Öğrenimi 6.3.1. Karar Ağaçları 6.3.2. Karar Ağaçlarından Karar Ağacı Öğrenimine 6.3.3. En İyi Bölen Özniteliğin Seçilmesi Entropi Endeksi Gini Endeksi Sınıflandırma Hatası Endeksi 6.3.4. Budama Süreci 6.3.5. Karar Ağacı Algoritmaları CLS Ailesi AID Ailesi CART QUEST 6.3.6. Karar Ağaçlarının Doğruluğunun Test Edilmesi Ensemble Öğrenim REPTree RandomTree DecisionStump RandomForest NBTree 6.3.7. Kullanılan Yazılımlar 6.4. k-En Yakın Komşu Algoritması 6.5. Yapay Sinir Ağları 6.5.1. Temel Sinir Fizyolojisi 6.5.2. Biyolojik Sinir Hücrelerinden Yapay Sinir Ağlarına 6.5.3. Yapay Sinir Ağı Araştırmalarının Gelişimi McCulloch-Pitts Modeli Hebbian Öğrenimi Perceptron Perceptron Kuramının Yıkılışı Duraklama Dönemi Duraklama Döneminde Gerçekleştirilen Diğer Araştırmalar Yapay Sinir Ağlarının Yeniden Doğuşu 6.5.4. Geriye Yayınım Ağları Genelleştirilmiş Delta Kuralı GY Ağlarının Kullanımında Karşılaşılan Sorunlar Eğitim Verisinin Seçilmesi Kurulacak Ağın Boyutlarının Belirlenmesi Başlangıç Ağırlık Değerlerinin ve Öğrenme Parametresinin Belirlenmesi Ağırlık Matris Değerlerinin Hesaplanması Örnek Uygulama 6.5.6. Yapay Sinir Ağı Modellerinin Sınıflandırılması İleri Beslemeli Radyal Temelli Fonksiyonlar Kendini Düzenleyen Haritalar Tekrarlı Yapay Sinir Ağı Modelleri Learning Vector Quantization Modüler Yapay Sinir Ağları 6.6. Destek Vektör Makineleri 6.6.1. Lineer Sınıflandırma 6.6.2. Lineer Olmayan Sınıflandırma I. Tip Problemler – Aylak Değişken Kullanımı II. Tip Problemler – Kernel Trick Kullanımı
BÖLÜM 7 : Kümeleme Algoritmaları 7.1. Giriş 7.1.1. Biyoloji, Hesapsal Biyoloji ve Biyoenformatik 7.1.2. Tıp 7.1.3. İşletme 7.1.4. Enformatik 7.1.5. Astronomi 7.1.6. Antropometri 7.1.7. Schelling’in Segregation Modeli 7.1.8. Görüntü Renklendirme ve İşleme 7.1.9. Mekânsal Veri Madenciliği 7.2. Kümeleme Algoritmalarının Sınıflandırılması 7.3. Hiyerarşik Küme Analizi 7.3.1. Tekli Bağlantı / En Yakın Komşu Yöntemi 7.3.2. Tam Bağlantı / En Uzak Komşu Yöntemi 7.3.3. Aritmetik Ortalamalı Bağlantı / Gruplar Arası Bağlantı. 305 7.3.4. Merkezi Bağlantı 7.3.5. Medyan Bağlantı 7.3.6. Ward Bağlantısı 7.3.7. Lance & Williams Yöntemi 7.3.8. Bağlantı Yöntemlerinin Karşılaştırılması 7.4. Bölümleyici Küme Analizi 7.4.1. k-means Algoritması 7.4.2. Siluet Katsayısı 7.4.3. k-medoids Algoritması 7.4.4. k-modes Algoritması 7.4.5. k-median Algoritması 7.4.6. k-means++ Algoritması 7.4.7. Canopy Kümeleme Algoritması 7.5. Hiyerarşik Temelli Küme Analizi Algoritmaları 7.5.1. BIRCH Küme içi Homojenlik Ölçüleri Kümeler Arası Heterojenlik Ölçütleri Kümeleme Özelliği Kümeleme Özelliği Ağacı BIRCH Algoritmasının Temel Yapısı Yazılım Log-Likelihood Uzaklık Ölçüsü 7.5.2. CURE Tesadüfi Örnekleme Örnek Kütlenin Kümelenmesi Sıra Dışı Değerlerin Giderilmesi Ana Kütlenin Kümelere Atanması 7.5.3. ROCK Komşuluk Link 7.5.4. Chameleon Veri Dizilerinden Seyrek Bir Çizgenin Yapılandırılması Çizgenin Alt Kümelere Ayrılması Alt Kümelerin Birleştirilmesi Nispi Interconnectivity Nispi Yakınlık Alt Kümelerin Birleştirilmesi 7.6. Yoğunluk Temelli Algoritmalar 7.6.1. DBSCAN 7.6.2. OPTICS 7.6.3. DENCLUE 7.7. Izgara Temelli Algoritmalar STING 7.8. Kendini Düzenleyen Haritalar Örnek Uygulama 7.9. Fuzzy Kümeleme 7.10. Yüksek Boyutlu Veri Dizilerinin Kümelenmesi 7.11. Küme Analizi Algoritmalarında Darboğazlar 7.12. Küme Analizi Sonuçlarının Değerlendirilmesi 7.12.1. İçsel Değerlendirme Davies – Bouldin Endeksi Dunn Endeksi 7.12.2. Dışsal Değerlendirme Rand Endeksi F-Ölçüsü Jackard Endeksi Fowlkes-Mallows Endeksi Kaynakça Dizin Bilişim Bilgisayar kitapları:
Veri Madenciliği
Veri Madenciliği Yöntemleri
Yapay Sinir Ağları
Bilgi Yönetimi ve Uygulamaları
Bilgi ve Bilginin Yönetimi
Bilgisayar Mühendisligine Giris
Endüstri Mühendisligine Giris
Modern Sezgisel Teknikler ve Uygulamalar
Elektronik Mühendisligine Giris
Veritabanı ve Uygulamaları
Yazılım Mühendisliği
Veri Yapıları ve Algoritmalar
MATLAB Kılavuzu |