|
Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN
farkımız, kitaplarımızda...
ISBN: 978-975-6797-82-2 4. Basım, Şubat 2020, 240 sayfa (16,5x24 cm2), 80 gr 1. hamur kağıt şimdi satın al | ||||
Veri Madenciliği Yöntemler PDF Bu kitap, veri madenciliği yöntemlerini ele alan temel ve nitelikli bir eserdir. Sınıflama, kümeleme ve birliktelik kurallarıyla ilgili birçok algoritma en yalın biçimiyle incelenmiştir. Veri madenciliği, kurumların zaman içerisinde sahip olduğu büyük boyutlardaki verilerden alışılagelen istatistik yöntemlerle elde edilemeyen veya elde edilmesi güç olan bilgileri elde etmek için bir çeşit verileri işleme ve çözümleme yöntemidir. Yani sahip olduğumuz veri kümesinden işimize yarayacak yararlı bilgiyi üretme yöntemidir. “Veri Madenciliği” adlı bu kitabımızda sırasıyla veri ambarı kavramı, veri madenciliği kavramı ve kullanım alanları, veri madenciliğinde kullanılan sınıflandırma algoritmaları, Twoing ve Gini algoritmaları, en yakın k-komşu algoritması, kümeleme konusu, hiyerarşik ve hiyerarşik olmayan kümeleme biçimi, sepet çözümlemeleri adıyla bilinen birliktelik kuralları, “Bayes ağları” ve “Destek Vektör Makineleri” konusu ele alınmıştır; herbiri bir bölüm olarak düzenlenmiştir. Böylesi bir “Veri Madenciliği” kitabı hem profesyoneller için yararlı bir başvuru kitabı hem de bilgisayar mühendisliği, matematik-bilgisayar, yönetim bilişim sistemleri, endüstri mühendisliği, yazılım mühendisliği gibi mühendislik ve sosyal bilimlerde dört yıllık lisans ve meslek yüksek okulu öğrencileri için yararlı bir ders kitabı özelliğindedir. Önsözden. Günümüzde kurumlar büyük boyutlarda veri üretmekte ve bu veri içinde anlamlı ve yararlı bilgiyi ortaya çıkarmakta zorluklar yaşamaktadır. Geleneksel istatistik yöntemlerle büyük boyuttaki veriyi çözümlemek kolay değildir. Bu nedenle verileri işlemek ve çözümlemek için özel yöntemlere gereksinim duyulmuştur. Veri madenciliği yöntemleri bu gereksinimi karşılamak üzere ortaya çıkmıştır. Elinizdeki bu kitap veri madenciliği yöntemlerini ele alan bir giriş kitabıdır. Sınıflama, kümeleme ve birliktelik kuralları ile ilgili birçok algoritmaya en basit biçimiyle yer vermektedir. İşletmelerin kendi ürettiği veri yanısıra dış çevreden elde ettiği veriyi de saklayarak karar destek sistemlerini hazırlamaları söz konusu olmaktadır. Üretilen veriyi veri ambarı biçiminde tasarlayarak, karar destek sistemleri için bir alt yapı hazırlamak gerekebilecektir. Kitabımızın birinci bölümünde veri ambarı kavramını ana hatlarıyla ele alarak inceliyoruz. İkinci bölümde ise veri madenciliğinin ne olduğu ve nerelerde kullanıldığı konusu işlenmektedir. Verinin bazı ortak özelliklerinden yararlanılarak sınıflandırılması yoluna gidilebilir. Sınıflandırma işlemi belirli bir süreç izlenerek yerine getirilir. Öncelikle bir eğitim kümesi ele alınarak onun üzerinde karar kuralları oluşturulur ve bu karar kuralları kullanılarak yeni durumlar yorumlanır. Veri madenciliğinin çok sayıda sınıflandırma algoritması bulunmaktadır. Üçüncü bölümde söz konusu yöntemlerden ID3 ve C4.5 algoritmaları ele alınarak incelenmektedir. Söz konusu algoritmalar, karar ağacında bilginin ölçülmesi ve entropiye dayalı olarak sınıflandırmanın başlatılması esasına dayanmaktadır. Sınıflandırma işlemlerinde kullanılan bir diğer yöntem, “Sınıflandırma ve Karar Ağaçları” adıyla bilinmektedir. Bu yöntemde, karar ağacının ikili dallanmasına izin verilmektedir. Kitabın dördüncü bölümünde Twoing, Gini ve regresyon ağaçları algoritmaları ele alınarak incelenmektedir. Beşinci bölümde ise, veriyi sınıflandırmak en yakın k-komşu algoritması anlatılmaktadır. Bu yöntem, verilen bir noktaya en yakın k komşunun belirlenmesi ve yeni gözlemin buna göre değerlendirilmesi esasına dayanmaktadır. Altıncı bölümde Bayes sınıflandırma modeli ele alınarak sınıflandırma işlemi farklı bir açıdan incelenmektedir. Bu bölümde ayrıca “Bayes ağları” ele alınmaktadır. Yedinci bölümde ise yine sınıflandırma işleminde kullanılmak üzere “Destek Vektör Makineleri” ele alınmakta ve matematiksel özellikleri üzerinde durulmaktadır. Sekizinci bölümde kümeleme konusu işlenmektedir. Verinin birbirine benzeyen kısımlarının gruplandırılmasına “kümeleme” adını veriyoruz. Kümeleme çözümlemeleri veri madenciliğinde geniş bir uygulama alanı bulmuştur. Bu ders kapsamında verilerin birbirine olan uzaklıklarını esas alarak hiyerarşik ve hiyerarşik olmayan kümeleme biçiminde geliştirilmiş iki algoritma türü anlatılmaktadır. Bir arada gerçekleşen olayları ele alarak çözümleyen veri madenciliği yöntemlerine “birliktelik kuralları” adı verilmektedir. Bu yöntem özellikle pazarlama alanında “sepet çözümlememeleri” adıyla bilinmektedir. Bir satış mağazasında müşterilerin aynı anda satın aldıkları ürün sepeti birliktelik kuralları algoritmaları ile çözümlenerek müşterilerin harcama eğilimleri ortaya konulmaktadır. Dokuzuncu bölümde birliktelik kuralları ele alınarak incelenmektedir. İÇİNDEKİLER
Bölüm 1. Veri MADENCİLİĞİ ve VERİ Ambarı 1.1. Veriyi Bilgiye Dönüştürmenin Yolu 1.2. Veri Madenciliği 1.3. Veri Madenciliği için Veri Kaynakları 1.3.1. Veritabanı Sistemleri 1.3.2. Veri Ambarı 1.3.3. Veri Kümeleri 1.3.4. Veri Ambarının Tasarlanması 1.3.4.1. Konuya Yöneliktir 1.3.4.2. Bütünleşiktir 1.3.4.3. Zaman Boyutu Vardır 1.3.4.4. Sadece Okunabilir 1.3.5. Veri Ambarının Temel Özellikleri 1.3.6. Veri Ambarının İçerdiği Veri 1.3.6.1. Metedata 1.3.6.2. Ayrıntı Veri 1.3.6.3. Eski Ayrıntı Veri 1.3.6.4. Düşük Düzeyde Örneklenmiş Veri 1.3.6.5. Yüksek Düzeyde Örneklenmiş Veri 1.3.7. Veri Ambarı Veri Modeli 1.4. Özet 1.5. Sorular Bölüm 2. Veri Madenciliği SÜRECİ VE UYGULAMALARI 2.1. Uygulama Alanları 2.2. Veri Madenciliği Süreci 2.2.1. Veri Temizleme 2.2.2. Veri Bütünleştirme 2.2.3. Veri İndirgeme 2.2.4. Veri Dönüştürme 2.2.4.1. Min-Max Normalleştirilmesi 2.2.4.2. Z-score Standartlaştırma 2.2.5. Veri Madenciliği Algoritmasını Uygulama 2.2.6. Sonuçları Sunum ve Değerlendirme 2.3. Veri Madenciliği Yöntemleri 2.3.1. Sınıflandırma 2.3.2. Kümeleme 2.3.3. Birliktelik Kuralları 2.4. Özet 2.5. Sorular Bölüm 3. Karar Ağaçları ile Sınıflandırma 3.1. Sınıflandırma 3.2. Sınıflandırma Süreci 3.3. Karar Ağaçları ile Sınıflandırma 3.4. Karar Ağaçlarında Dallanma Kriterleri 3.5. ID3 Algoritması 3.5.1. Entropi 3.5.2. Karar Ağacında Entropi 3.5.3. Dallanma İçin Niteliklerin Seçilmesi ve Kazanç Ölçütü 3.5.4. ID3 Algoritması 3.5.5. Uygulama 3.5.6. Kazanç Oranı 3.6. C4.5 Algoritması 3.6.1. Sayısal Değerlere Sahip Nitelikler 3.6.2. Uygulama 3.6.3. Bilinmeyen Öznitelik Değerleri 3.7. Karar Ağaçlarının Budanması 3.7.1. C4.5'de Budama 3.8. Karar Kuralları Oluşturmak 3.9. Sınıflandırma Modelinin Doğruluğu 3.9.1. Öngörülerin Elde Edilmesi 3.9.2. Karışıklık Matrisi 3.9.3. İki Sınıflı Modeller için Doğruluk Ölçütleri 3.9.4. Aşırı Öğrenme Durumu 3.9.5. Doğrulama Süreci 3.9.5.1. Veri Kümesinin Eğitim ve Test için Bölünmesi 3.9.5.2. Holdout Yöntemi 3.9.5.3. k-Katlı Çapraz Doğrulama 3.9.5.4. Birini Dışarıda Bırakan Çapraz Doğrulama 3.9.5.5. Bootstarp 3.10. Özet 3.11. Sorular Bölüm 4. Sınıflandırma ve Regresyon Ağaçları 4.1. Twoing Algoritması 4.1.1. Uygulama 4.1.2. Modelin Başarımı 4.2. Gini Algoritması 4.2.1. Uygulama 4.2.2. Sürekli Değerlerin Kullanım 4.2.3. Uygulama: Sayısal Değerler için Gini Algoritması 4.3. Regresyon Ağaçları 4.4. Özet 4.4. Sorular Bölüm 5. En Yakın k-komşu AlgoritmasI İLE SINIFLAMA 5.1. En Yakın k-Komşu Algoritması 5.1.1. Uygulama 1 5.1.2. Uygulama 2 5.2. Ağırlıklı Oylama 5.2.1. Uygulama 3 5.3. Özet 5.4. Sorular Bölüm 6. BAYES SINIFLANDIRICILAR 6.1. Koşullu Olasılık 6.2. Bayes Teoremi 6.3. Bayes Sınıflandırıcısı 6.3.1. Sade Bayes Sınıflandırıcısı 6.3.2. Uygulama 1 6.3.3. Sınıflandırma Modelinin Performansı 6.3.4. Bayes Sınıflandırıcılarda Sıfır Değer Sorunu 6.3.5. Sayısal Nitelik Değerleri 6.3.6. Uygulama 2 6.4. Özet 6.5. Sorular Bölüm 7. Destek Vektör Makinesi İLE Sınıflandırma 7.1. Doğrusal Olarak Ayrılabilme Durumu 7.1.1. Primal Çözüm 7.1.2. Lagrange Çarpanları 7.1.3. Karush-Kuhn-Tucker Koşulları 7.1.4. Dual Çözüm 7.2. Verilerin Doğrusal Olarak Ayrılamama Durumu 7.3. Doğrusal Olmayan Sınıflandırıcılar 7.3.1. Doğrusal Olmayan Özellik Uzayı 7.3.2. Çekirdek Fonksiyonlar 7.3.3. Destek Vektör Makinası ve Çekirdek Fonksiyonlar 7.4. Özet 7.5. Sorular Bölüm 8. Kümeleme 8.1. Kümeleme Çözümlemesi 8.2. Uzaklık Ölçüleri 8.3. Hiyerarşik Kümeleme 8.3.1. Birleştirici Hiyerarşik Yöntemler 8.3.2. En Yakın Komşu Algoritması 8.3.2.1. Uygulama 8.3.3. En Uzak Komşu Algoritması 8.3.3.1. Uygulama 8.4. Hiyerarşik Olmayan Kümeleme 8.4.1. k-Ortalamalar Yöntemi 8.4.1.1. Uygulama 8.5. Özet 8.6. Sorular Bölüm 9. Birliktelik Kuralları 9.1. Destek ve Güven Ölçütleri 9.2. Apriori Algoritması 9.3. Uygulama 9.4. Özet 9.5. Sorular Kaynakça Dizin Akademik bilimsel ve üniversite kitapları; Papatya Bilim; farkımız, kitaplarımızda... |