Biyoenformatik Veri Analizinde R ile Hiyerarşik Kümeleme

Prof. Dr. Zeynel CEBECİ

 tüm üniversitelerimizde bu kitaplarımız okutuluyor...

 

 

 

 

 

 

 farkımız, kitaplarımızda...

 

ISBN: 978-605-9594-44-8, Gözden geçirilmiş 2. basım Şubat 2021 (Deneme basımı Haziran 2019)

300 sayfa, (16 x 24 cm2), 80 gr 1. hamur kağıt


Biyoenformatik Veri Analizinde R ile Hiyerarşik Kümeleme PDF                             şimdi satın al


Önsöz. Hiyerarşik kümeleme, veri madenciliğinde örüntü tanıma, makine öğrenmesi, pazarlama ve müşteri yönetimi, gen keşfi, ilaç tasarımı gibi birçok fen, sosyal ve yaşambilimleri alanında en yaygın kullanılan keşifçi ya da açınsal istatistiksel analizdir. Çoğu kez, analiz öncesi belli bir küme sayısı (k parametresi) ve küme merkezleri için başlatma değerleri istememesi gibi önemli avantajlar sunması nedeniyle K-ortalamalar ve K-ortancalar gibi yine yaygın olarak kullanılan hiyerarşik olmayan yöntemlere göre tercih edilmektedir. Analiz için ihtiyaç duyulan yegâne şey veri öğeleri arasındaki benzerlik ölçüsü olduğundan uygulanması kolay bulunmaktadır.

R, istatistik ve grafik analiz için güçlü bir hesaplama ortamı ve programlama dilidir. R projesi kapsamında GNU lisansı ile dağıtılan açık kaynak ve özgür yazılım olması, yeni algoritmaları geliştirmek ve test etmek için etkin ve kolay bir programlama ortamı sunması nedeniyle istatistik, matematik, bilgisayar bilimleri ve biyoinformatik gibi alanlarda hızla popüler olmasını sağlamıştır. Dünya genelinde hemen her kuramsal ve uygulamalı alanda çalışan araştırmacılar, veri analizcileri ve öğrenciler tarafından yaygın şekilde kullanılmaktadır. Günümüzde R için çok çeşitli alanlarda çalışan araştırmacılar tarafından geliştirilmiş 16000’e yaklaşan sayıda R paketi bulunmakta olup CRAN, BioConductor ve Github üzerinden dağıtılmaktadır.

Bu kitap veri madenciliğinde ya da bilgi keşfinde önemli bir açınsal istatistik aracı olarak hiyerarşik kümeleme analizine yöntemler, R ile uygulamalar ve bazı gerçek veri kümeleri üzerinde analiz örnekleriyle kapsamlı bir bakış sağlamaktadır.

Bu kitap, daha önce R ile çalışmamış olanların birkaç gün içinde ileri düzeyde kümeleme analizi yapmalarını sağlayacak bir yaklaşımla yazılmıştır. Kitap, hem veri madenciliği ve istatistik konulu dersler için bir uygulama rehberi hem de biyoteknoloji ve biyoinformatik bilim dallarında çalışan araştırmacılar için bir başvuru eseri olacak şekilde tasarlanmıştır.

Yararlı olması dileğiyle, - Prof. Dr. Zeynel Cebeci



İÇİNDEKİLER

 

Önsöz

Kısaltmalar

Bölüm 1. Kümeleme Analizine Giriş

Küme ve Kümeleme         13

Kümeleme Yöntemleri      15

Kümeleme Analizinin Aşamaları   18

Kümeleme Analizinin Uygulama Alanları 19

Hiyerarşik Kümeleme Yöntemleri 20

 

Bölüm 2. Birleştirici Kümeleme Yöntemleri

Örnek Veri ve Uzaklık Matrisinin Oluşturulması   26

Tek Bağlantı Yöntemi       29

Tam Bağlantı Yöntemi      34

Ortalama Bağlantı Yöntemi          39

Merkezci Yöntemler         43

Yöntemlerle İlgili Genel Özetleme           59

 

Bölüm 3. Ayırıcı Kümeleme Yöntemleri

Monotetik Ayırıcı Yöntemler        62

Politetik Ayırıcı Yöntemler          67

İleri Algoritmalar  73

 

Bölüm 4. Kümeleme Sonuçlarını (Dendogram) Görselleştirme

Dendrogram (Ağaç Grafiği)         75

Afiş Grafik           76

Arapsaçı Grafiği    77

Korelasyon Grafikleri       79

Isı Haritaları         80

 

Bölüm 5. Küme Sayısının Belirlenmesi

Kofenetik Korelasyon Katsayısı    82

Birleşme Uzaklığındaki Değişim   84

Birleşme Katsayısı 84

Calinski ve Harabasz İndeksi        85

Sahte T2 İndeksi   85

Kübik Kümeleme Kriteri   86

Hata Kareler Ortalamasının Karekökü       86

Ortak Standart Sapma       87

R2 İstatistiği         87

Yarı Kısmi R2 İstatistiği   88

Diğer Ölçütler       89

 

Bölüm 6. R'nin Kurulması ve Çalıştırılması

R’nin İndirilmesi   92

R’nin Kurulması   95

R’de Çalışma        98

R Paketleri           101

R Betikleri 105

R ile Programlama           107

R Fonksiyonları    110

R’den Çıkma        115

 

Bölüm 7. Veri Kümeleri ve Veri Önişleme

Veri Kümesi Oluşturma    117

İçsel Veri Üretimi 120

Dosyalardan Veri Okuma  121

 

Bölüm 8. Veri Kümeleri ve Önişleme

Kayıp Değerlerin İşlenmesi          135

Veri Dönüştürme   148

Standartlaştırma    150

Bölüm 9. R'de Birleştirici Kümeleme Analizi

Uzaklık Matrisinin Oluşturulması  151

Kümeleme İşlemi  151

Dendrogram Çizme          154

 

Kümeler ve Küme Elemanlarının Belirlenmesi     157

Dendrogram Kesme          163

Küme Serpilme Grafiği     165

Esnek Beta ile Kümeleme  167

Kümeleme Sonuçlarının Karşılaştırılması  168

Karışıklık Matrisi  172

Kutu-Bıyık Grafikleri       173

Birleşme/Ayrılma Yüksekliği Grafikleri    174

Grafiklerin Saklanması     175

Kofenetik Korelasyonlar   178

Performans Testi   181

 

Bölüm 10. R'de Ayırıcı Kümeleme Analizi

Diana ile Ayırıcı Kümeleme Analizi   185

Mona ile Ayırıcı Kümeleme Analizi   192

 

Bölüm 11. Kümeleme Geçerlilik Testleri

 

Bölüm 12. İleri Görselleştirme Araçları

Hclust nesnesinin diğer nesnelere dönüştürülmesi  205

Dendrogram Nesneleri      205

Phylo Nesneleri ve Filogenetik Ağaçlar    209

Dendextend ile Grafik Analiz       217

Dendrogram Nesnesi Özelliklerinin Ayarlanması  218

Arapsaçı Grafiği    224

Dendrogramların Farklılıklarını Bulma     230

Korelasyon Matrisi ve Grafiği       231

Fowlkes-Mallows İndeksi  234

Bk Grafiği 236

Farklı Dendrogram Sunumları      237

Isı haritaları          242

 

Bölüm 13. Mikrodizilerde Kümeleme Analizi

Akciğer Kanseri Verikümesi ile Analiz     251

Küçük Yuvarlak Mavi Hücre Tümörleri Verikümesi ile Analiz     261

Akut Lenfositik Lösemi Verikümesi ile Analiz      269

 

Kaynakça      279

İngilizce Türkçe Terimler Kılavuzu    287

Yazarımız ~ Biyografi           289

Dizin  291



Kitap Hakkında

Kitabımızın ilk bölümünde küme, kümeleme terminolojisi ve kümeleme yöntemleri taksonomisi anlatılmaktadır.

İkinci bölümde birleştirici kümeleme yöntemlerinin teorik temelleri küçük bir veri kümesinde uygulamalı olarak tüm ayrıntıları ile sunulmaktadır.

Üçüncü bölüm ise ayrıcı kümeleme yöntemlerini açıklamakta ve örneklemektedir.  Monotetik ve politetik ayırıcı yöntemleri verilmiştir ve ileri algoritmalar ele alınmıştır.

Dördüncü bölümde kümeleme sonuçlarının görselleştirilmesi için kullanılan temel grafik türleri örneklerle açıklanmıştır.

Beşinci bölümde küme sayısının belirlenmesinde kullanılan ölçütler ve teknikler tanıtılmıştır. Çeşitli örnekler verilerek konunun daha kolay anlaşılmasına gayret edilmiştir.

Altıncı bölümde R istatistiksel hesaplama ve grafik analiz yazılımının indirilmesi ve kurulması, R’de çalışma, R dilinin tanıtımı ve R fonksiyonlarına giriş yapılmıştır.

Veri okuma ve önişleme örnekleri ise yedinci ve sekizinci bölümlerde sunulmuştur. Dokuzuncu bölüm ayrıntılı olarak R ile birleştirici kümeleme; onuncu bölüm ise R ile ayırıcı kümeleme analizini açıklamaktadır.

On birinci bölümde kümeleme geçerlilik testleri konusu örneklerle anlatılmıştır.

On ikinci bölümde ise ileri düzeyde görselleştirme araçları ve grafik türleri sunulmaktadır.

On üçüncü bölüm gen ifade profillerinin analizi ve gen keşfi çalışmalarında kullanılan teknik ve yöntemlerin üç gerçek veri kümesine uygulanması ve yorumlanmasını kapsamaktadır. Mikrodizilerde kümeleme analizi anlatılmıştır.


Mürekkep kokulu kitaplar; Papatya Bilim Yayınevi; farkımız kitaplarımızda...