Kanser Biyoenformatiğinde Yapay Zeka

Dr. Yalçın ÖZKAN

Doç. Dr. Çiğdem Selçukcan EROL

 

 

 farkımız, kitaplarımızda...

 

 

 

 

 

 

 

 

 

ISBN: 978-605-9594-54-7, Mart Şubat 2019

336 sayfa, (16,5 x 24 cm2), 80 gr 1. hamur kağıt       şimdi satın al


Kanser Biyoenformatiğinde Yapay Zeka indir PDF içindekiler


Arka kapak yazısı. Günümüzde kanser araştırmaları disiplinler arası bir alana dönüşmüş, bu alanda pek çok farklı türden çalışmalar yürütülmeye başlanmıştır. Araştırmalarda üretilen verinin çözümlenmesi söz konusu olduğunda, geleneksel yöntemlerin dışında daha etkin olduğuna inanılan farklı yaklaşımlara gereksinim duyulmuştur. Bunların başında makine öğrenmesi veya bir başka deyişle yapay zeka yöntemleri sayılabilir. Yapay zeka yöntemlerinin günümüzde hemen hemen her alana el attığını görüyoruz.

 

Kanser araştırmalarında klinik ve genetik verilerden yararlanılarak hastalıkların tanısı ve risk faktörlerinin belirlenmesinde yapay zeka algoritmalarına başvurulmaktadır. Görüntü işleme açısından bakıldığında yapay zeka algoritmalarının oldukça gelişkin bir tanı aracı olabileceğini söyleyebiliriz. Örneğin, cilt kanseri ile ilgili resimleri değerlendiren bir yapay zeka uygulaması oldukça tatminkar tahminler üretebilmektedir. Kitabımızda klinik ve genetik veri kümeleri yanı sıra, akciğer kanseri ve meme kanseri ile ilgili görüntü verisinden derin öğrenme algoritmaları yardımıyla tanı modellerinin nasıl geliştirilebileceği üzerinde durulmuştur.  Açık kaynak kanser veri kümelerine R yazılımı yardımıyla nasıl ulaşılabileceği,  bu verinin nasıl bir ön işlemeye tabi tutulacağı, makine öğrenmesi algoritmalarının uygulanarak verinin nasıl modellenebileceği ayrıntılı biçimde anlatılmaktadır.

 

Kitapta birçok farklı algoritma yanı sıra, özellikle yapay zekanın derin öğrenme algoritması klinik ve genetik veriler üzerinde denenmiş; kanser görüntülerinin işlenmesinde ise konvolüsyonel derin öğrenme algoritmasına yer verilmiştir. Kitap tekrarlanabilir (reproduciple) araştırma yöntemini benimsemiştir. Konular içinde sunulan R kodları sayesinde okuyucu aynı kodları kullanarak problemleri test edebilir.

 

Bu kitap, kanser veri kümeleri üzerinde çalışmalar yapmayı düşünen ve tıp, biyoenformatik, bilişim, mühendislik gibi farklı alanlardan gelen araştırmacılar için tasarlanmıştır.



İÇİNDEKİLER

Önsöz 

Kitap Hakkında

 

Bölüm 1. R Programlama Diline Giriş

1.1. Bu Bölümün Amacı  15

1.2. R nin Kurulumu         15

1.3. Komut Satırı      16

1.4. R Dili Fonksiyonları  17

1.5. Nesne Değişkenleri     17

1.6. Aritmetik Operatörler     18

1.7. Veri Yapıları      18

1.7.1. Vektör    18

1.7.2. Faktör     20

1.7.3. Matris     22

1.7.4. Veri Çerçevesi     25

1.7.5. Liste        28

1.8. Program Denetimi      30

1.9. Döngüler             31

1.10. Kullanıcı Tanımlı Fonksiyonlar      32

1.11.  İstatiksel Veri İşleme  33

1.12. Veri Dosyalarının Okunması  35

1.13. Grafikler           36

1.14. R Paketleri       38

1.15. Bioconductor  39

1.16. Özet      39

1.17. Araştırma Soruları  40

 

Bölüm 2. Biyoenformatik ve Yapay Zeka

2.1. Bölümün Amacı        41

2.2. Biyoenformatik         41

2.3. Kanser    42

2.4. Kanser Biyoenformatiği             46

2.5. Yapay Zeka       50

2.6. Biyoenformatik ve Yapay Zeka       52

2.7. Özet   53

2.8. Araştırma Soruları     53

 

Bölüm 3. Kanser Veri kümelerine Erişim

3.1. Bölümün Amacı        55

3.2. Kanser Veri Depoları      55

3.3. Bioconductor     55

3.3.1. Bioconductor Yazılımların Yüklenmesi   56

3.3.2. Biobase     56

3.3.3. ExpressionSet Nesnesi       56

3.3.4. Akut Lenfoblastik Lösemi Veri Kümesi Üzerine Bir Çalışma  57

3.3.5. R ile ALL Kanser Veri Kümesine Erişim   57

3.4. GEO Veri Deposu       58

3.4.1. GEO Veri Kayıtları            58

3.4.2. GEO Verisine Erişim: GEOquery Paketi    59

3.4.3. Yüksek Riskli Mesane Kanseri Veri Kümesi Üzerine Bir Çalışma             60

3.4.4. GDS Veri Kümelerine Erişim     60

3.4.5. GSE Veri Serilerine Erişim          65

3.5. ArrayExpress Veri Deposu         67

3.5.1. ArrayExpress Ham Veri Kümelerini Biocanductor Nesnesine Dönüş.      67

3.5.2. İşlenmiş Veri Kümelerini Biocanductor Nesnesine Dönüştürmek             69

3.5.3. Hazır R Dosyalarının Kullanılması          72

3.6. Özet   75

3.7. Araştırma Soruları     75

 

Bölüm 4. Temel Önişleme Yöntemleri

4.1. Bölümün Amacı        77 

4.2. Kayıp Değerler  77

4.2.1. Kayıp Veri Analiz Yöntemleri  77

4.2.2. Kayıp Veri Uygulaması    78

4.3. Veri Ölçeklendirme    83

4.3.1. Ondalık Ölçeklendirme     83

4.3.2. Min-Mix Ölçeklendirme    84

4.3.3. Z-Score Ölçeklendirmesi   84 4.3.4. Ölçeklendirme Uygulaması         85

4.4. Veri Özetleme-Temel Bileşenler Analizi          86

4.4.1. Temel Bileşenler Analizi Uygulaması       88

4.5. Dengesiz Veri Kümeleri  91

4.5.1. Örnek Sayısının Azaltılması    92

4.5.2. Örnek Sayısının Arttırılması    92

4.5.3. Sentetik Veri Üretimi         92

4.5.4. Dengesiz Veri Kümeleri Uygulaması         92

4.6. Özet   95

4.7. Araştırma Soruları     95

 

Bölüm 5. Önişleme Aykırı Değerler

5.1. Bölümün Amacı        97

5.2. Aykırı Değerler  97

5.3. LOF Algoritması İle Aykırı Değerler      98

5.3.1. Alman Meme Kanseri Çalışma Grubu Veri Kümesi         99

5.3.2. Alman Meme Kanseri Verisi Üzerinde Aykırı Değerler     99

5.4. Yüksek Boyutlu Veri Kümelerinde Aykırı Değerler  101

5.4.1.Tütün ve Akciğer Kanseri Veri Kümesi      102

5.4.2. Akciğer Kanseri Veri Kümesinde Aykırı Değerler              103

5.5. Kümeleme Algoritmasının Kullanılması           104

5.5.1. Prostat Tümörleri Birincil Epitel Hücre Kültürü Analizleri         105

5.5.2. Kümeleme Algoritması İle Aykırı Değerlerin Bulunması          105

5.5.3. Sınıflandırma Algoritması İle Aykırı Değerlerin Bulunması    106

5.5.4. Kolorektal Kanser İçin Yeni Bir Belirteç Çalışması          106

5.5.5. Kolorektal Kanser Veri Kümesindeki Aykırı Değerler       107

5.6. Gen Füzyonlarına Yönelik Kanser Aykırı Değer Analizi (COPA)     108

5.6.1. COPA Aykırı Değer Analizi       110

5.6.2. Prostat Kanser Veri Kümesi      110

5.6.3. Prostat Kanseri Veri Kümesi Üzerinde COPA İle Aykırı Değerler              110

5.7. Özet   114

5.8. Araştırma Soruları     114

 

Bölüm 6. Önişlemede Ayrıklaştırma ve Öznitelik Seçimi

6.1. Bölümün Amacı        115

6.2. Ayrıklaştırma    115

6.2.1. ChiMerge Ayrıklaştırma Algoritması        115

6.2.2. Sınıf Öznitelik Bağımlılık Maksimizasyonu-CAIM Algoritması              119

6.2.3. Sınıf-Öznitelik Kontenjans Katsayısı-CACC Algoritması        123

6.3. Öznitelik Seçim Yöntemleri       125

6.3.1. Entropiye Dayalı Filtreler          126

6.3.2. Korelasyon Tabanlı Öznitelik Seçimleri   130

6.3.3. Cramer Phi Filtresi             137

6.3.4. ExpressionSet Nesnesine Uygulanabilen Filtreleme Yöntemleri   139

6.3.5. CMA Paketi ile Mikrodizilerde Filtreleme          141

6.4. Özet   144

6.5. Araştırma Soruları     144

 

Bölüm 7. Kanser Verisinde Sınıflandırma Süreci

7.1. Bölümün Amacı        145

7.2. Sınıflandırma Süreci      145

7.2.1. Adım 1: Önişleme ve Veri Kümesinin Bölünmesi              146

7.2.2. Adım 2: Sınıflayıcı Modelin ve Öngörülerin Elde Edilmesi      148

7.2.3. Adım 3: Sınıflayıcı Performansının Ölçülmesi    148

7.2.4. Doğruluk Ölçütleri              149

7.2.5. Performans Geliştirme Yöntemleri             150

7.2.6. ROC Eğrisi ile Performans Ölçümü            153

7.3. En İyi Modelin Seçilmesi            155

7.4. Özet   156

7.5. Araştırma Soruları     156

 

Bölüm 8. Sınıflandırma Ağaçları

8.1. Bölümün Amacı        157

8.2. C4.5 ve C5.0 Algoritmaları ile sınıflandırma    157

8.2.1. C4.5 Algoritmasının Uygulanması  158

8.2.2. C5.0 Algoritmasının Uygulanması  166

8.2.3. Meme Kanseri ile İlgili Klinik Biyopsi Verisinin C5.0 Algoritması   170

  ile Sınıflandırılması             170

8.3. Rastgele Orman Algoritması İle Sınıflandırması      177

8.3.1. Rastgele Orman Algoritmasının Uygulanması     177

8.4. Özet   183

8.5. Araştırma Soruları     183

 

Bölüm 9. Bayes ve Destek Vektör Makinesi Sınıflandırıcıları

9.1. Bölümün Amacı        185

9.2. Bayes Algoritması İle Sınıflandırma     185

9.2.1. Bayes Algoritmasının Uygulanması         186

9.3. Destek Vektör Makinesi Algoritması İle Sınıflandırma             193

9.3.1. Destek Vektör Makinesi Algoritmasının Uygulanması    196

9.4. Özet   203

9.5. Araştırma Soruları     203

 

Bölüm 10. Yapay Sinir Ağları ve Derin Öğrenme

10.1. Bölümün Amacı      205

10.2. Yapay Sinir Ağları İle Sınıflandırma  205

10.2.1. Yapay Sinir Ağları Algoritmasının Uygulanması            208

10.2.1.1. Akciğer İle İlgili Bir Çalışma    208

10.3. Derin Öğrenme Algoritması İle Sınıflandırma         214

10.3.1. Akut Miyoleid Lösemi İle İlgili Bir Çalışma   215

10.4.1. Meme Kanseri İle İlgili Klinik Biyopsi Verisinin Derin Öğrenme  221

Algoritması İle Sınıflandırılması    221

10.5. Özet      226

10.6. Araştırma Soruları  226

 

Bölüm 11. Kanser Görüntü Verisinde Konvolüsyonel Derin Öğrenme

11.1. Bölümün Amacı      227

   11.2. Konvolüsyonel Derin Öğrenme Algoritması    227

11.2.1. Konvolüsyonel Sinir Ağları Mimarisi      227

11.1.2. Konvolüsyon İşlemi        228

11.1.3. Konvolüsyon Katmanı   229

11.1.4. Havuz Katmanı  230

11.2.5. Tam Bağlantı Katmanı  230

11.3. Akciğer Kanseri Tomografi Görüntü Analizi   230

11.3.1. DICOM Görüntü Formatı       230

11.3.2. Akciğer Kanseri Görüntü Veri Kümesi    231

11.3.3. Analizde Kullanılacak R Paketleri          231

11.3.4. Tomografi Görüntülerinin Okutulması ve Önişleme       232

11.3.5. Resimlerin Görüntülenmesi     234

11.3.6. Model İçin Verinin Hazırlanması            236

11.3.7. Veri Kümesinin Bölünmesi     236

11.3.8. Konvolüsyonel Sinir Ağı Mimarisi           237

11.3.9. Konvolüsyonel Sinir Ağı Modelinin Elde Edilmesi          239

11.3.10. Modelin Performansı    240

11.4. Meme Kanseri Histopatolojik Görüntü Analizi       240

11.4.1. Meme Kanseri Histopatolojik Veri Kümesi    240

11.4.2. Histopatolojik Görüntülerin Okutulması ve Önişleme   243

11.4.3. Model İçin Verinin Hazırlanması            244

11.4.4. Veri Kümesinin Bölünmesi     245

11.4.5. Sınıfların Dengelenmesi          246

11.4.6. Konvolüsyonel Sinir Ağı Mimarisi           246

11.4.7. Konvolüsyonel Sinir Ağı Modelinin Elde Edilmesi          248

11.4.8. Modelin Performansı      249

11.5. Özet      250

11.6. Araştırma Soruları  250

 

  Bölüm 12. Kanser Verisinde Kümeleme ve Geçerlilik Denetimleri

12.1. Bölümün Amacı      251

12.2. Kümeleme Çözümlemesi         251

12.3. Uzaklıklar        252

12.3.1. Öklid Uzaklığı     252

12.3.2. Manhattan ve Minkowski Uzaklığı        252

12.3.3. Hamming Uzaklığı          253

12.4. Klinik ve Mikrodizi Deneylerde Kümeleme     253

12.5. Kümelemede Geçerlilik Denetimi    254

12.5.1. İçsel Kriterler   254

12.5.2. Dışsal Kriterler     256

12.6. Mikrodizilerde Biyolojik Homojenlik Endeksi        258

12.6.2. Biyolojik Kararlılık Endeksi   258

12.7. Özet      259

12.8.Araştırma Soruları   259

 

Bölüm 13. Hiyerarşik Kümeleme

13.1. Bölümün Amacı      261

13.2. Hiyerarşik Kümeleme Yöntemleri   261

13.3. Birleştirici Kümeleme   261

13.3.1. Mamografik Kitle Verisinin Kümelenmesi      262

13.3.2. Berrak Hücreli Böbrek Sarkomu Araştırması     268

13.4. Ayırıcı Kümeleme   278

13.4.1. Serviks Kanseri İle İlgili Bir Araştırma    279

13.4.2. Verinin Okunması ve Önişleme  279

13.4.3. Kümeleme Modeli           280

13.4.4. İçsel Geçerlilik Endeksleri        281

13.4.5. Dışsal Geçerlilik Endeksleri     283

13.4.6. Biyolojik Geçerlilik Endeksleri    285

13.5. Özet      287

13.6. Araştırma Soruları  288

 

Bölüm 14. Hiyerarşik Olmayan Kümeleme

14.1. Bölümün Amacı      289

   14.2. PAM Algoritması ile Kümeleme      289

14.2.1. Papiller Böbrek Hücreli Kasinomanın Moleküler Sınıflaması   290

14.2.2. Verinin Okunması ve Önişleme  290

14.2.3. Kümeleme Modeli           291

14.2.4. İçsel Geçerlilik Endeksleri        292

14.2.5. Dışsal Geçerlilik Endeksleri     294

14.2.6. Biyolojik Geçerlilik Endeksleri    296

14.3. CLARA Algoritması İle Kümeleme     298

14.3.1.Verinin Okunması ve Önişleme   298

14.3.2. Kümeleme Modeli           299

14.3.3. İçsel Geçerlilik Endeksleri        301

14.3.4. Dışsal Geçerlilik Endeksleri     303

14.3.5. Biyolojik Geçerlilik Endeksleri    304

14.4. Özet      307

14.5. Araştırma Soruları  307

 

Bölüm 15. Kümeleme Modellerinin Karşılaştırılması

15.1. Bölümün Amacı      309

15.2. Kümeleme Modellerinin Karşılaştırılması       309

15.2.1. Meme Kanseri Risk Veri Kümesi             309

15.2.2.Verinin Okunması            310

15.2.3. İçsel Geçerlilik Endeksleri        310

15.2.4. Dışsal Geçerlilik Endeksleri     313

15.3. Özet      315

15.4. Araştırma Soruları  316

 

Kaynakça     317

Dizin         333


http://www.tdk.com.tr/images_buyuk/f67/Algoritma-Gelistirme-ve-Veri-Yap_5767_1.jpg


Önsöz.

Yapay zeka algoritmalarının günümüzde hemen hemen her alanda kullanılmaya başlandığını gözlemliyoruz. Özellikle kanser araştırmalarında bu eğilimin gittikçe kuvvetlendiğini söyleyebiliriz. Yapay zeka yöntemleri hastalıkların tanısında ve risk faktörlerinin değerlendirilmesinde araştırmacılara yardımcı olmaktadır. Veri analizleri yanı sıra, görüntü analizlerinde de kuvvetli bir destek sağlamaktadır.

 

Elinizdeki bu kitap, kanser biyoenformatiği ve yapay zeka algoritmaları konusunda çalışma yapmak isteyenler için tasarlanmıştır. Kanser veri kümelerine erişim, bu veri kümeleri üzerinde uygulanabilecek önişleme yöntemleri, kanser verisinin sınıflandırılması ve kümelenmesi gibi ana konuların ele alınması, bunun yanı sıra çok sayıda örnek uygulamayla araştırmacılara yol göstermek amacındayız. Kitapta sunulan yöntemler aracılığıyla klinik ve mikrodizi veri kümeleri kullanılarak bir hastanın kanser olup olmadığı veya kanser türü hakkında öngörüler geliştirilebilir. Bu özelliği nedeniyle yapay zeka uygulamalarının kanser konusunda bir erken uyarı sistemi olarak değerlendirilebileceğini söyleyebiliriz. Yapay zeka modelleri yardımıyla hastalıkların risk faktörleri ortaya konulabilir. Tedavi sürecinde uygulanan belirteçlerin gücünü belirlemede yine bu yöntemlere başvurulabilir. Yapay zeka yöntemlerinin kanser araştırmalarında kullanılabileceği bir diğer alan, MRI, CT, vb gibi görüntü verilerinden ve kanser ile ilgili patalojik görüntülerden tanı yapılabilmesidir. Hatta cilt kanserleri için elde edilen sayısal fotoğraflar üzerinden analiz edilerek kanser olup olmadığı konusunda öngörüler oluşturulabilir. Özetlenecek olursa, kanser araştırmacısı bu kitapta anlatılanları öğrendiği takdirde, kanser ile ilgili klinik, genetik ve görüntü veri kümelerini kullanarak bir kişinin kanser hastası olup olmadığı konusunda bir öngörüde bulunabilir; risk faktörleri hakkındaki bulgularını ortaya koyabilir;  görüntü verisini kullanarak tümörlerin türü konusunda bir öngörüde bulunabilir.

 

Ancak yapay zekanın bugün ulaştığı gelişkin yeteneklere rağmen, elde edilen sonuçların geleneksel doğrulama yöntemleri ile kontrol edilmesi gerekir. Yapay zeka sistemleri sadece bir erken uyarı sistemi olarak doktorlara yardımcı olabilir, teşhisin doğruluğunu ve hızının artmasında destek sağlayabilir.

 

Kitabımız hem içerdiği konular hem de hacim acısından üniversitelerin lisans ve yüksek lisans bölümlerinde ders kitabı olacak biçimde tasarlanmıştır. Bu alanla ilgilenen herkese yararlı olması umuduyla…

 

Dr. Yalçın ÖZKAN

Doç. Dr. Çiğdem SELÇUKCAN EROL


Mürekkep kokulu kitaplar; Papatya Bilim Yayınevi; farkımız kitaplarımızda...