BİLİM FELSEFE DİN Rotating Header Image

Teorinin Sonu: Veri Madenciliği Bilimsel Metodu Geçersiz Kıldığında

pb_theory_f

Illustration: Marian Bantjes

Yazar: Chris Anderson (Wired baş editörü – canderson@wired.com) (The End of Theory: The Data Deluge Makes the Scientific Method Obsolete)
Çeviri: Mustafa Ajlan Abudak

“Tüm modeller yanlıştır, fakat bazıları yararlıdır.”

İstatistikçi George Box tarafından 30 yıl önce ilan edilmişti ve haklıydı. Fakat ne gibi bir seçeneğimiz vardı? Sadece modeller, kozmolojik denklemlerden insan davranışı teorilerine varıncaya değin çevremizi saran dünyayı, her ne kadar mükemmel olmasa da sürekli açıklayabilir görünüyordu. Şimdiden sonra, devasa bollukta veri çağında büyüyen Google gibi şirketler, yanlış modellere yetinmek zorunda değildir. Gerçekten de, bu şirketler modellerle asla yetinmek zorunda değiller.

60 yıl önce, dijital bilgisayarlar bilgiyi okunabilir kıldı. 20 yıl önce, internet bu bilgiyi erişilebilir hale getirdi. 10 yıl önce, ilk arama motoru zincirleri bu bilgiyi tek bir veri tabanı yaptı. Şimdi Google ve benzer şirketler tarihte en çok ölçümün yapıldığı bir çağda, bu devasa gövdeye insan âleminin bir laboratuvarı şeklinde davranıyorlar. Onlar Petabayt Çağının çocukları.

Petabayt Çağı farklı çünkü daha fazlası farklı. Kilobaytlar disketlerde saklanırdı. Megabaytlar ise sabit disklerde. Terabaytlar disk dizilerinde saklandı. Petabaytlar ise bulutta saklanıyor. İlerleme boyunca hareket ettiğimizde, klasör analojisinden dosya dolapları analojisine oradan da kütüphaneye gittik. Petabaytlara geldiğimizde ise örgütsel analojilerimiz tükendi.

Petabayt boyutunda, bilgi üç ya da dört boyutlu bir sınıflandırılmış hiyerarşinin konusu değildir.  Boyutsal olarak bilinemez bir istatistik yapı sergiler. Bu tamamen farklı bir yaklaşımı gerekli kılar, bilginin bütünlüğünü tahayyül edebilen bir bilgi sınırının kaybını bizden talep eder. Bizleri veriyi matematiksel olarak öncelemek ve bağlamını daha sonra oluşturmaya zorlar. Örneğin, Google reklam dünyasını uygulamalı matematikten başka bir şey yapmayarak fethetti. Google bunu yaparken reklamcılığın gelenekleri ve kültürüyle alakalı bir şey biliyormuş gibi davranmadı. Sadece daha iyi verinin, daha iyi analiz araçlarıyla günün galibi olacağını varsaydı. Ve Google haklıydı.

Google kuruluş felsefesi bu sayfanın diğer sayfadan niçin daha iyi olduğunu bilmiyoruz: Eğer gelen bağlantıların istatistiği bunu bize söylerse, bu yeterlidir. Herhangi bir anlam bilimsel (semantik)  ya da nedensel analiz gerekliydi. İşte tamda bu yüzden Google diller arasında gerçekten o dilleri “bilmeden” çeviri yapabiliyor. (yeterli eşit veri büyüklüğü sağlandığında Google Klingon dilinden Farsçaya tıpkı Fransızca ve Almanca arasında çeviri yapabildiği gibi rahatlıkla çeviri yapabilir.) Ve bu yüzdendir ki, reklamlar ve içeriği ile ilgili herhangi bir varsayımı ya da bilgisi olmadan içerik ile reklamı eşleştirebilmektedir.

O’ Reilly yayın evinin Gelişen Teknolojiler Konferansında konuşan Google araştırma direktörü Peter Norvig, George Box vecizesine bir güncelleme önerdi:

Tüm modeller yanlıştır ve giderek onlarsızda başarabileceğinizi göreceksiniz.

Bu olağanüstü miktarda verinin ve uygulamalı matematiğin bilinen tüm diğer araç gereçlerin yerini aldığı bir dünya. İnsan davranışının her teorisinin ötesinde, dil bilimden sosyolojiye değin yer alan bir çağ.  Sınıflandırmayı (taksonomi), varlık bilimi (ontoloji) ve psikolojiyi unutun. Kim insanların yaptıklarını niçin yaptığını biliyor?

Esas nokta, insanların ne yaptığı değil bizlerin bunu benzeri görülmemiş bir sadakatle izleyip ölçebileceğimizdir. Yeterli miktarda veri ile sayılar zaten kendileri için konuşurlar.

Burada reklamcılık büyük hedef değildir gerçi. Bu bilimdir. Bilimsel metot test edilebilir hipotezlerin çevresinde bina edilir. Bu modeller, genellikle bilim insanlarının zihinlerinde tahayyül edilmiş sistemlerdir. Modeller daha sonra test edilir ve deneyler dünyanın nasıl işlediğine dair teorik modelleri onaylar ya da geçersiz kılar. Bu bilimin yüzlerce yıldır uyguladığı çalışma şeklidir.

Bilim insanları korelasyonun nedensellik olmadığını, X ve Y arasındaki korelasyon (bu tesadüfi olabilir) temel alınarak  hiçbir çıkarımda bulunulamayacağını fark edebilecek şekilde eğitilirler. Bunun yerine bunları birbirine bağlayan alta yatan mekanizmaları anlamak zorundasınız. Bir kez modeliniz olduğunda, veri dizilimini güven içerisinde ilişkilendirebilirsiniz. Bir modeli olmayan veri sadece gürültüdür.

Fakat olağanüstü büyüklükte veri ile karşılaşınca, bilimin bu yaklaşımı-hipotez oluşturmak, modellemek, test etmek- demode olmaktadır. Fiziği ele alalım:  Newton modelleri hakikatin oldukça ham yaklaşımlarıydı. ( atomik seviyede yanlış ama hala yararlı) Yüzyıl önce, istatistik temelli kuantum mekaniği daha iyi bir resim sundu – fakat kuantum en nihayetinde başka bir modeldi ve kuşkusuz kusurlu ve şüphesiz altta yatan daha karmaşık hakikatin bir karikatürüydü. Fiziğin birkaç on yıldır spekülatif n-boyutlu büyük birleştirilmiş teorik modellere doğru sürüklenmesi, (yeterli veri kıtlığının oluşturduğu güzel bir hikaye safhası) aslında bizler hipotezleri geçersiz kılabilecek deneylerin nasıl gerçekleştirilebileceğini bilmiyoruz  –enerjiler çok yüksek, hızlandırıcılar çok pahalı ve benzeri- gibi nedenler sebebiyledir.

Şimdi biyolojide aynı yönde ilerlemektedir.  Okullarda “baskın” ve “çekinik” genler ile alakalı öğretilen modeller ciddi bir şekilde Mendel yanlısı bir süreç ile hakikatin basitleştirilmesini Newton kanunlarından çok daha fazla yapmaktadır. Gen ve proteinlerin etkileşimleri ile ilgili keşifler ve epigenez ile ilgili diğer bulgular, DNA’nın bir kader olduğu yolundaki görüşe ve daha önce genetik olarak olanaksızlık kabul edilen,  çevrenin aktarılan özelliklere etkisinin imkânsızlığına meydan okumaktadır. Kısaca, biyoloji hakkında ne kadar çok öğrenirsek, kendimizi onu açıkladığını düşünen bir modelden o kadar uzaklaşıyor buluyoruz.

Şimdi daha iyi bir yolumuz var. Petabaytlar şunu söylememize izin veriyorlar: “Korelasyon yeterlidir.” Modeller arayıp durmayı bırakabiliriz. Veriyi ne gösterebileceği ile ilgili hipotezler olmadan analiz edebiliriz. Sayıları dünyanın bugüne kadar gördüğü en büyük bilgi işlem kümeleri içine atabilir ve istatiksel algoritmaların bilimin bulamadığı örüntüleri bulmasına izin verebiliriz.

Bunun en iyi uygulamalı örneği J.Craig Venter tarafından gerçekleştirilen gen taramasıdır. Ürettikleri veriyi istatiksel olarak analiz etmesine olanak sağlayan yüksek hızda tarayıcılar ve süper bilgisayarlarla, Venter bireysel bir organizmadan tutun tüm eko sistemin taranmasına kadar bu işi gerçekleştirmiştir. 2003’te Kaptan Cook yolculuğunu yeniden takip ederek okyanusun büyük kısmını taramaya başladı. Ve 2005’te bu sefer havayı taramaya başladı. Süreçte, daha önce bilinmeyen binlerce bakteri ve diğer hayat türlerini keşfetti.

Eğer “yeni türler keşfetti” kelimeleri aklınıza Darwin ve onun ispinoz çizimlerini düşürdüyse, siz bilim yapmanın eski yoluna saplanıp kalmış olabilirsiniz. Venter bulduğu türler hakkında hemen hemen hiçbir şey anlatamayabilir. Neye benzediklerini, nasıl yaşadıklarını ya da morfolojileri ile ilgili herhangi bir şey bilmiyordur. Hatta tüm genom dizilimleri de elinde değildir. Tüm sahip olduğu istatiksel bir işarettir- veri tabanındaki diğer herhangi bir dizilime benzemeyen eşsiz bir dizilim, mutlaka yeni bir türü temsil etmelidir.

Bu dizilim hakkında daha fazla şey bildiğimiz türlerin dizilimlerle bir korelasyon oluşturabilir. O durumda, Venter bu hayvanlar hakkında bazı tahminlerde bulunabilir- mesela güneş enerjisini özel bir yolla enerjiye çevirmekte, ya da ortak bir atadan gelmektedirler. Fakat bununla birlikte, bu türler hakkında Google’ın MySpace sayfanız hakkında sahip olduğu modelden daha iyi bir modeli yoktur. Bu sadece veridir. Venter, bu veriyi Google kalitesinde bilgi işlem kaynakları ile analiz ederek kendi neslinde herhangi birinden çok daha fazla biyolojinin ilerlemesine katkı sağlamıştır.

Bu tarz bir düşünce ana akım haline gelmek üzeredir. Şubatta, Ulusal Bilim Vakfı Küme Keşifi adlı bir programı duyurmuştur. Bu program Google ve IBM tarafından geliştirilen dağıtılmış bir bilgi işlem platform üzerinde, 6 pilot üniversitenin işbirliğinde büyük çapta yürütülecek araştırmalar için tasarlanmış ve desteklenmektedir. Küme yaklaşık 1,600 işlemci, birkaç terabayt bellek, ve yüzlerce terabayt depolama ile IBM’in Tivoli ve Google’ın dosya sistemi ve MapReduce.1 ‘un bazı açık kaynak versiyonlarını sahip olan bir yazılımdan meydana gelecek. Başlangıçtaki projeler beyin ve sinir sistemi ile ilgili simülasyonları ve yazılım ve donanım arasında yer alan diğer biyolojik araştırmaları içerecek.

Bu tip bir “bilgisayarı” kullanmayı öğrenmek oldukça zor olabilir. Fakat fırsat çok büyük: Devasa miktarda yeni veriye erişim ve bunu analiz edebilecek istatiksel araçlarla bu sayıları kırmak, dünyayı anlama yolunda tamamen yeni bir yol sunuyor. Korelasyon nedenselliğin yerini alıyor, ve bilim bundan sonra ilişik modeller, bileşke teoriler ya da herhangi bir mekanik açıklama olmaksızın ilerleyebilecek.

Eski yollarımıza yapışıp kalmak için herhangi bir neden yok. Şimdi şunu sorma zamanıdır: Bilim Google’dan ne öğrenebilir?

Bu yazı (17.05.2009 tarihinden itibaren) toplamda 4258, bugün ise 1 kez görüntülenmiştir.

One Comment

  1. Yazıyı ancak bugün derinlemesine inceleyebildim.Biirkaç yazım hatası var.Sitemde yer alan metinde bunları düzelttim. Buraya aktarabilirseniz sevinirim.

    Konuyla ilgilenenlerin ilgisini çekebilecek diğer makaleler ;

    Şakir Koçabaş’ın kitabından İfadelerin Grametik Ayrımı;

    http://akillitasarim.wordpress.com/2010/10/10/ifadelerin-grametik-ayrimi/

    K.Popper ve C.Hempel açıklamaları ışığında Ockhamlı’nın Usturasında Paradigma ve Tümevarım ;

    http://akillitasarim.wordpress.com/2007/11/18/ockhamlinin-usturasinda-paradigma-ve-tumevarim/

    Şimiden teşekkürler ve iyi çalışmalar…

    Mustafa Ajlan Abudak

Leave a Reply