Temiz ve emniyetli datalar olmadan, data tahlili mümkün değildir. İlgili ve hakikat bilgi olmadan tahlil yapmak ve süreçler hakkında çıkarımlarda bulunmak neredeyse imkansızdır. Hatta kullanılan datalar eski yahut yanlışsa data tahlili, faydadan çok ziyan veren bir sürece dönüşür. Bilgi teknolojileri alanında faaliyet gösteren Mindtree’nin strateji lideri Suman Nambiar, pak dataya nasıl ulaşılacağı konusunda tavsiyelerde bulunuyor.
Kirli bilgi, kirli kararlar
2017 tarihli Harvard Business Review araştırmasında yapılan bir ankette, şirketlerin sadece yüzde 3’lük bir kısmının bilgi kalitesi standartlarını karşıladığı sonucuna ulaşıldı.
Nambiar’a nazaran, birden fazla işletme fikir odaklı kuruluşlar olmaya çalışıyor. Fakat bunu yapmak için farklı analitik teknikleri kullanmak gerekiyor. Bilhassa data depolama sürecinde kirli, yanlış ve geçerliliği olmayan bilgileri kaldırmak, kullanılacak bilgi setinden ayırmak gerekiyor.
Temiz bilgi için birkaç adım
Nambiar, çalışılacak bilginin erişilebilir ve şeffaf olmasının ‘temiz veri’ için birinci adım olduğunu söylüyor. Daha sonra ise standart haline getirilmiş kurallar ile bir data altyapısı oluşturulması gerekiyor. Bu etap, bilgilerin nereden geldiği ve datalarda rastgele bir sapma olup olmadığını anlamada kritik bir değere sahip.
Son devirde kuruluşlar, yapay zeka ve makine öğrenmesi ile bilgilere erişme, bilgileri eşleştirme ve temizleme süreçlerini otomatik olarak yapabiliyor. Böylece süreçler daha süratli bir biçimde gerçekleştirilebiliyor ve insan kaynaklı kusurların önüne geçiliyor. Hatta bunun için Apache Griffin üzere açık kaynaklı yazılımlar da kullanılabiliyor.
Nambiar, son olarak ise datanın daima artan bir yığın olduğunun unutulmaması gerektiğini, daima denetimin gerekliliğini vurguluyor, bilgi kalitesi ölçümünün daima yapılması gerektiğini söylüyor.
Burak KESAYAK
Twitter: @BurakKesayak