데이터 수집은 수렵사회와 농업사회, 산업사회에서도 중요하다. 예를 들면 농업 사회에서 작물 수확량 데이터를 이용해서 휴경지 결정한다.
그러나 과거에는 데이터가 일회성이며 얻기 어려웠던데 반해 최근에는 점차 그 양이 엄청나게 많아지고 (abundant) 자체의 가치가 높아지고 있으며 (valuable) 재사용이 가능해지고 있다. (renewable)
데이터 증가 속도는 현재 세계 데이터의 약 90%는 최근 2년 이내에 생성된 것들이고, 비즈니스 데이터는 1.2년마다 두 배로 증가하고 있다.
참고로 매일 2.5 엑사바이트 생성 의료영상데이터 약 665 테라바이트, 기상데이터 약 20 테라바이트, 금융거래데이터 4~5 테라바이트 등이다.
CERN 연구소에서의 실험시 초당 40 테라바이트 데이터가 생성되고 있다. DNA 하나당 약 200기바이트의 데이터가 생성된다. 사물인터넷의 등장으로 증가 속도가 더욱 빨라질 것으로 전망이다.
가치 증가는 데이터로부터 새로운 인사이트를 도출한다. 캐나다 연구자들은 대용량 데이터셋을 분석하여 미숙아들의 갑작스러운 고열 발생에 영향을 주는 하루 전의 영향 요인 발견했다.
20년 간의 신문 분석을 통한 앙골라의 콜레라를 예측했다. 지진 발생을 예측하는 알고리즘을 이용해 500 피트 단위별 범죄발생 가능성 예측했다.
재사용 가능은 과거에는 새로운 데이터를 위해 기존의 데이터를 지웠지만, 저장 가격의 하락으로 지우지 않고도 보관할 수 있는 여유가 생겼다.
데이터 이용환경이 변화하게 된 원인은 데이터의 생성과 저장, 분석, 활용에서 지속적인 비용 감소이다. 매년 약 38%씩 저장 비용 감소됐다. (1992년 $569/GB, 2012년 $0.03/GB)
특히, 클라우드 컴퓨팅의 발전으로 규모의 경제가 이루어지면서 비용이 획기적으로 하락하였으며, 데이터 이용에 편리한 환경에 구축되면서 비용 하락속도가 더 빨라지고 있다.
컴퓨팅과 인터넷, 그리고 소프트웨어의 성능 향상과 가격 하락으로 최근에는 실시간 분석과 그에 따른 자동화된 의사결정의 도입이 확대되고 있다.
[한국뉴스투데이 박병철 기자]
Copyrights ⓒ 한국뉴스투데이(www.koreanewstoday.co.kr), 무단 전재 및 재배포 금지
박병철 news@koreanewstoday.co.kr
저작권자 © 한국뉴스투데이 무단전재 및 재배포 금지