기획기사

한국에너지기술연구원 기획기사

[헤럴드포럼] 튼튼한 데이터 댐을 희망하며

  • 작성일 2020.09.11
  • 조회수 21167

[이제현 한국에너지기술연구원 플랫폼연구실 선임연구원]


대전 현충원 인근에는 덕명하우스토리 아파트가 있다. 23층짜리 102동은 몇 층일까?


6시 내 고향은 몇 시에 하나요? 같은 어리석은 질문이지만 국토교통부에서 제공하는 공간정보 오픈플랫폼에 따르면 답은 0층이다. 이번엔 대전광역시 동구에 있는 산내뜰식물원의 넓이를 맞춰보자. 위성 지도에서도 뚜렷이 보이는 곳이지만 같은 곳의 데이터에 의하면 연면적과 대지면적이 모두 0제곱미터다. 데이터를 의심해야 하는 대목이다.


최근 정부가 1500여억원의 예산을 들여 구축 중인 빅데이터 플랫폼은 어떨까. KT 통신 빅데이터 플랫폼에는 건물 정보 데이터가 있다. 왜 건물 데이터가 통신 플랫폼에 들어가 있는지도 의문이지만 데이터 항목명이 없어 무의미한 숫자의 나열에 불과하다. 한국수자원공사의 환경 빅데이터 플랫폼도 유사하다. 아시아 국가별 인문사회 정보 데이터에는 태국의 정부 설명 항목에 4월이 가장 더움이라는 기후 설명이 들어가 있고, 데이터 소스 항목에는 검색 사이트의 이름들이 적혀 있다. 데이터의 공신력을 담보하기 어렵다.


4차 산업혁명의 파도를 타고 코로나19라는 위기를 벗어나고자 정부는 한국형 뉴딜을 추진하고 있다. 이 중 데이터 댐 구축 사업에 2025년까지 27조원이 투입될 예정이다. 데이터 댐 구축 사업은 전 산업을 5G, AI와 접목하기 위해 데이터의 수집에서 활용에 이르는 생태계를 만드는 것을 골자로 한다. 그리고 그 중심에 빅데이터 플랫폼 확대를 통한 14만개의 공공데이터 개방, 1300종의 AI학습용 데이터 구축이 놓여 있다.


그러나 상한 재료로 요리를 하면 건강한 음식이 나올 수 없듯 잘못된 데이터는 올바르게 활용될 수 없다. 데이터 댐이 부실공사로 전락하지는 않을까 하는 우려가 나오는 이유다. 특히 대량의 데이터는 품질 관리가 어렵다. 검수를 하려고 해도 방대한 양으로 인해 일일이 들여다보기가 사실상 불가능하며 간혹 수작업으로 인해 문제가 발생하기도 한다. 데이터를 직접 다뤄본 경험이 없는 관리직은 오류를 예상하기도 어렵고, 디테일이 생략되는 상향식 보고서에 세세한 데이터 오류까지 담길 공간은 없다.


데이터 댐의 품질관리를 위해 기계와 사람이 협업하는 데이터 자동 검수 시스템 구축이 시급하다. 기계는 많은 숫자를 빠르게 다룰 수 있다. 신규 데이터값이 규칙에 어긋나면, 과거와 동일한 중복 데이터라면 그 시점에서 오류를 알려야 한다. 2014년 상왕십리역에서 발생했던 추돌 사고의 원인은 3일 전 발생한 데이터 오류였다. 미리 알아챘다면 388명의 부상과 26억원의 재산 손실을 막을 수 있었을 것이다.

대공황 시기 미국은 후버 댐을 건설해 단기 일자리를 다수 창출했으나 댐의 품질도 양보하지 않았다. 그 결과 라스베이거스가 탄생했고, 지금까지 농업용수의 원천이 되고 있다. 데이터 댐 역시 일시적 경기 부양책으로 머물러서는 안 된다. 한국형 뉴딜의 후속 사업을 이어 가기 위한 전제 조건이자 앞으로의 산업 체질을 전환하기 위한 디딤돌이기 때문이다. 댐에 균열이 생기면 사람의 힘으로는 붕괴를 막을 수 없다. 시스템에 입각한 능동적 데이터 검수를 통해 데이터 댐이 튼튼하게 구축되기를 희망한다.


기사원문링크 : http://news.heraldcorp.com/view.php?ud=20200910000574

프린트 돌아가기

기획기사
List Gallery Webzine RSS FEED