You are here

빅데이터를 다룰 때 겪게 되는 5가지 어려움

스네하 쿨카니 | 2015년2월17일 | 조회수 51,438
시리즈 기사 빅테이터
빅데이터를 다룰 때 겪게 되는 5가지 어려움

빅데이터는 과학의 모든 학제에서 실험이 수행되는 방식에 있어 유례 없는 변화를 가져왔습니다. 연구자들이 사용하는 도구는 분야의 특성에 따라 제한되어 있지만, 이제 빅데이터는 어느 학제에서나 공통적인 도구로 자리잡고 있습니다. 빅테이터셋의 이용가능성, 그리고 대량의 데이터를 보존하고 공유할 능력은 연구자들의 과학적 탐구에 있어 여러 가지 새로운 방향을 열어주었습니다.

데이터는 연구의 바탕이기에 연구자들에게는 더할 나위 없이 소중합니다. 따라서 데이터의 홍수는 수많은 연구자들, 특히 유전학, 천문학, 소립자 물리학 분야의 연구자들에게 엄청난 도움이 됩니다. 빅데이터는 과학에 새로운 패러다임으로 간주되고 있는데, 한편으로 통계학자들은 빅데이터는 그 속성 자체가 다차원적이며 자꾸 변화하기 때문에 연구자들이 주의할 필요가 있다고 조언합니다. 연구자들은 빅데이터를 열렬히 받아들였음에도, 빅데이터는 기회만을 제공하는 것이 아니라 복잡성을 가져오기도 합니다. 현재 빅데이터를 다루는 학자들이 직면한 어려움 중에는 다음과 같은 것들이 대표적입니다.

1. 데이터의 효율적 관리가 어렵다: 기관의 지원을 받지 않은 연구자들이 대량의 데이터셋을 보존하는 데는 인프라적, 경제적 문제가 발생합니다. 이를 차치하고서라도, 대규모 데이터셋을 관리하고 공유할 때 개인정보, 보안, 데이터 순수성 등의 문제로 인해 국제 협력 시 이해관계 충돌이 일어날 수 있기 때문에 복잡해집니다. 따라서, 인프라적 어려움을 극복하고 데이터기반 연구를 가능케 할 수 있는 지속 가능한 경제적 모델의 필요성이 촉구됩니다.

2. 데이터수집이 연구설계보다 우선된다: 모든 연구에 데이터가 필수이기는 하지만 때로 연구 설계에 공을 들이는 대신 데이터 수집에 치중하는 경우가 있습니다. 데이터가 많으면 더 우수한 연구로 직결될 것이라고 잘못 생각하는 학자들도 있습니다. 데이터의 수집 방법, 수집의 목적에 대해 잘 생각하지 않고, 연구를 촉진시킬 수 있으리라는 생각으로 대량의 데이터를 수집하는 경우들이 있습니다. 이러한 행태를 보여주는 한 예로, 영국에서 멸균우유의 장점을 평가하기 위해 2만명의 아동을 대상으로 진행한 연구가 있습니다. 통계학자 윌리엄 고셋(William Gosset)은 이 연구의 설계와 규모 모두 비판했는데, 이 실험에서는 무작위추출이 적절히 이루어지지 않았기에 차라리 6쌍의 쌍둥이로만 진행한 연구에서 더 신뢰할 만한 결과가 나왔으리라는 것이었습니다. 

3. 빅데이터 분석에 특수한 도구가 필요하다: 대량의 데이터는 기존의 데이터 분석 도구로는 분석할 수 없습니다. 일반적인 소프트웨어 기술은 소량의 데이터셋 분석에 적절한데, 빅데이터의 경우 양이 많기 때문에 분석할 때 어마어마한 시간이 걸리거나 아예 기존 도구로는 다룰 수가 없기 때문입니다. 따라서 데이터를 모형과 연관하고 적절히 측정하기 위해서는 특수한 도구가 필요합니다. 빅데이터 분석의 도구 중에는 마이크로소프트의 알고리즘인 FaST-LMN 등이 있습니다.

4. 데이터의 홍수 때문에 데이터 해석이 어렵다: 빅데이터는 다양한 출처에서 나온 다면적이고 복잡한 데이터이기 때문에 해석이 어렵습니다. 예를 들면, 전세계 인구에 대한 정보를 포함한 데이터셋은 다양한 지리적 위치와 생활방식 등에 기반한 데이터로 이루어져 있기 때문에 서로 다른 테크닉을 통해 수집됩니다. 연구자들이 데이터의 모든 측면을 고려하지 못해 부정확한 결론에 이를 수도 있습니다. 따라서 통계 편향을 극복할 수 있는 믿을 만한 데이터 해석 방법을 개발할 필요가 있습니다.

5. 데이터에서 패턴을 찾으려는 경향은 위험할 수 있다: 빅데이터의 규모가 크기 때문에 연구자들은 데이터셋으로부터 쓸모 있는 데이터를 분리할 필요가 있습니다. 그러나 많은 경우 불필요한 데이터를 삭제하는 대신 데이터로부터 애초에 생각한 아이디어를 증명할 수 있을 때까지 패턴을 찾으려는 경향이 보입니다. 이는 연구를 수행할 때 아주 위험할 수 있습니다.

데이터는 분명 소중한 자산입니다. 이 점은 2012년 세계경제포럼에서 데이터를 새로운 종류의 경제적 자산으로 선포했다는 사실로 뒷받침됩니다. 또, 빅데이터는 과학의 진보에 중대한 역할을 하고 있습니다. 그러나 대량의 데이터 처리에 따르는 부정적 측면을 들자면, 빅데이터가 항상 양질의 데이터는 아니라는 것입니다. 그러므로 연구자들은 연구 내용에 대한 전문성 그리고 과학적 추론을 통한 균형적인 시작으로 빅데이터가 가진 최선의 가능성을 끌어낼 필요가 있습니다.

데이터의 수집과 분석에 있어 연구자들이 겪는 어려움이 궁금하시면, 노르웨이의 수학자, 생물통계학자, 의학연구자이자 지구통계학 박사학위를 소지한 과학 커뮤니케이터 Jo Roislien 박사와의 인터뷰를 읽어 보십시오.

추가로 읽어볼 기사 : 과학에서 “빅데이터(Big Data)”란 무엇일까?

스크랩하기

해당 기사를 스크랩해보세요!

지식은 모두에게 함께 공유되어야 한다는 것이 에디티지 인사이트의 이념입니다. 해당 사이트에서 제공되는 모든 기사는 Creative Commons license로 재포스팅 및 스크랩이 가능합니다. 아래의 가이드라인만 유념해주신다면 언제든지 무료로 에디티지 학술 전문가의 지식을 가져가실 수 있습니다!


  • 주의 : 에디티지 학술 전문가들은 해당 콘텐츠를 만들기 위해 많은 시간과 노력을 쏟고 있습니다. 기사를 스크랩 및 재포스팅 하실 때는 명확한 출처를 남겨주시기 바랍니다.
  • 이미지 재사용: 이미지를 원본이 아닌 편집 재사용하실 때는 에디티지 인사이트의 허가가 필요합니다.

코드를 복사하셔서 기사 공유를 원하시는 사이트에 적용하시면 에디티지 인사이트 기사를 가장 쉬운 방법으로 공유하실 수 있습니다.
 
위 코드를 복사하시어 원하시는 곳에 다시 포스팅 하실 수 있습니다.

Comments