먼 과거에는, 정보는 허가나 제한의 대상인 적이 없었습니다. 유라시아 전역에 걸쳐, 필경사(scribes)들은 그들이 접하게 되는 글들을 옮겨 적었고, 보통 그 섭리를 알 수는 없는 지식의 거대한 보고로 이끌었습니다. 하지만 여전히 운이 좋은 소수만이 이러한 지식을 접할 수 있었습니다.
이후에 일어난 도서관의 대중화, 인쇄 자동화, 그리고 지식에 대한 접근성을 크게 향상시킨 인터넷과 같은 혁신에도 불구하고, 지적재산권법은 독자가 정보를 활용하는 것이 종종 제한을 받는다는 것을 의미합니다1.
오픈 소스 데이터와 자료는 제한이 없거나 매우 적은 정도의 제한만 받습니다. 이러한 자료는 누구나 비용을 들이지 않고 자유롭게 접근하고, 사용하고, 수정하며 공유할 수 있습니다. 여기에는 데이터셋, 소프트웨어, 하드웨어, 출판물, 교육 자료 등이 해당됩니다. 이에, 개방 과학 (open science) 생태계 개선을 위해 이러한 정보를 현명하게 활용하는 방법에 대해 이야기해보고자 합니다.
오픈 소스의 간략한 역사
오픈 소스 운동(open-source movement)은 소프트웨어 배포를 제한하는 특허권과 저작권에 대한 대응으로 1980년대에 일어났습니다2. 이 때, 오픈 소스 운동은 새로운 아이디어를 도입했는데, 사용자의 자유가 제한되지 않는다는 것을 보장하는 데이터와 소프트웨어에 라이센스를 적용하는 것이었습니다. 이는 현재 두 가지 모델로 나뉘어 있습니다: 카피레프트 라이센스 - GPL 라이센스 등, 동일한 라이센스를 적용하는 경우 누구나 제한없이 정보를 사용하고 공유할 수 있도록 정보를 공유; 허용적 라이센스 - BSD 라이센스 등, 사용자에게 제한사항을 두지 않음.3
무료 오픈 소프트웨어 운동의 기념비적인 성공에 이어, 오픈 라이센스는 이제 데이터셋, 그림파일, 활자출판물, 그리고 하드웨어와 같은 다른 형태의 자료에도 적용됩니다.
과학 연구 분야에서의 오픈 소스
연구자들, 특히 경력이 짧은 연구자들이 오픈 소스 데이터를 통해 많은 혜택을 보고 있으며4, 이로 인해 오픈 소스 데이터는 성장하고 있습니다. 첫째로, 협업, 특히 학제간 연구를 가능하게 합니다. 데이터를 공개함으로써 투명성 또한 높아지고, 이로 인해 연구의 재현성과 신뢰성에 도움이 되며, 연구 자체에도 도움이 됩니다. 마지막으로, 연구 진행의 비용과 장벽을 낮출 수 있습니다. 예컨대 남반구 저개발국가에 있는 대학의 연구자는 차세대 시퀀서와 같은 최첨단 장비를 접할 가능성이 훨씬 낮지만, 만약 그들이 오픈 소스 데이터에 접근하게 된다면 자원이 부족하더라도 유용한 생물정보학 연구를 수행할 수 있습니다.
하지만 오픈 소스 정보를 사용하는 것에는 어려움과 위험 요소도 있는데, 적절한 양질의 출처를 찾기 어렵다는 점, 데이터와 자료가 유효하고 신뢰할 만한지에 대한 의문, 그리고 준수해야만 하는 윤리적 원칙과 관례 등입니다.
적절한 자료 찾기
오픈 소스 데이터와 자료를 사용하기에 앞서, 연구 주제와 방법에 적합한 자료를 찾아야만 합니다. 이러한 자료 공유를 가능케하기 위해서, 연구자들은 다양한 분야의 오픈 소스 정보를 호스팅하는 다양한 플랫폼과 저장소를 개발했습니다. 아래에 몇가지 예가 있습니다.
- 제노도 (Zenodo): 유럽입자물리연구소(CERN)가 운영하는 범용 저장소로, 데이터셋, 소프트웨어, 출판물, 포스터 등 모든 유형의 연구 결과물을 업로드하고 공유할 수 있음.
- 깃허브 (GitHub): 오픈 소스 소프트웨어 프로젝트를 호스팅하는 플랫폼으로 개발자들이 코드나 문서화 작업, 또는 이슈 등과 관련하여 협력할 수 있는 곳이며, 버전 관리 기능이 있음.
- 오픈 사이언스 프레임워크 (Open Science Framework): 프로젝트 관리부터 자료 공유 및 보관까지 전체적인 연구 라이프사이클을 지원하는 플랫폼이자 관리도구(tool)
- 피그셰어 (Figshare): 데이터셋, 소프트웨어, 출판물, 미디어 파일 등 모든 형태의 연구 결과물을 업로드하고 공유할 수 있는 저장소
- 드리아드 (Dryad): 동료 검토(peer-review)한 자연과학 분야 발행물 관련 자료를 선별하고 보존하는 저장소
- 캐글 (Kaggle): 데이터 사이언스와 기계 학습(machine learning)을 위한 데이터셋과 경쟁(competition)을 주최하는 플랫폼
- 오픈에어 (OpenAIRE): 유럽 내 다양한 출처의 공개 출판물과 자료를 종합해주는 네트워크
이러한 것들은 연구에 활용해 볼 수 있는 오픈 소스 저장소의 몇 가지 예입니다. 구글 데이터셋 서치 (Google Dataset Search) 나 데이터사이트 (DataCite) 와 같은 검색 엔진 또한 다양한 출처의 오픈 소스 데이터를 찾는데 도움이 될 것입니다.
품질과 신뢰성 평가
정보의 신빙성 및 신뢰성을 평가하는 방법을 배우는 것은 어느 연구자에게나 필수적입니다. 마찬가지로, 연구를 위한 오픈 소스 데이터 및 자료의 잠재적 출처를 찾은 후에는 이를 철저히 평가해야 합니다. 아래는 오픈 소스 데이터 및 자료를 평가하는 데 활용할 수 있는 몇 가지 평가 기준과 주요 질문사항입니다.
- 출처(provenance): 해당 데이터나 자료를 만든 이 또는 기여한 사람은 누구인가? 그들이 무엇에 전문적이고 평판이 어떠한가? 추가 정보나 확인을 위해 어떻게 그들에게 연락할 수 있는가?
- 문서화(documentation): 해당 데이터나 자료가 얼마나 잘 문서화되어 있는가? 출처, 목적, 방법론, 양식, 구조, 변수 등에 대한 명확하고 종합적인 정보를 포함하고 있는가?
- 메타데이터(metadata): 해당 데이터나 자료가 메타데이터로 잘 설명이 되고 있는가? 어떤 표준이나 도식을 따르고 있는가?
- 라이센스(license): 해당 데이터나 자료의 이용 약관은 무엇인가? 확실하고 분명한 라이센스를 가지고 있는가? 어떤 제한이나 수수료 없이 해당 데이터 또는 자료에 접근하거나 이를 사용, 수정, 공유할 수 있도록 허락하는가?
- 품질(quality): 해당 데이터나 자료가 얼마나 정확하고 일관적이며 적절한가? 연구 필요와 기대를 충족하는가? 해당 데이터셋에 오류나 제한은 없는가?
- 구성 방식(format): 해당 데이터나 자료에 접근하거나 이를 사용, 조작, 분석하기가 쉬운지? 표준 또는 호환 가능한 방식인가? 특정 소프트웨어나 도구가 필요한가?
이러한 질문들에 대한 답이 명확해진 후 연구에 가장 적합한 데이터를 선택할 수 있습니다.
윤리적 원칙과 관례 준수
데이터나 자료의 작성자나 기여자 뿐 아니라 연구 공동체의 권리와 이익을 존중하는 윤리적 개념을 준수하는 것은 매우 중요합니다.
첫째로, 데이터나 자료의 창작자나 기여자의 지적재산권은 그들의 기여에 대해 적절히 인정하는 방식으로 존중되어야 합니다. 데이터나 자료의 라이센스 약관을 준수하여야 하고 라이센스를 침해해서는 안됩니다5.
다음으로, 연구에 활용하는 데이터나 자료는 출처나 출판물에 안내된 인용 지침에 따라 인용되어야 합니다. 또한 데이터나 자료의 링크를 표기하여야 하고, 원자료를 수정하였다면 그 또한 표시해야 합니다.
마지막으로, 오픈 소스 데이터는 본인이 직접 생성한 데이터와 마찬가지로 책임감 있고 엄격한 방식으로 사용되어야 합니다. 여기에는 연구의 유효성과 신뢰성을 손상시킬 수 있는 오류, 편향, 또는 잘못된 해석을 방지하는 것이 포함됩니다. 다른 어떤 데이터와 마찬가지로, 연구 결과나 결론에 영향을 미칠 수 있는 한계나 불확실성이 있다면 보고해야 합니다6.
이와 같은 윤리적 원칙과 관례를 따름으로써, 존중하고 책임감 있으며 나의 연구와 연구 공동체 모두에게 이득이 되는 방식으로 오픈 소스 데이터 및 자료를 사용할 수 있습니다.
결론
오픈 소스 데이터와 자료를 현명하게 활용한다면 연구자에게 큰 도움이 될 수 있습니다. 오픈 소스 정보를 책임감 있게 관리하는 것은 개인 연구자들 뿐 아니라 그들이 속한 전체 학계에도 도움이 될 수 있습니다. 오픈 소스 저장소에 정보를 공개하는 것 또한 학계에 공헌하고 내 연구의 영향력을 극대화하여 경력을 향상시킬 수 있는 매우 중요한 방법이기도 합니다7.
전문 통계학자와 1:1 상담을 원하십니까? 에디티지(Editage)의 통계 분석 및 검토 서비스 (Statistical Analysis & Review Service)를 확인해보세요.