● (기본 개념) 바이오 빅데이터는 바이오 연구 수행을 통해 생산, 활용되는 모든 빅데이터를 의미하며 주로 다양한 생물체의 실물에서 도출되는 전체 정보를 뜻함
● (바이오 빅데이터의 특징) 기존 빅데이터 대비 바이오 빅데이터는 다음과 같은 특징을 지니고 있어 데이터 처리 및 분석을 위한 별도의 인프라 구축이 요구됨
-(데이터 규모와 복잡도) 타 분야 대비 크기 측면에서 대규모의 빅데이터를 다루며 다양한 데이터 형식과 복잡도를 가지고 있음 ※ 인간 게놈 데이터는 30억개의 염기쌍, 약 2만 개의 유전자로 구성되어, 단위 샘플당 전장유전체 약 120GB, 전사체 10GB, 메타지놈 20GB가 생산1). 유전체, 단백질, 대사체 등 데이터 차원도 매우 높아 수백만~수십억개의 관측치 및 수천~수백만개의 특성(feature)을 가질 수 있음
※ 연구 목적과 방법에 따라 다르나 유전체 분석의 경우, 100명 이상의 샘플 데이터로 분석하는 것이 신뢰성을 보장하는 최소 규모로 알려져 있음. 일례로 2020년 Nature에 발표된 “Pan-Cancer Analysis of Whole Genomes” 연구에서는 2,658명의 참여자 데이터로 2.4PB 규모의 데이터 분석이 수행된 바 있음
-(데이터 유형의 다양성) 바이오 빅데이터는 분석 대상에 따라 다양한 형태의 정보가 수집될 수 있음. 개인을 기준 으로 볼 때 임상정보, 유전체·오믹스(단백체, 대사체, 전사체) 데이터, 생체 신호, 의료 영상 등 다양한 데이터가 생산 되며 이러한 이종 데이터를 통합하여 분석해야 함. 따라서 데이터 분석에 앞서 데이터 표준화 및 통합 이슈를 선결 해야 하는 경우가 많음
-(고도의 정보보호 수준) 바이오 데이터는 개인정보를 포함하고 있기 때문에 정보 보호를 위한 데이터 보안이 필요 하며 이를 해결하기 위해서 안전한 데이터 저장 및 처리 시스템과 엄격한 보안 프로토콜이 필요
-(데이터 신뢰성) 의료분야에 활용되는 데이터이므로 데이터의 정확성과 신뢰성이 매우 중요함. 이로 인해 데이터 활용에 대한 규제와 윤리적인 문제를 함께 고려해야 함
국내 바이오 빅데이터 인프라 구축 동향
● (거버넌스) 국가 차원의 생명연구자원 생산·수집·활용 등 제반 체계는 제3차 국가생명연구자원 관리·활용 기본계획(’20~’25)수립을 기점으로 부처별 개별 사업을 다부처사업인 국가생명연구자원 선진화 사업으로 통합하여 추진
● (수집 및 제공) 국립중앙인체자원은행(인체자원), 보건의료빅데이터 개방시스템(의료분야 공공데이터), 과기부(KOBIC)/보건복지부(CODA)/해양수산부(MAGIC)/농촌진흥청(NABIC)/국립생물자원관 등 부처별 정보센터에서 분야별 데이터 수집 및 제공
● (분석·활용환경)
K-BDS를 중심으로 바이오 연구데이터 분석을 위한 계산 자원 및 통합적 활용환경을 구축하여 제공
[ 기존 데이터 인프라의 한계 및 정책 권고사항 ]
항목 | 세부 내용 | |
기존 인프리의 한계 | 데이터 및 전산 인프라 | • 지속 가능한 리소스 부족 • 기존 데이터 및 컴퓨팅 리소스에 대한 접근방식 간소화 미흡 • 해당 리소스 및 사용 방법에 대한 사용자 커뮤니티의 지식과 이해 저조 |
데이터 | • 메타데이터 부재로 인한 데이터 품질 저하 • 기존 표준과 표준화되지 않은 다량의 데이터 간의 부합 문제• 데이터 유형 간 통합 역량 부족 및 아날로그 데이터 접근 능력 제한 • 바이오경제와 관련된 핵심 분야의 데이터 부족 • 개인정보 보호, 윤리, 국가 안보 문제를 비롯해 데이터 생성•사용이 사회와 인간 행동에 미치는 영향에 대한 검토 미흡 |
|
데이터 보안 | • 개인 식별 정보 등을 포함하고 있는 민군겸용 정보 및 독점 데이터에 대한 보호 장치 마련 필요 | |
정책 권고사항 | ①︎ 데이터와 전산 자원을 연계하는 데이터 생태계 설계•지원•통합 ②︎ 바이오경제 데이터 생태계를 육성•강화하는 공통의 모범 사례 확립 및 표준 개발 ③︎ 기존 데이터•메타데이터를 식별하고 신규 데이터를 추가하기 위한 자원 제공 ④︎ 혁신 지원 및 데이터 환경 보호를 병행하는 보안 관행 적용 및 정책 개발 ⑤︎ 데이터 과학 및 STEM 분야 참여 확대를 위한 연방 고용 메커니즘과 교육•훈련 조치 포함 ⑥︎ 핵심 분야(START*) 집중 투자를 검토함으로써 실행 가능성과 파급효과를 파악하고 대규모 투자 방향을 설정 * (Strategically Targeted Areas for Rapid Transformation) 동 보고서의 제안 조치를 시범적으로 이행할 데이터 격차 확인 분야(바이오리액터 발효,非인간 유전체 서열 분석 등) ⑦︎ 정부 부처 간 투자•노력 •자원 조정을 위한 조직 구성(외부 자문위원회 등) |
(참고 : OSTP, Vision, Needs, and Proposed Actions for Data for the Bioeconomy Initiative, 2023.12.20.)
'01.Digital Service' 카테고리의 다른 글
반도체 - 메모리 - PIM (Processing-In-Memory) - SW 플랫 (0) | 2024.02.28 |
---|---|
디지털 플랫폼 - 빅테크 - 디지털세(Digital Tax) (0) | 2024.02.27 |
클라우드 컴퓨팅 - FaaS, 서버리스(Serverless) 컴퓨팅 (2) | 2024.02.01 |
클라우드 컴퓨팅 - FaaS, 서버리스(Serverless) 컴퓨팅 - 데이터 시스템의 아키텍처 (1) | 2024.02.01 |
압축기술 - 코덱 (Codec) - HALAC - 매우 빠른 무손실 오디오 압축 코덱 (2) | 2024.01.03 |