728x90
반응형

 

● (기본 개념) 바이오 빅데이터는 바이오 연구 수행을 통해 생산, 활용되는 모든 빅데이터를 의미하며 주로 다양한 생물체의 실물에서 도출되는 전체 정보를 뜻함

 

● (바이오 빅데이터의 특징) 기존 빅데이터 대비 바이오 빅데이터는 다음과 같은 특징을 지니고 있어 데이터 처리 및 분석을 위한 별도의 인프라 구축이 요구됨

 

-(데이터 규모와 복잡도) 타 분야 대비 크기 측면에서 대규모의 빅데이터를 다루며 다양한 데이터 형식과 복잡도를 가지고 있음 ※ 인간 게놈 데이터는 30억개의 염기쌍, 약 2만 개의 유전자로 구성되어, 단위 샘플당 전장유전체 약 120GB, 전사체 10GB, 메타지놈 20GB가 생산1). 유전체, 단백질, 대사체 등 데이터 차원도 매우 높아 수백만~수십억개의 관측치 및 수천~수백만개의 특성(feature)을 가질 수 있음

 

※ 연구 목적과 방법에 따라 다르나 유전체 분석의 경우, 100명 이상의 샘플 데이터로 분석하는 것이 신뢰성을 보장하는 최소 규모로 알려져 있음. 일례로 2020년 Nature에 발표된 “Pan-Cancer Analysis of Whole Genomes” 연구에서는 2,658명의 참여자 데이터로 2.4PB 규모의 데이터 분석이 수행된 바 있음

 

-(데이터 유형의 다양성) 바이오 빅데이터는 분석 대상에 따라 다양한 형태의 정보가 수집될 수 있음. 개인을 기준 으로 볼 때 임상정보, 유전체·오믹스(단백체, 대사체, 전사체) 데이터, 생체 신호, 의료 영상 등 다양한 데이터가 생산 되며 이러한 이종 데이터를 통합하여 분석해야 함. 따라서 데이터 분석에 앞서 데이터 표준화 및 통합 이슈를 선결 해야 하는 경우가 많음

 

-(고도의 정보보호 수준) 바이오 데이터는 개인정보를 포함하고 있기 때문에 정보 보호를 위한 데이터 보안이 필요 하며 이를 해결하기 위해서 안전한 데이터 저장 및 처리 시스템과 엄격한 보안 프로토콜이 필요

 

-(데이터 신뢰성) 의료분야에 활용되는 데이터이므로 데이터의 정확성과 신뢰성이 매우 중요함. 이로 인해 데이터 활용에 대한 규제와 윤리적인 문제를 함께 고려해야 함

 

국내 바이오 빅데이터 인프라 구축 동향

 

● (거버넌스) 국가 차원의 생명연구자원 생산·수집·활용 등 제반 체계는 제3차 국가생명연구자원 관리·활용 기본계획(’20~’25)수립을 기점으로 부처별 개별 사업을 다부처사업인 국가생명연구자원 선진화 사업으로 통합하여 추진

 

● (수집 및 제공) 국립중앙인체자원은행(인체자원), 보건의료빅데이터 개방시스템(의료분야 공공데이터), 과기부(KOBIC)/보건복지부(CODA)/해양수산부(MAGIC)/농촌진흥청(NABIC)/국립생물자원관 등 부처별 정보센터에서 분야별 데이터 수집 및 제공

 

● (분석·활용환경)

K-BDS를 중심으로 바이오 연구데이터 분석을 위한 계산 자원 및 통합적 활용환경을 구축하여 제공

 

국가바이오데이터스테이션(K-BDS)

 

 

[ 기존 데이터 인프라의 한계 및 정책 권고사항 ]

 

항목 세부 내용
기존 인프리의 한계 데이터 및 전산 인프라 • 지속 가능한 리소스 부족
• 기존 데이터 및 컴퓨팅 리소스에 대한 접근방식 간소화 미흡
• 해당 리소스 및 사용 방법에 대한 사용자 커뮤니티의 지식과 이해 저조
데이터 • 메타데이터 부재로 인한 데이터 품질 저하
• 기존 표준과 표준화되지 않은 다량의 데이터 간의 부합 문제• 데이터 유형 간 통합 역량 부족 및 아날로그 데이터 접근 능력 제한
• 바이오경제와 관련된 핵심 분야의 데이터 부족
• 개인정보 보호, 윤리, 국가 안보 문제를 비롯해 데이터 생성•사용이 사회와 인간 행동에 미치는 영향에 대한 검토 미흡
데이터 보안 • 개인 식별 정보 등을 포함하고 있는 민군겸용 정보 및 독점 데이터에 대한 보호 장치 마련 필요
정책 권고사 ①︎ 데이터와 전산 자원을 연계하는 데이터 생태계 설계•지원•통합
②︎ 바이오경제 데이터 생태계를 육성•강화하는 공통의 모범 사례 확립 및 표준 개발
③︎ 기존 데이터•메타데이터를 식별하고 신규 데이터를 추가하기 위한 자원 제공
④︎ 혁신 지원 및 데이터 환경 보호를 병행하는 보안 관행 적용 및 정책 개발
⑤︎ 데이터 과학 및 STEM 분야 참여 확대를 위한 연방 고용 메커니즘과 교육•훈련 조치 포함
⑥︎ 핵심 분야(START*) 집중 투자를 검토함으로써 실행 가능성과 파급효과를 파악하고 대규모 투자 방향을 설정
* (Strategically Targeted Areas for Rapid Transformation) 동 보고서의 제안 조치를 시범적으로 이행할 데이터 격차 확인 분야(바이오리액터 발효,非인간 유전체 서열 분석 등)
⑦︎ 정부 부처 간 투자•노력 •자원 조정을 위한 조직 구성(외부 자문위원회 등)


(참고 : OSTP, Vision, Needs, and Proposed Actions for Data for the Bioeconomy Initiative, 2023.12.20.)

 

KISTI 이슈브리프 제58호.pdf
0.91MB

 

 

 

https://www.kisti.re.kr/post/issuebrief/6080;jsessionid=Hhma61eHmn5xmTOw1LXhvGX4nk5Sgwi1UaeCaRlHrUUuFuQ4xUVaQyYq1I1BFNEr.al211_servlet_engine23?t=1687994446936# 

 

국가 바이오 빅데이터 인프라의 미래 : 바이오 빅데이터 인프라 구축 동향 및 발전방향 |

이용이 거부 되었습니다. Permission denied please try again Start Page 정말로 삭제 하시겠습니까? Do you really want to delete? 권호 제 58호 발간일 2023-06-28 저자 이용호 · 이준학 · 강효진 국가 바이오 빅데이

www.kisti.re.kr

 

https://www.kiat.or.kr/front/board/boardContentsView.do?board_id=71&contents_id=444cc8bc1f414bff90ec12c052df96e4&MenuId=878cb9b6d5ec41bf914ad5c0f590ed14

 

한국산업기술진흥원

산업통상자원부 산하기관, 산업기술 R&D 성과분석, 기획연구 등 사업 안내.

www.kiat.or.kr

 

728x90
Posted by Mr. Slumber
,