728x90
반응형

데이터 원본, 기존DW대체

실시간, 데이터 플랫폼, 하둡API

데이터 접근성 제공 목적

데이터 분석 요구 증가

 

 

[개념] 대용량 정형/비정형 데이터 볼륨을 저장하고 손쉽게 접근할 수 있게 제공하는 대규모 repository

[변화] 데이터마트-데이터웨어하우스-실시간 스트림- 데이터레이크

[주요기능] 저장, 분석, 전달 및 실행, 보안, 거버넌스와 통합

[아키텍처] EDW,Discovery 플랫폼-거버넌스(배치스크립트, YARN, HDFS)-보안,운영

 

[고려]

1)품질보증,품질표준

2)공공안전,프라이버시 보호

3)사용처 추적관리

4)인식개선,활용도 제고

5)고용창출등 촉매제 공급

 

 

연합 AI·데이터레이크 구성(안)

 

데이터레이크(Data Lake)는 데이터웨어하우스(DW)에서 확장된 개념의 데이터 저장소다. DW 가 정형 데이터를 대상으로 한다면, 데이터레이크는 데이터의 종류와 관계없이 한 곳에 저장해둔다. 데이터를 저장할 때가 아니라 꺼내서 쓸 때 정의하는 것이 특징이다.

 

데이터레이크는 빅데이터 시대의 새롭에 떠오른 데이터 관리 기법이지만, 구현이 쉽지 았았다. 여러 소스에서 데이터 로딩, 버킷과 파티션 설정, 데이터 청소 및 준비, 여러 서비스 상에서 보안 정책 실시, 액세스 제어 설정 세부 구성 등의 작업을 요한다.

 

이런 문제를 해결하기 위해 AWS는 AWS 레이크 포메이션(AWS Lake Formation)이라는 제품을 선보였다. AWS 레이크 포메이션은 데이터 레이크 환경을 손쉽게 만들기 위한 역할을 한다. 데이터 레이크 구성을 위한 번거로운 과정을 제거해 며칠 안에 데이터 레이크를 구축할 수 있는 기능을 제공한다. 처리하고자 하는 데이터 소스를 간단히 정의한 후 미리 정해진 데이터 액세스 및 보안 정책 리스트 중 선택해 적용할 수 있다.

(https://byline.network/2018/12/3-26/

 

AWS가 re:invent 2018에서 쏟아낸 새 서비스 TOP 10 - Byline Network

세계 최대의 클라우드 업체 아마존웹서비스(AWS)가 지난주 미국 라스베이거스에서 연례 기술 컨퍼런스 ‘AWS 리인벤트(re:invent) 2018’을 개최했다. AWS는 올해도 이 자리에서 새로운 기술과 서비스�

byline.network

 

데이터는 ERP CRM SCM 등의 데이터만 분석 대상이 아니다. 사물인터넷, 소셜미디어, VoC(Voice of Cumstmer), 웹사이트 클릭스트림 등 다양한 데이터가 분석 대상이 됐다. 기존에는 이런 데이터들은 생성돼도 버려지기 일쑤였지만, 4차 산업혁명이 이야기되는 현재는 이런 데이터에서 경쟁력이 생긴다. 인공지능이나 머신러닝 등을 활용하기 위해서도 이런 데이터는 중요하다.

 

이를 위해 등장한 개념이 ‘데이터 레이크’다. 데이터 레이크는 데이터의 종류를 묻지도 따지지도 말고 저장하는 공간을 말한다. 기업에서 발생하는 데이터를 모아서 한 곳에 저장해두자는 접근법은 DW와 같지만, 대상으로 하는 데이터의 종류가 다르다. DW는 구조적 정형 데이터가 대상이지만, 데이터 레이크는 모든 데이터가 대상이다.

 

그런데 모든 데이터를 저장한다는 것은 쉬운 일이 아니다. 데이터는 기하급수적으로 늘어가는데 기업 내 데이터센터는 한정적이다. 하둡 같은 기술이 등장하면서 빅데이터를 저장하는 것이 쉬워졌지만, 무한대로 하둡 노드를 늘릴 수도 없고 늘린다해도 분석이 쉽지 않다.

 

이 때문에 클라우드에 데이터 레이크를 구축하는 것이 유리하다. 클라우드는 데이터가 늘어나는 대로 빠르게 대응할 수 있기 때문이다.

 

 

데이터 레이크에 저장된 데이터는 분석이 필요할 때 그에 맞는 방법으로 분석할 수 있다. 예를 들어 전통적인 BI 툴로 분석을 하고자 한다면 DW에 데이터를 보낼 수 있다. Glue는 카탈로그뿐 아니라 ETL 기능도 하는 서비스다. 데이터 레이크(S3)에 저장된 데이터를 Glue를 통해 DW으로 보낼 수 있다. AWS는 레드시프트라는 DW용 DB 서비스를 제공중이다.

 

이뿐 아니라 하둡과 같은 비정형 데이터를 분석할 때는 EMR(Elastic MapReduce)이라는 서비스를 이용하면 되고, ad-hoc 쿼리는 안테나라는 서비스로 처리할 수 있다. 퀵사이트(QuickSight)라는 시각화 툴, 세이지메이커(SageMaker)라는 머신러닝 플랫폼으로도 분석할 수 있다.

 

(https://byline.network/2018/07/5-17/

 

데이터 창고(DW)는 잊어라...데이터 호수를 맞이하라 - Byline Network

전통적인 엔터프라이즈 IT 환경에서 ‘분석’이라는 것을 하기 위해서는 데이터웨어하우스(DW)라는 시스템이 필요했다. 데이터 창고(Data Warehouse)라는 이름에서 알 수 있듯 데이터를 저장해두는 �

byline.network

 

many data warehouse initiatives didn't get very far because of schema problems.

 

 

 

 

민간·공공에서 보유한 정형과 비정형 등 다양한 유형의 데이터를 축적·관리하고, 데이터 융합·분석과 AI 모델 개발을 통해 AI, 데이터 기반 혁신 서비스 개발을 지원하는 사업이다.

정부 시스템으로는 공공 서비스 개선, AI 모델 개발에 한계가 있어 이번 사업으로 공공과 민간 클라우드, 서비스형소 프트웨어(SaaS)를 연계시킨다. 공공 데이터와 민간 클라우드 기술이 결합해 공공 혁신 서비스와 AI 모델을 개발하는 것이 핵심이다.

올해 5개 도메인 분야(의료, 교통안전, 기반시설, 국방방산, 환경)에서 AI·데이터레이크 시범 활용과 연합 데이터레이크를 구현하고, 내년에는 도메인 분야를 10개로 확대할 예정이다.

연합 데이터레이크는 물리적으로 분산된 여러 데이터레이크를 연계해 단일 데이터레이크 내에 있는 것처럼 데이터를 연결, 축적, 활용할 수 있는 구조다.

공공과 민간은 데이터 칸막이로 상호 데이터 공유가 제한적이었다. NIA는 민간 클라우드를 활용하고, 데이터레이크 운영을 통해 민간과 공공이 데이터를 효율적으로 연계시켜 데이터 칸막이 한계를 극복해나가겠다는 방침이다.

 

 

https://www.etnews.com/20240508000214?mc=nl_001_00005&mi=612074

 

NIA, 민간 클라우드 기술과 공공 데이터 결합하는 'AI·데이터레이크 사업' 추진

한국지능정보사회진흥원(NIA)이 디지털플랫폼정부의 인공지능(AI)·데이터레이크 활용 지원 사업에 나선다. 민간·공공에서 보유한 정형과 비정형 등 다양한 유형의 데이터를 축적·관리하고, 데

www.etnews.com

 

728x90
Posted by Mr. Slumber
,