본문 바로가기
소소한 기록(공부중)/NCS기반_빅데이터

빅데이터환경분석-2.빅데이터 데이터 환경 분석

by 이상한 버릇, 습관 2021. 9. 24.
728x90
반응형

1) 빅데이터 서비스 모델 개발을 위한 소프트웨어 공학적 방법론

빅데이터 개발 방법론 일반적으로 빅데이터 시스템에 대한 개발 구현과 빅데이터 분석 모델 방법론으로 구성 프로젝트 수행시 적용 필요
데이터 표본 추출 방법론 데이터 표본 조사 및 추출에 대한 방법 정의 데이터 분석 이전에 수행 필요
데이터 모델링 방법론 데이터 이해 및 준비, 탐색적 및 실증 분석을 통한 데이터의 모델링을 수행하는 방법론  
데이터 품질 관리 방법론 서비스 모델의 데이터에 대한 품질 관리 및 성숙도 관리 DQM(Data Quality Management)

 

2) 데이터 프로파일링(Data Profiling) : 데이터 품질 진단 기법

- DB내의 데이터를 읽어 테이블, 컬럼에 대한 데이터 현황 정보를 통계적을 분석하는 것

- 테이블(Table) 단위와 컬럼(Column)단위로 구분

[빅데이터 데이터 프로파일링 절차 설명]

3) 개인 정보 보호를 위한 비식별 처리

     ⑴ 데이터 라이프 사이클 과정상의 비식별 처리 : 개인 프라이버시에 영향을 주지 않으면서 개인 데이터 활용을 위함

데이터 라이프 사이클 비식별 처리 내용 재식별 가능성
데이터 생성 - 데이터 생성시 개인 식별 정보를 삭제 높음

낮음
데이터 수집 - 데이터가 수집되지만 개인 식별 정보가 필요하지 않은 경우 비식별 처리
- 데이터 수집 경로 상에서 비식별 처리
데이터 저장 및 처리 - 개인 식별 정보에 대한 관리를 회피하기 위한 수단으로 데이터 변환 후 또는 데이터 저장 전 비식별 처리
데이터 활용 - 분석 용도로 개인 정보 이용 후 활용 전 데이터 비식별 처리

     ⑵ 데이터 활용 모델을 통한 비식별 처리

구분 공개적 활용 모델 비공개적 활용 모델 반공개적 활용 모델
접근 편의성 모든 사람 또는 조직이
데이터 접근 가능
특정 사람 또는 조직만
데이터 접근 가능
인가된 사람 또는 조직은
데이터 접근 가능
재식별 위협 매우 높음 제한을 엄격하게 둘 경우 보통 위협 매우 높음
사용 권한 무제한 사용·재사용 가능 데이터 재활용 금지 인가된 사람 또는 조직만
사용·재사용 가능
재식별 공격 모든 공격 가능 조직 내부 의도적 공격 데이터 유출 조직 내부 의도적 공격 데이터 유출

 

4) 빅데이터 분석 활용을 위한 데이터 유형 분류 : 수이연, 범명순, 구조-정반비

기준 분류 설명
수치 이산 연속적이지 않은 수치형 데이터 나이
연속 연속적인 수치형 데이터 온도, 키, 몸무게 등
범주 명사형 순서를 정할 수 없는 범주형 데이터 차량(택시, 버스)
순서형 순서가 있는 범주형 데이터 1순위, 2순위, 3순위
구조 정형 형식이 정해져 있고 구조화된 데이터 DB
비정형 형식이 정해지지 않은 데이터 사진, 동영상
반정형 정형과 비정형의 중간 형태 신문 기사
형태 문자형 문자로 구성된 데이터 대학교
수치형 숫자로 구성된 데이터 12345, 18.2
날짜/시간 날짜 또는 시간으로 구성된 데이터 2019-05-21
불린 관계를 나타내는 데이터 참, 거짓
이미지 바이너리(Binary)로 구성된 데이터 지도, 그림, 동영상
출처 내부 조직 내부에서 생성된 데이터 내부
외부 조직 외부에서 생성/수집된 데이터 외부

 

[빅데이터 데이터 환경 분서 수행 순서] 

① 빅데이터 서비스 모델에 대해 필요한 내·외부 데이터 후보 식별

② 식별된 후보 데이터의 유형, 생산 주체 및 수집 경로 파악.

    (데이트 크기, 보관 형태, 생산 주체 및 주기, 수집 경로, 데이터 레이크(Data Lake) 등 파악

③ 서비스 모델에 필요한 데이터 선정 기준 수립 - 선정 기준, 평가 방법 및 절차

    (비즈니스 목적 부합성, 시급성(전략적 중요도), 기술적 구현 가능성)

④ 선정 기준에 따라 필요 후보 데이터 선정

    (동일 점수 후보 데이터 선정 기준 예시 - 내부 > 외부,  구현 가능성 > 시급성 > 비즈니스 목적성 순)

⑤ 데이터 활용에 있어서 정보 보안, 개인정보보호 문제 확인

    (3V, 데이터 품질 및 정합성 유지에 필요한 보안 정책 수립, 개인정보보호법, 정보통신망법 등)

⑥ 데이터 활용을 위한 제약 사항 명시, 대안 제시

    ( 법·규제, 규제 측명 제약사항, 기술적 제약사항, 조직문화·거버넌스 제약사항 등)

 ⑦ 분석 결과에 따라 빅데이터 데이터 환경 분석서 작성

    (데이터 후보 식별 결과, 데이터 유형·생산 주체 및 수집 경로 결과, 데이터 선정 기준 및 평가 절차,

    후보 데이터 선정 결과, 정보보안·개인정보보호 문제 파악 결과, 제약 사항 및 대안)


 

참고용으로 받은 책 내용 써놓는 거지만, 내용이 다 있는 것 같으면서도 부실한 느낌..참..

반응형

댓글