728x90
1) 빅데이터 서비스 모델 개발을 위한 소프트웨어 공학적 방법론
빅데이터 개발 방법론 | 일반적으로 빅데이터 시스템에 대한 개발 구현과 빅데이터 분석 모델 방법론으로 구성 | 프로젝트 수행시 적용 필요 |
데이터 표본 추출 방법론 | 데이터 표본 조사 및 추출에 대한 방법 정의 | 데이터 분석 이전에 수행 필요 |
데이터 모델링 방법론 | 데이터 이해 및 준비, 탐색적 및 실증 분석을 통한 데이터의 모델링을 수행하는 방법론 | |
데이터 품질 관리 방법론 | 서비스 모델의 데이터에 대한 품질 관리 및 성숙도 관리 | DQM(Data Quality Management) |
2) 데이터 프로파일링(Data Profiling) : 데이터 품질 진단 기법
- DB내의 데이터를 읽어 테이블, 컬럼에 대한 데이터 현황 정보를 통계적을 분석하는 것
- 테이블(Table) 단위와 컬럼(Column)단위로 구분
3) 개인 정보 보호를 위한 비식별 처리
⑴ 데이터 라이프 사이클 과정상의 비식별 처리 : 개인 프라이버시에 영향을 주지 않으면서 개인 데이터 활용을 위함
데이터 라이프 사이클 | 비식별 처리 내용 | 재식별 가능성 |
데이터 생성 | - 데이터 생성시 개인 식별 정보를 삭제 | 높음 낮음 |
데이터 수집 | - 데이터가 수집되지만 개인 식별 정보가 필요하지 않은 경우 비식별 처리 - 데이터 수집 경로 상에서 비식별 처리 |
|
데이터 저장 및 처리 | - 개인 식별 정보에 대한 관리를 회피하기 위한 수단으로 데이터 변환 후 또는 데이터 저장 전 비식별 처리 | |
데이터 활용 | - 분석 용도로 개인 정보 이용 후 활용 전 데이터 비식별 처리 |
⑵ 데이터 활용 모델을 통한 비식별 처리
구분 | 공개적 활용 모델 | 비공개적 활용 모델 | 반공개적 활용 모델 |
접근 편의성 | 모든 사람 또는 조직이 데이터 접근 가능 |
특정 사람 또는 조직만 데이터 접근 가능 |
인가된 사람 또는 조직은 데이터 접근 가능 |
재식별 위협 | 매우 높음 | 제한을 엄격하게 둘 경우 보통 위협 | 매우 높음 |
사용 권한 | 무제한 사용·재사용 가능 | 데이터 재활용 금지 | 인가된 사람 또는 조직만 사용·재사용 가능 |
재식별 공격 | 모든 공격 가능 | 조직 내부 의도적 공격 데이터 유출 | 조직 내부 의도적 공격 데이터 유출 |
4) 빅데이터 분석 활용을 위한 데이터 유형 분류 : 수이연, 범명순, 구조-정반비
기준 | 분류 | 설명 | 예 |
수치 | 이산 | 연속적이지 않은 수치형 데이터 | 나이 |
연속 | 연속적인 수치형 데이터 | 온도, 키, 몸무게 등 | |
범주 | 명사형 | 순서를 정할 수 없는 범주형 데이터 | 차량(택시, 버스) |
순서형 | 순서가 있는 범주형 데이터 | 1순위, 2순위, 3순위 | |
구조 | 정형 | 형식이 정해져 있고 구조화된 데이터 | DB |
비정형 | 형식이 정해지지 않은 데이터 | 사진, 동영상 | |
반정형 | 정형과 비정형의 중간 형태 | 신문 기사 | |
형태 | 문자형 | 문자로 구성된 데이터 | 대학교 |
수치형 | 숫자로 구성된 데이터 | 12345, 18.2 | |
날짜/시간 | 날짜 또는 시간으로 구성된 데이터 | 2019-05-21 | |
불린 | 관계를 나타내는 데이터 | 참, 거짓 | |
이미지 | 바이너리(Binary)로 구성된 데이터 | 지도, 그림, 동영상 | |
출처 | 내부 | 조직 내부에서 생성된 데이터 | 내부 |
외부 | 조직 외부에서 생성/수집된 데이터 | 외부 |
[빅데이터 데이터 환경 분서 수행 순서]
① 빅데이터 서비스 모델에 대해 필요한 내·외부 데이터 후보 식별
② 식별된 후보 데이터의 유형, 생산 주체 및 수집 경로 파악.
(데이트 크기, 보관 형태, 생산 주체 및 주기, 수집 경로, 데이터 레이크(Data Lake) 등 파악
③ 서비스 모델에 필요한 데이터 선정 기준 수립 - 선정 기준, 평가 방법 및 절차
(비즈니스 목적 부합성, 시급성(전략적 중요도), 기술적 구현 가능성)
④ 선정 기준에 따라 필요 후보 데이터 선정
(동일 점수 후보 데이터 선정 기준 예시 - 내부 > 외부, 구현 가능성 > 시급성 > 비즈니스 목적성 순)
⑤ 데이터 활용에 있어서 정보 보안, 개인정보보호 문제 확인
(3V, 데이터 품질 및 정합성 유지에 필요한 보안 정책 수립, 개인정보보호법, 정보통신망법 등)
⑥ 데이터 활용을 위한 제약 사항 명시, 대안 제시
( 법·규제, 규제 측명 제약사항, 기술적 제약사항, 조직문화·거버넌스 제약사항 등)
⑦ 분석 결과에 따라 빅데이터 데이터 환경 분석서 작성
(데이터 후보 식별 결과, 데이터 유형·생산 주체 및 수집 경로 결과, 데이터 선정 기준 및 평가 절차,
후보 데이터 선정 결과, 정보보안·개인정보보호 문제 파악 결과, 제약 사항 및 대안)
참고용으로 받은 책 내용 써놓는 거지만, 내용이 다 있는 것 같으면서도 부실한 느낌..참..
반응형
'소소한 기록(공부중) > NCS기반_빅데이터' 카테고리의 다른 글
빅데이터분석기획-1.빅데이터 분석 요건 정의 (0) | 2022.01.07 |
---|---|
빅데이터환경분석-4.빅데이터 인력 환경 분석 (0) | 2021.12.28 |
빅데이터환경분석-3.빅데이터 기술 환경 분석 (0) | 2021.12.28 |
빅데이터환경분석-1.빅데이터 서비스 환경 분석 (0) | 2021.09.15 |
댓글