본문 바로가기
소소한 기록(공부중)/NCS기반_빅데이터

빅데이터환경분석-3.빅데이터 기술 환경 분석

by 이상한 버릇, 습관 2021. 12. 28.
728x90

1) 빅데이터 데이터 전·후 처리 기법

데이터 전·후처리 내용 기법 사례
· 데이터 이상치(Outlayer), 데이터결측값 등에 대한 보정 작업으로 데이터 신뢰도 향상 · 오류 포착(실수, 데이터 불일치 등)
· 메타 데이터 확인
  (데이터 속성, 범위, 표준 편차 등)

· 대량의 데이터 크기 축소 후 분석 진행
· 크기 축소하지만 동일한 분석 결과가 나올 수 있도록 작업 진행
· 데이터 표본추출 및 통계기법 적용
· 분석 목적에 맞는 데이터/속성 추출
· 데이터 단위 변환, 데이터 편차 등에 대한 표준 편차 적용 등의 변환 및 변형 · 데이터 단위 변환
· 데이터 키 매핑 및 변환
· 데이터 값 매핑 및 변환(업무규칙적용)

· 다수의 데이터 연계통합 작업 수행
· 동일한 View에서 볼 수 있도록 통합
· 데이터 통합, 스키마 통합
· 개체 식별
· 데이터 값 충돌 해결

 

2) 시각화 그래픽 요소 및 디자인 원리

빅데이터 분석 결과 시각화를 위한 그래픽 요소
구분 내용 비고
모양(Shape) 모양을 추상화, 단순화, 설명형 또는 실사 등 활용 로고
질감(Texture) 질감의 차이로 분류, 정도, 계층 등을 표현  
방향(Orientation) 방향을 표시할 수 있는 객체를 활용하여 표현 화살표
위치(Position) X, Y, Z축 차이(위치 변수)를 이용하여 표현 안내도, 설명도
크기(Size) 크기의 차이를 활용하여 표현 길이, 면적

 

시각화를 위한 디자인 기본 원리
구분 내용 비고
타이포그래피   · 2가지 이하의 서체에 크기나 스타일 변화 줄 것
    서체, 글자 두께, 크기, 스타일, 색체, 간격
  · 정보의 차별화나 강조를 위해 선택적 사용
고딕
고딕
색상   · 두가지 색 사용시, 보색 사용하고 채도와 명도는 동일하게
    순서, 구분, 비율에 대한 표현
  · 색체 사용시 인간 지각 및 인식 작용(빨강-금지, 초록-안전)

 
그리드   · 디자인 내부에 여러 요소 표현할 때 그리드 배열 계획
  · 그리드 내부에 대해 블록으로 나눠 요소들 효율적 배치
  · 사람 눈은 왼쪽 상단에서 오른쪽 하단으로 이동

 
아이소타입
(ISOTYPE)
  · International System of Typographic Picture Education
    : 국제그림언어체계(각종 지식에 대한 조직적 시각화)
  · 문자와 숫자 대신 상징적 도형 또는 정해진 기호 조합
 
상호작용   · 디지털 환경에서 사용자와 인터렉션(Interaction)
    사용자가 콘텐츠를 선택, 강조 후 상세 자료로 이동.
Web site link

 

 <빅데이터 기술 환경 분석 절차>

1. 선정된 후보 데이터에 대하여 수집하는 방식 정의

① 데이터의 수집 기법 종류, 특징, 제약 사항 등 확인
② 후보 데이터 유형, 크기, 수집 경로, 제약 사항 등에 따라 수집하는 방식 정의
① 데이터의 수집 기법 종류, 특징, 제약 사항 등 확인 사례 예시
수집 기법 주요 특징 주요 데이터 유형
EAI(Enterprise Application Integration) 실시간 데이터 이관, 복제 정형
ETL(Extraction, Transformation, Loading) 대량의 데이터 이관, 복제 정형/비정형
CDC(Change Data Capture) DB 내 변경/증분 데이터에 대한 이관, 복제 정형
EII(Enterprise Information Integration) 데이터 연계 및 조회
논리적 데이터 수집
정형
Scraping, Crawling 조직 외부 데이터에 대한 HTTP 수집 웹,SNS, 뉴수 등에 대한
웹 문서 정보
Open API 정보 주체의 웹에서데이터 제공을 위해
공개하는 API
정형/비정형/반정형
FTP(File Transfer Protocol) TCP/IP 프로토콜을 이용한 파일전송프로토콜
보안성 강화 - SFTP(Secure FTP)
비정형(파일)
RSS(Really Simple Syndication) 웹 기반 최신 정보 공유
데이터 이관/복제
XML 기반 콘텐츠
스트리밍(Streaming) 실시간 데이터 수집 음성, 오디오, 비디오
로그 수집기(Log Aggregator) 로그 데이터 수집
Chukwa, Flume, Scribe 등
로그 데이터
RDB 수집기(RDB Aggregator) RDB 기반 데이터 수집 정형

2. 데이터 특성을 고려해 수집된 데이터를 저장하는 방식을 정의

① 데이터 저장 방식에 영향을 주는 데이터 특성 파악
② 서비스 모델 관련한 데이터의 특성에 따라 저장하는 방식 정의
   (데이터 시급성, 유형, 생명 주기, 내외부 데이터 연계, 암/복호화 여부, 접근 통제 필요 여부에 따른 저장 방식 결정)
저장 방식에 영향을 주는 데이터 특성 파악 사례
데이터 저장 위치(NoSQL, RDB, Big Data Appliance, HDFS, HADOOP, 등)
데이터 조회 처리 시급성( 실시간, 온라인, 배치)
데이터 유형(정형, 비정형, 반정형)
데이터 크기/유형(KB, MB, TB, PB, ZB, YB)
데이터 발생 주기(초, 분, 일, 주, 월 …)
데이터 생명 주기(1개월, 50일, 100일, 6개월, 1년, 3년, 5년…)
데이터 암호화 및 복호화 여부
데이터 접근 통제 필요 여부
기타

3. 데이터 저장 위치, 대용량, 성능 요건에 따라 데이터 처리 방식 정의

① 데이터 품질 현황 파악
② 데이터 오류, 데이터 결측값, 아웃라이어(Outlier) 등 존재 & 데이터 전·후 처리 필요 확인
③ 데이터 정제(Cleaning), 데이터 통합(Integration), 데이터 변환(Transformation), 데이터 정리(Reduction) 등

4. 분석 유형, 실시간 요건에 따라 데이터 분석 방식 정의

<데이터 분석 방식에 영향을 주는 서비스 모델 특성 파악 사례>
- 서비스 모델 특성( 정적 vs 동적 )
- 서비스 분석 주기( 실시간, 올라인, 배치)
- 서비스 응답 속도 (실시간 vs 배치)
- 서비스 모델 분석 시 사용자 참여 여부 ( 참여 vs 비참여)

5. 데이터 분석 결과를 사용자 컴퓨팅 환경에 제공하는 방식 정의

시각화(Visualization) 서비스, 음성 서비스, 파일 서비스 등
<정보 시각화 정의 사례>
구분 시각화 방법 사례 도구 기능 정의 사례
시간 시각화 · 막대 그래프(Bar Chart)
· 점 그래프(Plot Chart)
· 다양한 DB 접속 기능
· SQL 처리 기능
· 데이터 자동 Refresh
· 시간 시각화 기능
· 분포 시각화 기능
· 관계 시각화 기능
· 비교 시각화 기능
· 공간 시각화 기능
· GUI 제공 기능
· 2차원, 3차원 그래프
· 사용자 상호 작용 기능
분포 시각화 · 파이 차트(Pie Chart)
· 도넛 차트(Doughnut Chart)
· 누적 연속 그래프
관계 시각화 · 산점도(Scatter Plot)
· 버블 차트(Bubble Chart)
· 히스토그램(Histrogram)
비교 시각화 · 스타 차트(Star Chart)
· 히트맵(Hit Map)
· 체르노프 페이스(Chernoff Face)
공간 시각화 · 지도맵(Geographic Map)

 

6. 분석 결과에 따라 빅데이터 기술 환경 분석서 작성

① Report 또는 Presentation 형태
② 요약(Abstract) 항목 선정 및 목차 결정(본문 10% 분량, 전문용어 사용 지양 등)
<기술 환경 분석서 요약 목차를 본문 목차에서 추출하여 작성한 사례>
요약 목차 작성자 작성일
데이터 수집 방식 정의 - 데이터 수집 기법 종류, 특성, 제약 사항
- 데이터 수집 방식 선정 결과
데이터 수집 방식 정의 결과 A 20.07.28
데이터 저장 방식 정의 - 저장 방식에 영향을 주는 데이터 특성
- 데이터 생명 주기에 따른 저장 방식 결정
- 데이터 저장 방식 정의 결과
데이터 수집 저장/처리 방식
정의 결과
A 20.07.28
데이터 처리 방식 정의 - 저장 방식에 영향을 주는 데이터 특성
- 데이터 전/후 처리 방식 정의
- 데이터 처리 방식 정의 결과
B 20.07.29
데이터 분석 방식 정의 - 분석 방식에 영향을 미치는 서비스 모델
  특성

- 데이터 분석 방식(기법) 정의 결과
데이터 분석 방식 정의 결과 B 20.07.29
분석 결과 사용자
컴퓨팅 환경에 제공하는
방식 정의
- 시각화 서비스 요건 및 절차 정의
- 시각화 서비스 방식 데이터 분석 결과
- 음성 서비스 방식의 데이터 분석 결과
- 파일 서비스 방식의 데이터 분석 결과
사용자 컴퓨팅 환경에 분석 결과 
제공 방식 정의 결과
C 20.07.29
반응형

댓글