728x90
1) 빅데이터 데이터 전·후 처리 기법
데이터 전·후처리 | 내용 | 기법 사례 |
· 데이터 이상치(Outlayer), 데이터결측값 등에 대한 보정 작업으로 데이터 신뢰도 향상 | · 오류 포착(실수, 데이터 불일치 등) · 메타 데이터 확인 (데이터 속성, 범위, 표준 편차 등) |
|
· 대량의 데이터 크기 축소 후 분석 진행 · 크기 축소하지만 동일한 분석 결과가 나올 수 있도록 작업 진행 |
· 데이터 표본추출 및 통계기법 적용 · 분석 목적에 맞는 데이터/속성 추출 |
|
· 데이터 단위 변환, 데이터 편차 등에 대한 표준 편차 적용 등의 변환 및 변형 | · 데이터 단위 변환 · 데이터 키 매핑 및 변환 · 데이터 값 매핑 및 변환(업무규칙적용) |
|
· 다수의 데이터 연계통합 작업 수행 · 동일한 View에서 볼 수 있도록 통합 |
· 데이터 통합, 스키마 통합 · 개체 식별 · 데이터 값 충돌 해결 |
2) 시각화 그래픽 요소 및 디자인 원리
빅데이터 분석 결과 시각화를 위한 그래픽 요소 | ||
구분 | 내용 | 비고 |
모양(Shape) | 모양을 추상화, 단순화, 설명형 또는 실사 등 활용 | 로고 |
질감(Texture) | 질감의 차이로 분류, 정도, 계층 등을 표현 | |
방향(Orientation) | 방향을 표시할 수 있는 객체를 활용하여 표현 | 화살표 |
위치(Position) | X, Y, Z축 차이(위치 변수)를 이용하여 표현 | 안내도, 설명도 |
크기(Size) | 크기의 차이를 활용하여 표현 | 길이, 면적 |
시각화를 위한 디자인 기본 원리 | ||
구분 | 내용 | 비고 |
타이포그래피 | · 2가지 이하의 서체에 크기나 스타일 변화 줄 것 서체, 글자 두께, 크기, 스타일, 색체, 간격 · 정보의 차별화나 강조를 위해 선택적 사용 |
고딕 고딕 |
색상 | · 두가지 색 사용시, 보색 사용하고 채도와 명도는 동일하게 순서, 구분, 비율에 대한 표현 · 색체 사용시 인간 지각 및 인식 작용(빨강-금지, 초록-안전) |
|
그리드 | · 디자인 내부에 여러 요소 표현할 때 그리드 배열 계획 · 그리드 내부에 대해 블록으로 나눠 요소들 효율적 배치 · 사람 눈은 왼쪽 상단에서 오른쪽 하단으로 이동 |
|
아이소타입 (ISOTYPE) |
· International System of Typographic Picture Education : 국제그림언어체계(각종 지식에 대한 조직적 시각화) · 문자와 숫자 대신 상징적 도형 또는 정해진 기호 조합 |
|
상호작용 | · 디지털 환경에서 사용자와 인터렉션(Interaction) 사용자가 콘텐츠를 선택, 강조 후 상세 자료로 이동. |
Web site link |
<빅데이터 기술 환경 분석 절차>
1. 선정된 후보 데이터에 대하여 수집하는 방식 정의
① 데이터의 수집 기법 종류, 특징, 제약 사항 등 확인
② 후보 데이터 유형, 크기, 수집 경로, 제약 사항 등에 따라 수집하는 방식 정의
① 데이터의 수집 기법 종류, 특징, 제약 사항 등 확인 사례 예시 | ||
수집 기법 | 주요 특징 | 주요 데이터 유형 |
EAI(Enterprise Application Integration) | 실시간 데이터 이관, 복제 | 정형 |
ETL(Extraction, Transformation, Loading) | 대량의 데이터 이관, 복제 | 정형/비정형 |
CDC(Change Data Capture) | DB 내 변경/증분 데이터에 대한 이관, 복제 | 정형 |
EII(Enterprise Information Integration) | 데이터 연계 및 조회 논리적 데이터 수집 |
정형 |
Scraping, Crawling | 조직 외부 데이터에 대한 HTTP 수집 | 웹,SNS, 뉴수 등에 대한 웹 문서 정보 |
Open API | 정보 주체의 웹에서데이터 제공을 위해 공개하는 API |
정형/비정형/반정형 |
FTP(File Transfer Protocol) | TCP/IP 프로토콜을 이용한 파일전송프로토콜 보안성 강화 - SFTP(Secure FTP) |
비정형(파일) |
RSS(Really Simple Syndication) | 웹 기반 최신 정보 공유 데이터 이관/복제 |
XML 기반 콘텐츠 |
스트리밍(Streaming) | 실시간 데이터 수집 | 음성, 오디오, 비디오 |
로그 수집기(Log Aggregator) | 로그 데이터 수집 Chukwa, Flume, Scribe 등 |
로그 데이터 |
RDB 수집기(RDB Aggregator) | RDB 기반 데이터 수집 | 정형 |
2. 데이터 특성을 고려해 수집된 데이터를 저장하는 방식을 정의
① 데이터 저장 방식에 영향을 주는 데이터 특성 파악
② 서비스 모델 관련한 데이터의 특성에 따라 저장하는 방식 정의
(데이터 시급성, 유형, 생명 주기, 내외부 데이터 연계, 암/복호화 여부, 접근 통제 필요 여부에 따른 저장 방식 결정)
저장 방식에 영향을 주는 데이터 특성 파악 사례 |
데이터 저장 위치(NoSQL, RDB, Big Data Appliance, HDFS, HADOOP, 등) |
데이터 조회 처리 시급성( 실시간, 온라인, 배치) |
데이터 유형(정형, 비정형, 반정형) |
데이터 크기/유형(KB, MB, TB, PB, ZB, YB) |
데이터 발생 주기(초, 분, 일, 주, 월 …) |
데이터 생명 주기(1개월, 50일, 100일, 6개월, 1년, 3년, 5년…) |
데이터 암호화 및 복호화 여부 |
데이터 접근 통제 필요 여부 |
기타 |
3. 데이터 저장 위치, 대용량, 성능 요건에 따라 데이터 처리 방식 정의
① 데이터 품질 현황 파악
② 데이터 오류, 데이터 결측값, 아웃라이어(Outlier) 등 존재 & 데이터 전·후 처리 필요 확인
③ 데이터 정제(Cleaning), 데이터 통합(Integration), 데이터 변환(Transformation), 데이터 정리(Reduction) 등
4. 분석 유형, 실시간 요건에 따라 데이터 분석 방식 정의
<데이터 분석 방식에 영향을 주는 서비스 모델 특성 파악 사례> |
- 서비스 모델 특성( 정적 vs 동적 ) - 서비스 분석 주기( 실시간, 올라인, 배치) - 서비스 응답 속도 (실시간 vs 배치) - 서비스 모델 분석 시 사용자 참여 여부 ( 참여 vs 비참여) |
5. 데이터 분석 결과를 사용자 컴퓨팅 환경에 제공하는 방식 정의
시각화(Visualization) 서비스, 음성 서비스, 파일 서비스 등
<정보 시각화 정의 사례> | ||
구분 | 시각화 방법 사례 | 도구 기능 정의 사례 |
시간 시각화 | · 막대 그래프(Bar Chart) · 점 그래프(Plot Chart) |
· 다양한 DB 접속 기능 · SQL 처리 기능 · 데이터 자동 Refresh · 시간 시각화 기능 · 분포 시각화 기능 · 관계 시각화 기능 · 비교 시각화 기능 · 공간 시각화 기능 · GUI 제공 기능 · 2차원, 3차원 그래프 · 사용자 상호 작용 기능 |
분포 시각화 | · 파이 차트(Pie Chart) · 도넛 차트(Doughnut Chart) · 누적 연속 그래프 |
|
관계 시각화 | · 산점도(Scatter Plot) · 버블 차트(Bubble Chart) · 히스토그램(Histrogram) |
|
비교 시각화 | · 스타 차트(Star Chart) · 히트맵(Hit Map) · 체르노프 페이스(Chernoff Face) |
|
공간 시각화 | · 지도맵(Geographic Map) |
6. 분석 결과에 따라 빅데이터 기술 환경 분석서 작성
① Report 또는 Presentation 형태
② 요약(Abstract) 항목 선정 및 목차 결정(본문 10% 분량, 전문용어 사용 지양 등)
<기술 환경 분석서 요약 목차를 본문 목차에서 추출하여 작성한 사례> | ||||
대 | 중 | 요약 목차 | 작성자 | 작성일 |
데이터 수집 방식 정의 | - 데이터 수집 기법 종류, 특성, 제약 사항 - 데이터 수집 방식 선정 결과 |
데이터 수집 방식 정의 결과 | A | 20.07.28 |
데이터 저장 방식 정의 | - 저장 방식에 영향을 주는 데이터 특성 - 데이터 생명 주기에 따른 저장 방식 결정 - 데이터 저장 방식 정의 결과 |
데이터 수집 저장/처리 방식 정의 결과 |
A | 20.07.28 |
데이터 처리 방식 정의 | - 저장 방식에 영향을 주는 데이터 특성 - 데이터 전/후 처리 방식 정의 - 데이터 처리 방식 정의 결과 |
B | 20.07.29 | |
데이터 분석 방식 정의 | - 분석 방식에 영향을 미치는 서비스 모델 특성 - 데이터 분석 방식(기법) 정의 결과 |
데이터 분석 방식 정의 결과 | B | 20.07.29 |
분석 결과 사용자 컴퓨팅 환경에 제공하는 방식 정의 |
- 시각화 서비스 요건 및 절차 정의 - 시각화 서비스 방식 데이터 분석 결과 - 음성 서비스 방식의 데이터 분석 결과 - 파일 서비스 방식의 데이터 분석 결과 |
사용자 컴퓨팅 환경에 분석 결과 제공 방식 정의 결과 |
C | 20.07.29 |
반응형
'소소한 기록(공부중) > NCS기반_빅데이터' 카테고리의 다른 글
빅데이터분석기획-1.빅데이터 분석 요건 정의 (0) | 2022.01.07 |
---|---|
빅데이터환경분석-4.빅데이터 인력 환경 분석 (0) | 2021.12.28 |
빅데이터환경분석-2.빅데이터 데이터 환경 분석 (0) | 2021.09.24 |
빅데이터환경분석-1.빅데이터 서비스 환경 분석 (0) | 2021.09.15 |
댓글