SQLD — 과목I 데이터 모델링의 이해. 제2장 데이터 모델과 성능 | by EunJin | Medium

SQLD — 과목I 데이터 모델링의 이해
EunJin
·Follow
5 min read·
Feb 9, 2021
--
제2장 데이터 모델과 성능
제1절 성능 데이터 모델링의 개요[성능 데이터 모델링이란]
데이터베이스 성능 향상을 목적으로 설계 단계의 데이터 모델링 때부터 성능과 관련된 사항이 데이터 모델링에 반영될 수 있도록 하는 것
[성능 데이터 모델링의 순서]
데이터 모델링을 할 때 정규화를 정확하게 수행한다.
데이터베이스 용량 산정을 수행한다.
데이터베이스에 발생되는 트랜잭션의 유형을 파악한다.
용량과 트랜잭션의 유형에 따라 반 정규화를 수행한다.
이력 모델의 조정, PK/ FK 조정, 슈퍼 타입/ 서브타입 조정 등을 수행한다.
성능 관점에서 데이터 모델을 검증한다.
[성능 데이터 모델링 고려 사항]
데이터 모델링의 정규화를 수행한 이후에 용량 산정과 트랜잭션 유형을 파악하여 반 정규화를 수행한다.
용량 산정은 전체적인 데이터베이스에 발생되는 트랜잭션의 유형과 양을 분석하는 자료가 된다.
물리적인 데이터 모델링을 할 때 PK/ FK의 칼럼 순서 조정, FK 인덱스 생성 등은 성능 향상을 위한 중요한 요소
이력 데이터는 시간에 따라 반복적으로 발생되기 때문에 대량 데이터일 가능성이 높아 특별히 성능을 고려하여 칼럼 등을 추가하도록 설계
[정규화와 성능]
칼럼에 의한 반복적인 속성값을 갖는 형태→ 속성의 원자성을 위배한 제1차 정규화 대상 / 1 : M의 관계로 두 개의 엔터티로 분리
개별로 Index를 모두 생성할 경우 입력, 수정, 삭제 때 성능이 저하되므로 제1차 정규화를 수행한 후 인덱스를 적용
중복 속성에 대한 분리가 1차 정규화의 대상이 되며, 로우 단위의 중복도 1차 정규화의 대상이 되지만 칼럼 단위의 중복이 되는 경우도 1차 정규화의 대상
[반 정규화란]
반 정규화는 성능을 향상시키기 위해 정규화된 데이터 모델에서 중복, 통합, 분리 등을 수행하는 모든 과정
칼럼을 계산하여 읽을 때 성능의 저하될 것이 예상되는 경우 반 정규화를 수행
반 정규화의 기법은 테이블, 속성, 관계에 대해서 적용
[반 정규화 고려 요소]
반 정규화 정보에 대한 재현의 적시성으로 판단
다량 데이터 탐색의 경우 파티션 및 데이터 클러스터링 등의 다양한 물리 저장 기법을 활용하여 성능 개선을 유도. 다만, 하나의 결과 셋을 추출하기 위해 다량의 데이터를 탐색하는 처리가 반복적으로 발생 시 반 정규화 고려
이전 또는 이후 위치의 레코드에 대한 탐색은 window function으로 접근
반 정규화 테이블은 집계 테이블 외 다양한 유형에 대하여 반 정규화 테이블 적용이 필요할 수 있다.
[반 정규화의 대상의 처리 방법]
지나치게 많은 조인(JOIN)이 걸려 데이터를 조회하는 작업이 기술적으로 어려울 경우 뷰(VIEW)를 사용하여 해결
대량의 데이터 처리나 부분 처리에 의해 성능이 저하되는 경우에 클러스터링을 적용 or 인덱스를 조정하여 성능 향상
대량의 데이터는 Primary Key의 성격에 따라 부분적인 테이블로 분리할 수 있다. 즉 파티셔닝 기법(Partitioning)이 적용되어 성능 저하 방지
응용 애플리케이션에서 로직을 구사하는 방법을 변경함으로써 성능을 향상
[대량 데이터에 따른 성능]
테이블의 반 정규화
하나의 테이블의 전체 칼럼 중 자주 이용하는 집중화된 칼럼들이 있을 때 디스크 I/O를 줄이기 위해 해당 칼럼들을 별도로 모아 놓는 반 정규화 기법은 테이블 추가 기법 중 부분 테이블 추가에 해당
칼럼의 반 정규화
중복 칼럼 추가 — 조인 감소를 위해 여러 테이블에 동일한 칼럼을 갖도록 한다.
파생 칼럼 추가 — 조회 성능을 우수하게 하기 위해 미리 계산된 칼럼을 갖도록 한다.
이력 테이블 칼럼 추가 — 최신 값을 처리하는 이력의 특성을 고려하여 기능성 칼럼을 추가
PK에 의한 칼럼 추가
응용시스템 오작동을 위한 칼럼 추가
[데이터베이스 구조와 성능]
트랜잭션은 항상 전체를 통합하여 분석 처리
슈퍼/서브 타입이 하나의 테이블로 통합되어 있으면 직접적인 하나의 테이블만 읽어 처리함으로써 다른 형식에 비해 성능 우수
테이블을 서브타입별 개별 유지로 변환하면 Union 연산에 의해 성능이 저하될 수 있다.
[분산 데이터베이스와 성능]
여러 개의 속성이 하나의 인덱스로 구성되어 있을 때 앞쪽에 위치한 속성의 값이 비교자로 있어야 좋은 효율이 나온다.
앞쪽에 위치한 속성 값이 가급적 ‘=’ 또는 최소한 범위 ‘BETWEEN’, ‘<>’가 들어와야 인덱스를 이용할 수 있다.
공통 코드, 기준정보 등 마스터 데이터는 분산 데이터베이스에 복제 분산을 적용
실시간 업무적인 특성을 가지고 있을 때 분산 데이터베이스를 사용
백업 사이트를 구성할 때 간단하게 분산 기능을 적용하여 구성
GSI는 통합된 한 개의 인스턴스. 즉, 통합 데이터베이스 구조를 의미하므로 분산 데이터베이스와 대치되는 개념
[분산 데이터베이스 장점]
지역 자치성, 점증적 시스템 용량 확장
신뢰성과 가용성
효용성과 융통성
빠른 응답 속도와 통신 비용 절감
데이터의 가용성과 신뢰성 증가
시스템 규모의 적절한 조절
각 지역 사용자의 요구 수용 증대
[분산 데이터베이스 단점]
소프트웨어 개발 비용
오류의 잠재성 증대
처리 비용의 증대
설계, 관리의 복잡성과 비용
불규칙한 응답 속도
통제의 어려움
데이터 무결성에 대한 위협
--
--
Written by EunJin1 Follower
·1 Following
프로 삽질러
No responses yet
Help
Status
About
Careers
Press
Blog
Privacy
Terms
Text to speech
Teams