SQLD — 과목I 데이터 모델링의 이해

EunJin
5 min readFeb 9, 2021

--

제2장 데이터 모델과 성능

제1절 성능 데이터 모델링의 개요

[성능 데이터 모델링이란]

  • 데이터베이스 성능 향상을 목적으로 설계 단계의 데이터 모델링 때부터 성능과 관련된 사항이 데이터 모델링에 반영될 수 있도록 하는 것

[성능 데이터 모델링의 순서]

  1. 데이터 모델링을 할 때 정규화를 정확하게 수행한다.
  2. 데이터베이스 용량 산정을 수행한다.
  3. 데이터베이스에 발생되는 트랜잭션의 유형을 파악한다.
  4. 용량과 트랜잭션의 유형에 따라 반 정규화를 수행한다.
  5. 이력 모델의 조정, PK/ FK 조정, 슈퍼 타입/ 서브타입 조정 등을 수행한다.
  6. 성능 관점에서 데이터 모델을 검증한다.

[성능 데이터 모델링 고려 사항]

  • 데이터 모델링의 정규화를 수행한 이후에 용량 산정과 트랜잭션 유형을 파악하여 반 정규화를 수행한다.
  • 용량 산정은 전체적인 데이터베이스에 발생되는 트랜잭션의 유형과 양을 분석하는 자료가 된다.
  • 물리적인 데이터 모델링을 할 때 PK/ FK의 칼럼 순서 조정, FK 인덱스 생성 등은 성능 향상을 위한 중요한 요소
  • 이력 데이터는 시간에 따라 반복적으로 발생되기 때문에 대량 데이터일 가능성이 높아 특별히 성능을 고려하여 칼럼 등을 추가하도록 설계

[정규화와 성능]

  • 칼럼에 의한 반복적인 속성값을 갖는 형태→ 속성의 원자성을 위배한 제1차 정규화 대상 / 1 : M의 관계로 두 개의 엔터티로 분리
  • 개별로 Index를 모두 생성할 경우 입력, 수정, 삭제 때 성능이 저하되므로 제1차 정규화를 수행한 후 인덱스를 적용
  • 중복 속성에 대한 분리가 1차 정규화의 대상이 되며, 로우 단위의 중복도 1차 정규화의 대상이 되지만 칼럼 단위의 중복이 되는 경우도 1차 정규화의 대상

[반 정규화란]

  • 반 정규화는 성능을 향상시키기 위해 정규화된 데이터 모델에서 중복, 통합, 분리 등을 수행하는 모든 과정
  • 칼럼을 계산하여 읽을 때 성능의 저하될 것이 예상되는 경우 반 정규화를 수행
  • 반 정규화의 기법은 테이블, 속성, 관계에 대해서 적용

[반 정규화 고려 요소]

  • 반 정규화 정보에 대한 재현의 적시성으로 판단
  • 다량 데이터 탐색의 경우 파티션 및 데이터 클러스터링 등의 다양한 물리 저장 기법을 활용하여 성능 개선을 유도. 다만, 하나의 결과 셋을 추출하기 위해 다량의 데이터를 탐색하는 처리가 반복적으로 발생 시 반 정규화 고려
  • 이전 또는 이후 위치의 레코드에 대한 탐색은 window function으로 접근
  • 반 정규화 테이블은 집계 테이블 외 다양한 유형에 대하여 반 정규화 테이블 적용이 필요할 수 있다.

[반 정규화의 대상의 처리 방법]

  • 지나치게 많은 조인(JOIN)이 걸려 데이터를 조회하는 작업이 기술적으로 어려울 경우 뷰(VIEW)를 사용하여 해결
  • 대량의 데이터 처리나 부분 처리에 의해 성능이 저하되는 경우에 클러스터링을 적용 or 인덱스를 조정하여 성능 향상
  • 대량의 데이터는 Primary Key의 성격에 따라 부분적인 테이블로 분리할 수 있다. 즉 파티셔닝 기법(Partitioning)이 적용되어 성능 저하 방지
  • 응용 애플리케이션에서 로직을 구사하는 방법을 변경함으로써 성능을 향상

[대량 데이터에 따른 성능]

테이블의 반 정규화

  • 하나의 테이블의 전체 칼럼 중 자주 이용하는 집중화된 칼럼들이 있을 때 디스크 I/O를 줄이기 위해 해당 칼럼들을 별도로 모아 놓는 반 정규화 기법은 테이블 추가 기법 중 부분 테이블 추가에 해당

칼럼의 반 정규화

  • 중복 칼럼 추가 — 조인 감소를 위해 여러 테이블에 동일한 칼럼을 갖도록 한다.
  • 파생 칼럼 추가 — 조회 성능을 우수하게 하기 위해 미리 계산된 칼럼을 갖도록 한다.
  • 이력 테이블 칼럼 추가 — 최신 값을 처리하는 이력의 특성을 고려하여 기능성 칼럼을 추가
  • PK에 의한 칼럼 추가
  • 응용시스템 오작동을 위한 칼럼 추가

[데이터베이스 구조와 성능]

  • 트랜잭션은 항상 전체를 통합하여 분석 처리
  • 슈퍼/서브 타입이 하나의 테이블로 통합되어 있으면 직접적인 하나의 테이블만 읽어 처리함으로써 다른 형식에 비해 성능 우수
  • 테이블을 서브타입별 개별 유지로 변환하면 Union 연산에 의해 성능이 저하될 수 있다.

[분산 데이터베이스와 성능]

  • 여러 개의 속성이 하나의 인덱스로 구성되어 있을 때 앞쪽에 위치한 속성의 값이 비교자로 있어야 좋은 효율이 나온다.
  • 앞쪽에 위치한 속성 값이 가급적 ‘=’ 또는 최소한 범위 ‘BETWEEN’, ‘<>’가 들어와야 인덱스를 이용할 수 있다.
  • 공통 코드, 기준정보 등 마스터 데이터는 분산 데이터베이스에 복제 분산을 적용
  • 실시간 업무적인 특성을 가지고 있을 때 분산 데이터베이스를 사용
  • 백업 사이트를 구성할 때 간단하게 분산 기능을 적용하여 구성
  • GSI는 통합된 한 개의 인스턴스. 즉, 통합 데이터베이스 구조를 의미하므로 분산 데이터베이스와 대치되는 개념

[분산 데이터베이스 장점]

  • 지역 자치성, 점증적 시스템 용량 확장
  • 신뢰성과 가용성
  • 효용성과 융통성
  • 빠른 응답 속도와 통신 비용 절감
  • 데이터의 가용성과 신뢰성 증가
  • 시스템 규모의 적절한 조절
  • 각 지역 사용자의 요구 수용 증대

[분산 데이터베이스 단점]

  • 소프트웨어 개발 비용
  • 오류의 잠재성 증대
  • 처리 비용의 증대
  • 설계, 관리의 복잡성과 비용
  • 불규칙한 응답 속도
  • 통제의 어려움
  • 데이터 무결성에 대한 위협

--

--

EunJin
EunJin

No responses yet