개발에 있어 필수인 데이터베이스를 이해하기 위해서는 기본적인 개념부터 알아야 합니다. 오늘은 비개발자도 쉽게 이해할 수 있는 데이터베이스의 개념을 소개하고 RDBMS와 비관계형 데이터베이스인 NoSQL의 차이점 그리고 각각 어떤 상황에서 사용해야 할지에 대해 함께 알아보겠습니다.
데이터베이스(Database, DB)란 무엇일까요? 데이터베이스는 쉽게 말해서 데이터의 집합입니다. DB에는 다양한 유형이 존재하는데요. 계층형(Hierarchical), 망형(Network), 관계형(Relational), 객체지향형(Object-Oriented), 객체관계형(Object-Relational) 등이 있습니다.
계층형 DB(Hierarchical DB)는 처음 등장한 DB의 개념입니다. 트리(tree) 형태로 구성되어 있기 때문에 처음 구성해 놓으면 이를 변경하기가 까다롭고, 또 다른 데이터를 찾아가는 것이 비효율적이기 때문에 지금은 사용하지 않고 있습니다.
망형 DB(Network DB)는 계층형 DB의 문제점을 개선하기 위해 등장했습니다. 계층형과 다르게 데이터끼리도 연결된 유연한 구조이지만 프로그래머가 모든 구조를 이해해야만 프로그램 작성이 가능하다는 단점 때문에 계층형과 마찬가지로 지금은 거의 사용하지 않고 있습니다.
관계형 DB(Relational DB)는 줄여서 RDB라고도 부르며 현재 대부분의 DB가 관계형 데이터베이스의 형태로 사용되고 있습니다. 일반적인 관계형 데이터베이스(RDB)는 테이블, 행, 열의 정보를 구조화하는 방식입니다. RDB는 테이블(table)이라는 최소 단위로 구성되며, 이 테이블은 하나 이상의 열(column)과 행(row)으로 이루어져 있습니다. 모든 데이터는 처리 및 데이터 쿼리를 효율적으로 수행하기 위해 일련의 테이블에서 행과 열로 저장됩니다.
관계형 데이터베이스에는 테이블을 조인하여 정보 간 관계 또는 링크를 설정할 수 있는 기능이 있어, 여러 데이터 포인트 간의 관계를 쉽게 이해하고 정보를 얻을 수 있습니다.
DB와 함께 많이 언급되는 DBMS는 Database Management System의 약자로 데이터베이스를 관리하고 운영하는 소프트웨어입니다. 다양한 데이터가 저장된 데이터베이스는 여러 사용자 혹은 응용 프로그램에 데이터를 공유해야 하고 동시에 접근할 수 있어야 합니다. 이렇게 동시에 접근할 수 있도록 해 주는 것이 DBMS의 역할입니다. 대표적인 관계형 DBMS로는 MySQL, 오라클(Oracle), MariaDB, PostgreSQL 등이 있습니다.
관계형 데이터베이스는 고정된 행(row)과 열(column)로 구성된 테이블에 데이터를 저장합니다. 각 열에는 하나의 속성에 대한 정보가 저장되고, 행에는 각 열의 데이터 형식에 맞는 데이터가 저장됩니다.
관계형 데이터베이스에는 핵심적인 특징이 두 가지 있습니다. 데이터가 정해진 데이터 스키마에 따라 테이블에 저장된다는 점과 데이터가 관계를 통해 여러 테이블에 분산된다는 점입니다. 조금 더 쉽게 말하자면 테이블의 구조와 데이터 타입 등을 사전에 정의해야만 하고, 테이블에 정의된 내용에 알맞은 형태의 데이터만 삽입할 수 있는 것입니다. 따라서 데이터를 정확하게 입력했다면 매우 수월하게 사용할 수 있습니다.
NoSQL은 비관계형 데이터베이스로 SQL, 즉, 관계형 데이터베이스를 제외한 나머지 유형을 말합니다. 비관계형 데이터베이스를 칭할 때 NoSQL(또는 NoSQL 데이터베이스)라고 부릅니다. 최근 웹 애플리케이션이 보다 보편화되고 복잡해지면서 NoSQL 데이터베이스의 인기가 높아졌습니다.
NoSQL 데이터베이스는 테이블 형식이 아니며, 관계형 테이블과는 다른 방식으로 데이터를 저장합니다. 데이터 유형에 따라 다양한 유형을 갖추고 있으며, 주요 유형으로는 문서, 키 값, 와이드 컬럼, 그래프 등이 있습니다. NoSQL이라고 해서 꼭 스키마가 없는 것은 아닙니다. 유연한 스키마를 제공하며, 대량의 데이터와 높은 사용자 부하에서도 손쉽게 확장할 수 있다는 점이 큰 장점입니다. 또한 데이터를 읽어올 때 스키마에 따라 데이터를 읽어 옵니다.
RDBMS의 경우 데이터를 SQL 언어를 통해 테이블에 저장합니다. 미리 작성된 스키마를 기반으로 정해진 형식에 맞게 데이터를 저장해야만 합니다.
NoSQL의 경우 key-value, document, wide-column, graph 등의 방식으로 데이터를 저장합니다.
스키마는 데이터베이스(Database) 전체 또는 일부의 논리적인 구조를 표현하는 것으로 데이터베이스 내에서 데이터가 어떤 구조로 저장되는지를 나타냅니다.
RDBMS를 사용하려면 고정된 스키마가 필요합니다. 처리하려는 데이터 속성별로 열(column)에 대한 정보를 미리 정해야만 데이터 처리가 가능한 것입니다. 스키마는 나중에 변경할 수 있지만, 데이터베이스 전체를 수정하거나 오프라인으로 전환해야 할 수도 있기 때문에 처음에 신중하게 스키마를 정의해야 합니다.
NoSQL에서는 관계형 데이터베이스에 비해 유연하게 스키마의 형태를 관리할 수 있습니다. 행을 추가할 때 즉시 새로운 열을 추가할 수 있고, 개별 속성에 대해서 모든 열에 대한 데이터를 반드시 입력하지 않아도 됩니다.
쿼리는 데이터베이스에 대해서 정보를 요청하는 행위입니다. SQL 기반의 관계형 데이터베이스는 테이블의 형식과 테이블 간의 관계에 맞춰 데이터를 요청해야 합니다. 요청하는 방식이 정해져 있기 때문에 SQL 언어와 같이 구조화된 쿼리 언어를 사용하는 것입니다.
NoSQL의 쿼리는 데이터 그룹 자체를 조회하는 것에 초점을 두고 있기 때문에 구조화되지 않은 쿼리 언어로도 데이터를 요청할 수 있습니다. 이를 UnQL이라고도 부릅니다.
SQL 기반의 관계형 데이터베이스는 수직적으로 확장하며 높은 메모리와 CPU를 사용합니다. 데이터베이스가 구축된 하드웨어의 성능을 많이 이용하므로 비용이 비싼 편이며, 여러 개의 서버에 걸쳐서 데이터베이스의 관계를 정의할 수 있지만 매우 복잡하고 시간이 오래 걸리는 것이 단점입니다.
NoSQL로 구성된 데이터베이스는 반대로 수평적으로 확장합니다. NoSQL 데이터베이스를 위한 서버를 추가로 구축하게 되면 많은 트래픽을 편리하게 처리할 수 있다는 장점이 있습니다. SQL보다 저렴한 범용 하드웨어나 클라우드 기반의 인스턴스에 NoSQL 데이터베이스를 호스팅 할 수 있어 상대적으로 비용이 저렴한 것이 장점입니다.
지금까지 RDBMS와 NoSQL에 대해 함께 알아보셨는데 어떠셨나요? 한 문장으로 RDBMS와 NoSQL을 비교하자면 RDBMS는 일관성과 신뢰도를 보장하기 위해 데이터 유형에 제약을 두고, NoSQL은 이러한 제약을 없애 속도, 유연성 및 확장성을 선사하는 것이라고 볼 수 있습니다.
하지만 데이터베이스를 구축하는 방법에 있어 완벽한 솔루션은 없습니다. 따라서 관계형, 비관계형 데이터베이스를 모두 사용하여 서비스에 맞게 설계하고 있는 경우도 많습니다. 그래서 내가 구축하려는 DB에 있어서 여러 사용 사례를 살펴보고 적절한 데이터베이스를 선택하는 것이 중요합니다.