변수를 몇 개의 구간으로 나누어 각 구간별로 몇 개의 데이터가 분포되어 있는지를 확인하는 것은 전체 데이터의 분포를 확인하기 위해 중요한 작업 입니다. 이러한 데이터의 분포를 도수분포라고 합니다.
기술통계란 자료를 그래프나 숫자등으로 요약하는 통계적 행위 및 관련 방법을 의미합니다. 기술통계를 통해 데이터의 분석에 앞서 전체적으로 데이터의 특징을 파악하고 데이터를 다양한 각도로 접근할 수 있습니다. 기술통계는 데이터를 요약하고 시각화해서 잘 설명하는 것이 중점을 두며 데이터에 대해서 쉽게 설명하기 위해서 시각화를 많이 활용합니다.
R의 데이터프레임은 SQL 구문을 통해 데이터를 조회하는 기능을 제공합니다. 이를 통해 데이터를 원하는 형태로 변경하거나 요약할 수 있습니다.
데이터 마트(Data Mart, DM)는 데이터 웨어 하우스(Data Warehouse, DW)와 사용자 사이의 중간층으로서 하나의 주제 또는 하나의 부서 중심의 DataFrame입니다. 대부분 DW로부터 복제되지만 분석가가 자체적으로 수집할 수 도 있습니다. 대부분 관계형 데이터베이스나 다차원 데이터베이스를 이용하고 구축합니다.
데이터 전처리란 데이터를 본격적으로 분석하기 전에 분석에 적합하게 데이터를 가공하는 작업을 의미하는 것으로 데이터 가공(Data Manipulation), 데이터 핸들링(Data Handling)도 비슷한 의미로 사용되는 용어들 입니다.