[R] 추론통계 개요
추론통계란 모집단으로부터 추출된 표본의 표본통계량으로 부터 모집단의 특성인 모수에 관해 통계적으로 추론하는 절차로서 실질적인 데이터 분석과정이라 할 수 있습니다. #01. 데이터 분석의 구분 탐색적 데이터 분석(EDA) 확증적 데이터 분석(CDA) 활동 ...
추론통계란 모집단으로부터 추출된 표본의 표본통계량으로 부터 모집단의 특성인 모수에 관해 통계적으로 추론하는 절차로서 실질적인 데이터 분석과정이라 할 수 있습니다. #01. 데이터 분석의 구분 탐색적 데이터 분석(EDA) 확증적 데이터 분석(CDA) 활동 ...
이상치는 정상 범주에서 크게 벗어난 값을 말합니다. 데이터 수집 과정에서 오류가 발생할 수 있기 때문에, 현장에서 만들어진 실제 데이터에는 이상치가 포함될 수 있다. 이상치가 포함되어 있으면 분석 결과가 왜곡되기 때문에 분석에 앞서 이상치를 제거하는 작업을 해야 합니다. #01. 이상치의 이해 1) 이상치란? 의도하지 않게 잘못 입력한 경우...
데이터 정제란 데이터 분석에 앞서 전처리가 완료된 데이터에 대해 빈값(결측치)이나 정상 범위를 벗어난 값(이상치)들을 제거하거나 다른 값으로 대체하는 처리를 말합니다. #01.결측치 비어있는 값 (DB에서의 NULL과 비슷한 의미) 현장에서 만들어진 실제 데이터는 수집 과정에서 발생한 오류로 인해 결측치를 포함하고 있는 경우가 많다. ...
변수를 몇 개의 구간으로 나누어 각 구간별로 몇 개의 데이터가 분포되어 있는지를 확인하는 것은 전체 데이터의 분포를 확인하기 위해 중요한 작업 입니다. 이러한 데이터의 분포를 도수분포라고 합니다. #01. 도수분포 이해 1) 데이터의 구분 범주형자료(categorical/qualitative) 질적자료로서 명목척도, 서열척도가 이에 해당한다...
기술통계란 자료를 그래프나 숫자등으로 요약하는 통계적 행위 및 관련 방법을 의미합니다. 기술통계를 통해 데이터의 분석에 앞서 전체적으로 데이터의 특징을 파악하고 데이터를 다양한 각도로 접근할 수 있습니다. 기술통계는 데이터를 요약하고 시각화해서 잘 설명하는 것이 중점을 두며 데이터에 대해서 쉽게 설명하기 위해서 시각화를 많이 활용합니다. #01. 기...
R의 데이터프레임은 SQL 구문을 통해 데이터를 조회하는 기능을 제공합니다. 이를 통해 데이터를 원하는 형태로 변경하거나 요약할 수 있습니다.
데이터 마트(Data Mart, DM)는 데이터 웨어 하우스(Data Warehouse, DW)와 사용자 사이의 중간층으로서 하나의 주제 또는 하나의 부서 중심의 DataFrame입니다. 대부분 DW로부터 복제되지만 분석가가 자체적으로 수집할 수 도 있습니다. 대부분 관계형 데이터베이스나 다차원 데이터베이스를 이용하고 구축합니다. 고객과 관련된 데이...
데이터 전처리란 데이터를 본격적으로 분석하기 전에 분석에 적합하게 데이터를 가공하는 작업을 의미하는 것으로 데이터 가공(Data Manipulation), 데이터 핸들링(Data Handling)도 비슷한 의미로 사용되는 용어들 입니다. 데이터 전처리에서 수행되는 주요 작업들에는 아래와 같은 것들이 있습니다. 행,열의 순서, 이름 변경 데...
이 자료는 예전 수업자료로 배포하던 pdf 파일입니다. pdf 파일을 페이지 안에 포함시켜 놓았습니다.
이 자료는 예전 수업자료로 배포하던 pdf 파일입니다. pdf 파일을 페이지 안에 포함시켜 놓았습니다.