
[R] 데이터 확인하기
R에서는 데이터를 표현하기 위해 DataFrame이라는 자료형을 제공합니다. DataFrame을 이해하고 잘 다루는 것은 데이터 처리에 있어서 가장 기본이 되는 작업입니다.

R에서는 데이터를 표현하기 위해 DataFrame이라는 자료형을 제공합니다. DataFrame을 이해하고 잘 다루는 것은 데이터 처리에 있어서 가장 기본이 되는 작업입니다.

패키지란 R이 제공하지 않는 기능을 구현해 놓은 일종의 확장팩을 말합니다. 온라인에 등록되어 있는 패키지를 다운로드 받아 설치하고 그 패키지에 포함된 기능들을 로드해서 사용할 수 있으며 대부분의 데이터 분석, 시각화 관련 기능은 패키지를 통해 제공됩니다.

내장함수는 데이터 분석가에게 제공되어질 목적으로 R 안에 사전에 정의되어 내장되어 있는 기능으로 대부분 기본 데이터(스칼라값)를 가공하는 기능입니다. R에 내장되어 있는 기능이므로 내부 코드를 볼 수는 없기 때문에 어떤 종류가 있는지, 어떤 파라미터를 전달하는지, 어떤 결과값을 반환하는지만 파악해서 활용하는 것에 중점을 두고 파악하는 것이 중요합니다.

함수란 자주 사용되는 명령어들을 **그룹화**해서 생성한 **재사용 가능 단위**를 의미합니다. 어릴적 공부한 수학의 함수도 같은 의미로 이해할 수 있습니다.

if, while, for 문은 각각의 블록(`{}`) 안에 같은 종류의 구문 혹은 다른 종류의 구문을 포함할 수 있습니다.

주어진 조건을 충족하는 동안 `{}`안의 구문을 반복적으로 수행하는 형태를 반복문이라고 합니다.

조건문은 주어진 조건이 참인 경우에만 프로그램 구문을 실행하도록 설정하는 문법 구조를 말합니다. 조건문을 사용하면 프로그램이 선택적으로 실행되도록 할 수 있습니다.

데이터프레임(DataFrame)은 **행과 열로 구성된 사각형의 표 형식의 자료구조**로서 데이터 분석에서 가장 유용하며 필수불가결한 자료형입니다. 데이터프레임이라는 용어가 낯설다면 엑셀과 같은 분석 프로그램의 시트(sheet) 데이터를 구현하기 위한 자료형이라고 생각하면 이해하기 쉽습니다.

**리스트**는 서로 다른 종류의 값들을 key(이름)와 value(값)의 쌍으로 저장하는 자료구조 입니다. 이런 형식의 자료구조를 다른 프로그래밍 언어에서는 Map 혹은 Dictionary 라고 부릅니다. 비슷한 개념의 용어를 함께 기억해 놓는 것이 좋겠습니다.

요인(factor)은 범주형 데이터를 위한 데이터 타입으로 주어진 범위 내에서만 값을 할당할 수 있습니다.