코딩하는 ditto/R

2일차 복습: 데이터전처리 과정(summarise함수, group_by함수)

디또크 2023. 3. 3. 06:28
728x90

일단 group_by 함수부터 접근하면

데이터 프레임이 있다는 가정하에 

 

같은 열 값을 가진 행을 기준으로 그룹화 시킨다는 의미 

(가로로 긴 데이터 나온다는 의미/ 행 데이터)

 

이런 데이터프레임이 있다면

group_by(class)를 돌리면

class를 각 그룹별로 1반 2반 3반순으로 정렬하는 작업

 

그 후 summarise 함수를 이용하여

각 반으로 나눠진 그룹의

합 sum / 최댓값 max / 최소값 min / 평균 mean / 표준편차 sd / mediam 중앙값 / n() 빈도 등

함수 결합을 통해 요약 데이터 추출 가능

 

n() 는 빈도수를 나타내는데,

1차적으로 그룹함수를 통해 특정 열이 일치하는 행들의 갯수를 파악하는 의미

 여러 제조사 중에서 컴팩트타입 차량의 생산량을 파악하는데

닛싼에서 2대 쓰바루에서 4대 도요타에서 12대 등

행 기준을 ㅗ가면

닛싼 / 컴팩트

닛싼/ 컴팩트

쓰바루/ 컴팩트

쓰바루/ 컴팩트

쓰바루/ 컴팩트

쓰바루 / 컴팩트

 

이런식으로 닛싼 2 쓰바루4 이런식의 빈도를 체크해 주는 함수

(이게 현업에서 가장 많이 쓰일듯한 느낌, 빈도함수  n() )

         

728x90