r ctree 예제

다음으로 우리는 다른 모든 공변량의 함수로 오존의 모델을 구성하기 위해 ctree를 사용합니다. ctree(수식, data=) 생성된 트리 유형은 결과 변수(명목 계수, 정렬 된 요인, 숫자 등)에 따라 달라집니다. 트리 성장은 통계 적 중지 규칙을 기반으로하므로 가지 치기가 필요하지 않습니다. 이 구현은 Strasser와 Weber(1999)가 개발한 조건부 추론 또는 순열 테스트를 위해 통합 프레임워크를 사용합니다. 1단계의 중지 기준은 복합성 조정 된 p-값 (테스트 유형 = ctree_control의 «Bonferroni») 또는 일변량 p-값 (테스트 유형 = «Univariate»)을 기반으로합니다. 두 경우 모두 기준이 최대화되고, 즉 1- p-값이 사용된다. 분할은 기준이 ctree_control에 지정된 mincriterion에서 지정한 값을 초과할 때 구현됩니다. 예를 들어 mincriterion = 0.95인 경우 이 노드를 분할하려면 p 값이 0.05달러보다 작아야 합니다. 이 통계적 접근 방식은 추가(사후) 가지 치기 또는 교차 유효성 검사 없이 올바른 크기의 트리를 재배할 수 있도록 합니다.

분리수준은 데이터 집합의 크기에 적합하도록 지정하거나(일반적으로 0.95는 작고 적당한 크기의 데이터 집합에 적합함) 하이퍼매개 변수처럼 취급될 수 있습니다(핫혼, Hornik 및 제일리스, 2006년). 분할할 입력 변수의 선택은 가능한 컷포인트가 많은 입력 변수를 향한 변수 선택 바이어스를 피하는 일변량 p-값을 기반으로 합니다. 각 노드의 테스트 통계는 sctest 메서드로 추출할 수 있습니다. (제네릭은 strucchange 패키지에 있으므로 이 패키지를 로드하거나 sctest.constparty를 직접 호출해야 합니다.) 샘플 크기(예: minsplit 또는 minbucket 등)로 인해 분할이 중지되는 경우 테스트 결과가 비어 있을 수 있습니다. 분류 및 회귀 트리(Brieman, Freidman, Olshen 및 Stone에서 설명한 대로)는 rpart 패키지를 통해 생성될 수 있습니다. rpart에 대한 자세한 정보는 RPART 루틴을 사용하는 재귀 분할 소개에서 확인할 수 있습니다. 일반적인 단계뒤에 두 가지 예제가 제공됩니다.