다중공선성은 통계에서 상당히 중요한 개념이다. 특히 회귀분석과 관련하여 다중공선성이 존재할 때 데이터 분석 결과에 부정적인 영향을 끼치며, 나아가 결정 트리와 같은 인공지능을 적용한 분석에서도 영향을 끼친다.

두산백과에서 인용하자면,
다중공선성은 "회귀 분석에서 사용된 모형의 일부 예측 변수 (독립 변수)가 다른 예측 변수와 상관 정도가 높아, 데이터 분식 시 부정적인 영향을 미치는 현상을 말한다."

수리적 의미로는
어떤 독립 변수가 다른 독립 변수들과 완벽한 선형 독립 (linearly independent)가 아닌 경우를 말한다.
쉽게 말하면, n개의 dimension에서 임의의 u vector와 v vector에 대해서 이들의 일차 결합 (linear combination)이 0을 만족하는 상수 Cn이 모두 0이면 벡터 u와 v는 선형 독립이라고 할 수 있다.

선형 독립의 조건


다시 돌아와서 다중공선성은 (n+1)개의 수치형 변수를 가진다.

  • x1, x2, x3, ... , xn의 n개의 독립변수와 Y라는 1개의 종속 변수로 구성될 수 있다고 가정하자.

다중공선성이 존재한다고 해석하면, "n개의 입력 변수들 사이에 상관관계가 존재하는 상태" 라고 기술할 수 있다.

Feature selection의 한가지 방법인 PCA(principle component analysis)를 보면, 독립변수끼리 다중공선성의 문제가 있는데 이 변수들을 n차원에 산포시키면 온전한 선형독립을 이루지 못함을 알 수 있다. 그렇기 때문에 다중공선성의 문제가 있는 독립변수들을 선형결합하여 주성분(component)으로 차원축소해준다. 그렇게 되면 변수의 특성을 살리면서 독립변수의 개수를 줄여 과적합의 위험을 줄일 수 있다. 이렇듯, 다중공선성은 독립변수들의 관계를 이해하고 어떠한 처리를 진행할지에 대한 하나의 정보이다.

이쯤 되면 pearson's correlation과 multicollinearity의 차이가 무엇인지 궁금해진다.
두 개의 차이를 아래와 같이 구분할 수 있다.

상관성 Pearson Correlation 등
다중공선성 VIF (분산팽창계수 or 분산팽창인수)
Tolerance (공차한계), CN (상태지수) 등

예시를 들어보자, 우리는 신생아의 출생시 체중 (birth weight)과 출생시 머리 둘레 (head circumference)가 신생아의 뇌 발달에 미치는 영향을 설명하고자 한다.
여기서 우리는 하나의 목적이 생긴다.

  • 신생아의 체중과 머리 둘레가 각각이 종속 변수를 정확하게 설명해주었으면 한다.

만약에 체중이 적은 아동일수록 머리 둘레가 작아 다중공선성이 생긴다면 독립변수들 각각의 설명력이 약해진다.

  • standard error가 증가하게 된다.
  • 추정치의 분산이 증가하여 회귀계수의 신뢰도가 감소한다.

그렇다면 standard error는 왜 증가하는 것일까?
Y = 3(X1) + 2(X2) 의 모형식이 얼마나 유의한 식인지 확인해 보자.

  • 귀무 가설 = 회귀 계수는 0이다.
  • 귀무 가설을 검증하기 위해서는 검정 통계량 (t-statistics) = 추정된 회귀 계수 - 0 / 계수의 표준 오차로 확인할 수 있다.
  • 검정 통계량의 절대값이 증가하면 0.05 < p-value 가 나온다. 반대로 표준 오차가 커지면 검정 통계량의 절대값이 작아진다.


R을 사용하다 보면 VIF, Tolerance, CN을 주로 사용하는데, VIF는 이 중에서도 가장 일반적으로 사용된다.

$VIF=\frac{1}{(1-R^{2})}$

코드로는 car::vif(lm_object)를 진행한다.


해석

결과 값을 직접 가져오지는 않겠지만, 일반적으로 VIF가 10 이상이면 다중공선성이 있다고 판단한다.
10 이상의 결과가 나오면 변수 선택법 (variable selection)을 통해 임상적인 의미가 더 중요하거나, 종속변수와의 관련성이 더 높은 변수를 선택하거나 두 변수의 결합변수를 만들어 사용할 수 있다.


Reference
https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=vnf3751&logNo=220833952857


1950년 전자식 컴퓨터가 들어서기 전부터 시작하여 빅데이터, 데이터 과학, 머신 러닝까지 영향력 있는 주제를 다루고 책을 이끌어 나가는 핵심 개념으로는 통계적 추론 (statistical inference)이 있다. 통계적 추론은 수학, 경험적 과학, 철학의 삼각 지점에 위치하여 각 핵심 기법의 발달과 그 추론적 정당성에 대해 설명한다. 다시 말해, 특정 문제를 해결하기 위해 고안된 알고리즘과 그 알고리즘의 정확성을 판단하기 위한 추론적 논거들을 분리한다.

 

현 시대는 통계적 정당성보다는 알고리즘적 사고를 중시하는 통계적 유형 (머신러닝, 딥러닝)이 출몰했다.  

자연은 알고리즘의 정확성을 판단해줄 추론으로 자연 그 자체가 존재한다. 그에 반해 통계학은 자연으로부터 한 걸음 물러나 적용된다. 통계에는 공정한 심판이 필요하고, 이는 수학적 논리 시스템의 필요성을 강조한다. 

 

이 책은 알고리즘의 정확성을 판단하기 위한 추론에 대해서 다룬다.

 

책의 목차는 크게 3가지로 나뉜다.

  1. 베이즈, 빈도주의 피셔주의
  2. 컴퓨터 시대의 연산과 통계
  3. 21세기 알고리즘의 시대

해당 책은 수학적, 통계적 기본 이해가 필요하다. 

기초부터 차근차근 나아가 보자.

 

http://www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&linkClass=&barcode=9791161752860

 

해당 연구는 연구 설계부터 논문 작성까지 오롯이 혼자 진행한 결과물이다 (그만큼 애정이 크다).
또한 우리 지도교수님과 네트워크 분야에서 전문가이신 하버드 교수님의 자문을 얻어가며 진행하였다.

해당 연구는 미국 최대 소아과학회인 Pediatric Academic Societies에 포스터 발표로 성과를 남겼다.
현재 (2022.06.16)는 논문 게재를 위한 submission 과정에 있다.

PAS 2022 Poster Presentation (출처: https://www.pas-meeting.org/; 제작자: 장용훈)

이 연구의 가설은 "조산으로 태어난 아동과 정상 출생 아동의 뇌 네트워크가 인지 기능의 핵심이 되는 관심 뇌 영역에서 유의한 차이가 있다"이다.
이를 위해, Graph-theory를 기반으로 뇌의 허브와 모듈을 식별하고 허브와 모듈을 정량화할 수 있는 global (whole-brain), local (node level) 네트워크 값을 추출하였다.


여기서 허브는 노드의 일부로써 뇌 구조적 측면에서 네트워크 통신의 효율성을 위해 개발된 특별 구역이다. 쉽게 말해 대한민국의 서울, 부산 등 특별시와 광역시로써 대한민국의 사방을 이어주고 경제, 문화, 산업 등의 효율적이고 균형적인 발달을 위해 중요한 역할을 수행하는 지역으로 볼 수 있다.

모듈은 쉽게 말해 비슷한 역할을 수행하는 노드끼리 모인 집합이다. 모듈은 구조적, 기능적으로 유사한 집단이 모여 형성되고 잘 형성된 모듈은 뇌 기능적 전문화와 전문화된 모듈끼리의 통신이 잘 이루어 짐을 의미한다. 이 모듈 집합에는 허브가 포함될 수도 있고 포함이 되지 않을 수도 있다.

여기서 우리는 2가지 추가 가설을 제시해 볼 수 있다.

  1. 조산의 뇌는 정상 출생에 비해 기능적 분화 (모듈의 분포)가 잘 이루어지지 않을 수 있다.
  2. 조산의 뇌 허브는 정상 출생에 비해 비 효율적인 발달을 보일 수 있다.

결과

  1. 뇌 네트워크의 global 효율성은 두 그룹간 유의한 차이가 없었다.
    • 두 그룹의 whole-brain에 대한 효율성은 유의한 차이가 없으며 이는 local 네트워크를 분석해 봐야 함을 시사한다.
  2. superior frontal gyrus (SFG)와 fusiform gyrus (FFG)
    • 정상 출생과 비교하여 조산아동은 SFG에서 유의하게 감소된 네트워크 지표를 보였고, 반대로 FFG에서는 유의하게 증가된 네트워크 지표를 보였다.
  3. short-range fiber와 long-range fiber
    • 정상 출생과 비교하여 조산아동은 전두엽의 short-range, long-range fiber 모두에서 유의하게 감소된 네트워크 연결성을 보였고, 반대로 FFG에서는 short-range의 과도한 네트워크 연결성을 보였다. 
  4. 조산아의 모듈은 전두엽에서 비효율적인 분포를 보인다.

 


토의

간단하게 토의해 보자.
내 의견을 제시하기에 앞서 이전 연구에서 증명 및 토의를 나열해보자.

Previous studies (레퍼런스가 필요하시다면 댓글 남겨주세요.)

  1. 신생아의 뇌는 정형화된 발달 패턴을 보인다.
    • 후두엽에서 전두엽으로 발달
    • short-range fiber에서 long-range fiber로 발달
  2. 조산의 뇌는 자궁 외 환경에 조기 노출되기 때문에, 1차 감각과 관련된 네트워크 발달에 영향을 줄 수 있다.
  3. 조산의 뇌는 덜 중요한 네트워크를 희생하면서 중요 네트워크를 유지하려는 보상 발달을 보인다.

결론

이전 가설과 해당 연구의 결과를 종합하면, 후두엽에 위치한 FFG에서 local network 지표와 short-range fiber가 보상적 발달 및 자궁 외 환경에 조기 노출로 인해 과 발달(over-connectivity)했으며, 이에 영향을 받은 전두엽의 SFG에서는 local network 지표와 short-range and long-range fiber가 감소된 양상을 보였으며 이는 전두엽의 발달이 지연될 수 있음을 시사한다.

  • 추가로, SFG는 고위 인지기능을 담당하는 영역으로 기억 형성과 시간의 흐름에 대한 지속적인 인지를 가능하게 하는 working memory를 담당한다. SFG의 감소는 신생아 인지 발달에 중요한 working memory 기능의 저하와 관련이 있을 수 있다.
  • FFG는 초기 신생아 시지각 발달 과정에서 부모의 얼굴을 인식하는 face recognition에 중요한 역할을 수행하며, 자폐 스펙트럼 환자의 경우 FFG가 과도하게 발달해 있음을 이전 연구를 통해 알 수 있다. 초기 신생아 발달 이론 중 감각운동기에 자극 박탈은 후기 인지 발달과 관련이 있을 수 있다.

해당 연구는 몇 가지 제한점이 있다.
네트워크 분석은 임계값 (sparsity threshold)에 따라 데이터 값이 달라지는데, 이는 정규분포와 등분산성에 상당한 영향을 끼쳐 공분산분석 (ANCOVA)를 상당히 까다롭게 만든다. 소아 데이터를 사용한다면 이러한 문제점을 자주 보게 되는데, 이러한 문제를 해결하기 위해서는 optimal threshold를 찾거나 디벨롭된 통계지식이 필수이다. 또한, 신경발달과의 상관관계를 보지 않았기 때문에 신경발달적 의의를 도출하기에는 제한이 있다.

 

저작권 정보: PAS 2022 포스터는 제작자에 한하여 공유 및 재배포가 가능하다.

+ Recent posts