블로그

[와이즈인컴퍼니 : 플젝 스토리] 제9호 : 통계 분석 – 구조방정식이 뭐야?

등록일

2024-03-22

조회수

35

지혜는 경험에서 나온다고 합니다. 와이즈인컴퍼니에선 좋은 경험이 될 수 있는 다양한 프로젝트 사례들을 주기적으로 보내드리고 있습니다. 받으시는 여러분의 사업과 업무에 지혜가 가득하길 바랍니다. 더 많은 솔루션을 원하신다면 와이즈인컴퍼니에 메일회신 또는 연락부탁드립니다.
 2024년 2월 5주차
 통계 분석 - 구조방정식이 뭐야?

지혜는 경험에서 나온다고 합니다.

와이즈인컴퍼니에선 좋은 경험이 될 수 있는 다양한 프로젝트 사례들을 주기적으로 보내드리고 있습니다. 받으시는 여러분의 사업과 업무에 지혜가 가득하길 바랍니다.

더 많은 솔루션을 원하신다면 와이즈인컴퍼니에 메일회신 또는 연락부탁드립니다.

[출처 : AI 그림 생성] 
이번 사진은 조금 특이하네!

 

후후 놀라셨나요? 이번에는 기관이나 기업에서 의뢰를 받은 것이 아니랍니다. 이번에는 개인 연구자분의 의뢰를 받아서 통계분석을 진행하게 되었어요. 와이즈인컴퍼니는 리서치와 솔루션 이외에 다양한 의뢰를 수행한답니다!

통계분석? 어떤 통계분석이야?

이번 통계분석은 통계 모델이 올바르게 만들어졌는지 분석하는 것이에요. 모델은 데이터들의 관계를 해석해서 나타낸 것이라고 할 수 있답니다. 즉, 이 분석은 데이터들의 관계가 올바르게 해석되었는지 검정하는 것이에요. 


회귀분석을 들어보셨나요? 통계에서 원인(독립 변수)과 결과(종속 변수) 사이의 관계를 해석할 때 자주 사용하는 방법이지요. 구조방정식은 여기서 엄청나게 심화되었다고 보시면 된답니다.

 

요인분석과도 연관이 있기 때문에, 단순히 독립 변수와 종속 변수의 관계를 넘어서 잠재 변수를 분석해요.


모델의 적합성을 알아보기 위해선 구조방정식이 필요하답니다.

이번 분석은 어떤 과정으로 진행된 거야?

먼저 가설들을 세웁니다. 가령 우리가 우울증을 진단하는 설문지에 관한 모델을 만든다고 생각해 봐요. 그러면 ‘잦은 감정 변화가 우울증의 증상이다.’, ‘큰 스트레스가 우울증의 원인이다.’ 같은 식으로요.

 

모델은 이 가설들이 종합되어서 만들어집니다. 어떤 요인이 결괏값에 가장 큰 영향을 주는지, 어떤 요인들끼리 상호작용을 하는지 등을 보기 편하게 그림으로 나타낸 것이 모델이에요. 

[모델 예시]

 

이제 모델과 가설이 적합한지 검증을 해야 합니다. 모형을 검증하는 것이 바로 구조방정식이라 할 수 있답니다. 차근차근 따라가봐요!

좋아! 하나씩 알려줘!


좋아요! 이제 앞서 만든 모델을 검증하는 과정을 거쳐봅시다. 먼저 독립변수(요인)들끼리 상관관계가 있는지, 이른바 다중공선성이 있는지 확인해야 해요. 이걸 해결하지 않으면 모형을 잘 못 해석할 수 있습니다. 그러므로, 피어슨 상관관계분석을 먼저 실시합니다.

[상관관계 예시]

 

피어슨 상관관계분석 결과는 위와 같은 예시처럼 나타낼 수 있어요. 각 독립변수들을 모두 x축과 y축에 나열됩니다. 두 변수의 상관관계는 –1~1 사이의 상관계수로 나타납니다. 0은 서로 연관이 전혀 없다는 의미이며, -1은 한쪽이 오르면 한쪽이 내려간다는 의미이고, 1은 한쪽이 오르면 다른 한쪽도 오른다는 의미입니다. 같은 변수끼리는 당연히 상관계수가 1이에요.

그다음은 뭐야?


앞선 결과를 이용해서 다중공선성이 생기지 않도록 모형을 조정합니다. 그다음은 탐색적 요인분석을 활용해요. 잠시 우리가 앞서 만들었던 모형을 되짚어 봅시다.

 

이번 예시에선 설문지를 통해서 우울증을 진단하는 것이 목표입니다. 그러면 설문지에는 여러 요인에 관한 질문들이 많을 거예요. 가령, 감정 변화에 관해서 묻는 질문도 다양하지요. ‘최근 감정 기복이 있으십니까?’, ‘화를 내고 후회하는 일이 얼마나 있었습니까?’처럼요. 그런데 이 질문들의 답변은 눈에 보이지만, 감정 변화라는 요인은 눈에 보이지 않습니다.

 

그리하여, 수많은 질문들이라는 관측 변수를 설명할 수 있는 요인이라는 소수의 잠재변수를 만든답니다. 이 요인이 변수들을 잘 설명하는 것을 타당도와 신뢰도가 높다고 칭합니다. 이번 분석에서 요인의 타당도와 신뢰도를 측정하기 위해 사용한 방법은 탐색적 요인분석과 신뢰도 분석 등이 있습니다.

 

그다음으로는 AMOS 프로그램을 사용하여 확인적 요인분석과 구조방정식 모델 분석을 실시했습니다. 이건 처음에 가정한 모델이 얼마나 데이터와 잘 들어맞는지 확인하는 분석이에요.

[확인적 요인분석 예시]

위의 예시는 맨 위의 각 요인(잠재 변수)들과 그 아래 관측 변수들의 관계를 나타낸 그림이에요. 또한 각 요인들 사이의 관계도 나타나 있답니다. 실제 분석의 경우 유의성을 수치로 나타내며, 이것이 통계적으로 유의한지도 검정해요. 이걸 통해 최종적으로 모델을 확정 짓는답니다.

[최종 모델 예시]

위 예시는 가상의 최종 모델이에요. 여러 매개 변수와 그를 통한 간접효과, 잠재 변인 등이 드러나 있어요. 각 요인들이 서로에게 얼마나 영향을 미치고, 그것이 최종적인 종속변수인 우울증과 연관된 정도가 나타나 있답니다.

이번 소식도 재미있으셨나요?


‘왜 이런 일이 일어날까?’라는 질문에 간단하게 대답하는 것은 어려워요. 만약 하나의 결과에 한두 개의 원인이 존재한다면, 회귀분석 등의 방법으로 근거를 마련해서 대답할 수 있습니다.

 

그러나 여러 개의 의심되는 원인이 존재하고, 그 원인들끼리도 서로 엉켜있다면 어떨까요? 이를 해석하기 위해서는 그 구조부터 알아야 한답니다. 구조방정식은 이를 잘 설명해 줘요.

 

‘너무 당연한 얘기 아니야?’라고 생각하시겠지만, 당연한 얘기가 아닙니다. 

제대로 된 통계분석을 제공하는 곳은 흔치 않아요~

정확하게 자료를 모으고, 그것을 효율적으로 정리하며, 들어맞는 분석을 하는 것.

꼭 이것들을 체크해 보고 선택하세요.