30 Dec 2018 • on finance, R, linear regression

프로젝트 정리) 회계데이터 분석(1)

때는 2018년 1학기,

완전 이과생인 제가 [파이낸스경영학과]의 계량금융 이라는 과목에 겁없이 도전했었습니다.

이 때, 기말 과제로 생전 듣도보도 못한 회계데이터를 Regression으로 분석하는 과제를 했습니다.

1편에는 간단한 데이터 설명과 회계내용을 언급하고,

2편에는 R언어를 이용한 간단한 분석을 담을 예정입니다.

(영어전용과목이라 영어내용이 좀 있습니다 ㅠㅠ)

과제 설명

[Question]

회사에 Female independent director(여성 사외이사)가 존재한다는 것이,

CEO보상에 영향을 미치는지 pay-performance sensitivity(성과보상민감도) 관점에서 논하시오.

(Does the presence of a female independent director have an impact on CEO compansation, particularly with respect to pay-performance sensitivity?)

핵심 개념은 3가지입니다. 여성 사외이사 / CEO 보상 / 성과보상민감도. 이 부분에 대해서는 밑에서 논하겠습니다.
[Detailed Question]

1번 : 문제를 이해했는지 한번 써보세요.
2번 : 선형회귀모델을 어떻게 짜는게 좋을까요? 근거도 제시하세요.
3번 : 2번에서 짠 모델에 대해서 여러가지(수업에서 배웠던) 테스트를 수행해보세요.
4번 : 감히 너가 짠 모델이 Gauss Markov assumption을 따른다고 말할 수 있을까요? 다른 고려해야할 점들이 정말로 없을까요??

선형회귀모델이 좋은 모델이 되기 위해서는 몇 가지 고려해야할 점들이 있는데 이 프로젝트의 핵심은 그 근거를 잘 설명하는 것입니다. 이것도 아래에 간략하게 설명하겠습니다.

[DATA]

2006년 S&P 1500 회사들에 대한 정보가 있는 데이터입니다.

(법적인 문제로 데이터를 자세히 공개못하는 점 양해부탁드립니다 ㅠㅠ)

데이터의 Feature들은 다음과 같습니다.

회사 고유 식별자나 회사이름 같은 변수들은 실질적인 도움은 안된다는 것을 파악할 수 있지만,

나머지는 눈으로 봐서는 잘 모르겠네요. 아무튼 많습니다.

특히, REALCEOCOMP가 CEO compensation을 뜻하므로 이 변수가 종속변수가 되어야한다는 것은 알 수 있겠습니다.

1.여성 사외이사

사외이사 는 회사의 경영진에 속하지 않는 이사회의 멤버를 뜻합니다.

CEO는 사외이사를 둠으로써 이사회를 견제하고 감시하는 장치로 활용할 수 있습니다.

하지만 사외이사가 제 역할을 하기 위해서 고려해야할 점이 몇 가지가 있는데요.

1) 만약 CEO와 회장(chairman)이 같다면(DUALITY = 1)

여기서 회장은 이사회의 의장을 뜻하는데요.

만약 의장과 CEO가 같은 사람이라면, CEO가 굳이 자기자신을 견제할 만한 사외이사를 뽑지 않겠죠. 따라서 사외이사가 제 기능을 하지 못할 가능성이 큽니다.

2) 만약 이사회의 다양성이 적다면?

이사회의 다양성이 적다는 말은, 곧 획일적인 의사결정이 발생할 것임을 뜻합니다.

이 경우에는 아무리 이사회가 경영진으로부터 독립된다고 해도 의사결정이 잘 바뀌지 않기 때문에 사외이사가 제 기능을 다하지 못합니다.

이사회의 다양성을 정의하는 것이 쉽지는 않지만, 보통 인종이나 성별, 직업으로부터 다양성을 생각할 수 있는데, 의외로 여성 사외이사가 있는 회사가 많지 않습니다(20% 내외)

따라서 여성 사외이사가 존재한다면, 이사회의 다양성이 어느 정도 보장된다는 뜻이며, 이사회가 제 기능을 다할 것으로 기대할 수 있는 것이죠.

2. CEO보상, 성과보상민감도

1) CEO보상은 말 그대로 CEO의 급여입니다.

하지만, CEO보상은 당연히 회사의 성과에 따라서 큰 영향을 받겠지요.

따라서 여성 사외이사의 존재성이 CEO보상에 미치는 영향을 파악하기 위해서는

CEO보상 그 자체가 아니라 CEO의 성과보상민감도에 초점을 맞춰야 합니다.

2) 그러기 위해서는 CEO의 성과를 정의해야합니다.

보통 CEO의 성과는 ROA(Return of asset : 총자산순이익률)으로 생각을 할 수 있는데,

이는 “기업의 총 자산에서 순이익을 얼마나 창출하였는가?” 를 나타냅니다.

흔히들 말하는 ROE(Return of equity : 자기자본이익률)은 “기업의 채무를 제외한 자기자본에서 순이익을 얼마나 창출하였는가?” 와는 약간의 차이가 있겠습니다.

(그렇지만 CEO가 자기자본을 가지고 경영을 하는 것은 아니니 ROE보다는 ROA가 조금 더 CEO의 성과에 가깝다고 생각할 수 있겠습니다.)

하지만, 저는 이것만으로 CEO의 성과를 정의하기에는 충분하지 않다고 생각했습니다.

ROA는 시장의 전반적인 호황이나 불황을 고려하지 않기 때문인데요. 만약 특정 산업군의 시장이 호황이라면 회사가 좋은 의사결정을 내리지 못하더라도 ROA는 높을 수 밖에 없겠죠.

따라서 우리는 시장 전체의 성장률도 고려해야합니다. 위의 변수 중 하나인 RE1TY는 시장 전체의 성장률을 잘 고려했는데요. 이는 A firm’s one-year stock return in excess of market benchmark return during the same period.

즉, 회사 주식 성장률에서 시장 성장률을 뺀 값을 의미하기 때문에 이것도 CEO의 성과를 측정하기에 필요한 지표라고 생각했습니다.

3) 따라서 [Question]을 제 주관적으로 해석하면, “여성 사외 이사의 존재성은 ROA와 RET1Y의 CEO compensation에 대한 반영(민감도)에 유의미한 영향을 미치는가?” 가 됩니다.

3. 선형회귀분석

선형회귀분석은 y(=종속변수)와 X(=독립변수)들간의 관계가 “선형”이라고 가정하고 최적의 parameter(파라미터)들을 찾는 것입니다. 많은 케이스에서 일반화(generalization : unseen data에 대해서도 우리의 모델을 확장가능) 성능이 뛰어나며, 모델을 해석하기 쉬워 자주 이용하는 편입니다.

최적의 파라미터를 찾기 위해서는 추정(estimation) 기법을 이용하는데요.

이는 어떠한 최적의 파라미터가 존재한다고 가정하고, 그것을 찾는 빈도론적 관점에서 자주 쓰입니다.

각설하고, R언어(파이썬이나 다른 언어도 가능)에서는 이러한 추정치(estimatior)들을 손쉽게 구할 수 있는데요,

이러한 estimator가 최적임을 보장받으려면 다음의 Gauss-Markov assumption을 만족해야합니다.

(최적이다 : Unbiased & minimum variance)

모집단들이 선형성을 만족해야한다.

=> 당연합니다. 우리의 모집단이 선형의 관계를 따르고 있다는 것을 확립해야만 이러한 분석이 의미가 있습니다.

보통, “돈”과 같은 경우에는 최상위권으로 갈수록 기하급수적으로 증가하는 경향을 보이기 때문에, 돈과 관련된 feature들을 다룰 때는 선형성을 유지시키기 위하여 log를 취하는 경우가 많습니다.
Random sampling

=> 우리의 데이터가 전체 데이터에서 의도적으로 추출한 것이 아닌, 랜덤으로 뽑힌 데이터라는 가정입니다.

예를 들어서, 키와 몸무게의 관계를 알고 싶을 때 의도적으로 농구동아리 학생들만 가지고 실험을 진행한다면 당연히 좋은 분석이 되지 않을 겁니다.
No perfect collinearity

=> 다중선형회귀를 위해서 feature matrix의 역행렬을 구해야 하는데, 이러한 역행렬이 존재하기 위한 조건입니다. 실제 분석에서 크게 중요하지는 않습니다.
Zero conditional mean

=> 모델의 Error term은 실제 데이터와 추정값의 차이를 의미하며, 이는 고려하지 못한 feature들로부터 발생합니다.

만약 이러한 Error term이 X(=feature matrix)와 연관성이 있다면, omitted value bias가 발생하게 되어 최적의 추정값을 보장받을 수가 없습니다.

좋은 예를 찾아보았는데요.

“imagine you run a regression of ice cream sales over time on the number of people wearing shorts over time. You will likely get a very large and significant parameter estimate. However you’re not going to go running to Haagen Daz executives telling them they should start running advertisements for summer wear. It is obvious that there is a missing variable, temperature. This is a violation of the strict exogeneity assumption because number of people wearing shorts (X) is correlated with our omitted variable temperature which is contained in the error term (ϵ)”

1)아이스크림 판매량 - 여름옷 판매량이 유의미한 관계가 있다.

2)하지만, “여름옷이 잘 팔릴 때 아이스크림을 팔아보세요!” 라는 주장은 설득력이 없을 것이 뻔하다.

3)왜냐하면 여름옷 판매량은 고려하지 못한 feature인 “기온”과 연관성이 크게 있을 것이며, 이러한 기온을 고려하지 않는다면 여름옷 판매량은 좋은 feature가 아니라는 것이죠.

만약 4번 가정이 깨진다면, Error term의 평균이 어떤 feature에 의해서 크게 변한다는 것인데, 이것은 곧 Error term이 X와 관련성이 있다는 것을 뜻하죠.

Homoscedasticity

한국말로 번역하면 등분산성.

Error term의 분산도 X와 관련이 없어야 한다는 것을 의미합니다.

내포하고 있는 의미는 4번과 크게 다르지 않다고 생각합니다.

=> 이것을 검증하기 위해서 Breusch-Pagan Test 를 사용할 수 있습니다.

결론적으로 1~5번 가정을 잘 만족해야만 좋은 선형회귀모형을 따른다고 말할 수 있는데,

이것을 판단하는게 참 쉽지가 않습니다. 그래서 통계학이 어려운 것 같습니다..