본문 바로가기

방법론 공부/계량통계 방법론

[STATA] 데이터를 쉽게 표로 만들기 - esttab, estout, eststo, estadd, estpost esttab - Display formatted regression table . estpost tabstat price mpg rep78, by(foreign) statistics(mean sd) columns(statistics) listwise foreign | e(mean) e(sd) -------------+---------------------- Domestic | price | 6179.25 3188.969 mpg | 19.54167 4.753312 rep78 | 3.020833 .837666 -------------+---------------------- Foreign | price | 6070.143 2220.984 mpg | 25.28571 6.309856 rep78 | 4.28571.. 더보기
[STATA] label define, label value과 label variable의 차이점 label variable해당 변수가 무엇을 의미하는 변수인지 설명해주는 것label var school_aged0 "school-aged boys'" label define 범주형 변수(categorical variable)에서 각각의 값이 숫자로 코딩되어 있을 때, 각각의 숫자가 무엇을 의미하는 것인지 각각의 값에 라벨링을 해주는 것label define lbenef_sex 1 "male beneficiary" 2 "female beneficiary"label define yesno 0 "no" 1 "yes" label value정의된 라벨은 어떤 변수에 연계시키게 해주는 것 (label define)을 먼저 해주어야 함label define sexlabel 1 "male" 2 "female"labe.. 더보기
Data Reconciliation - 데이터 분석에 앞서 해야 할 작업 Data reconciliation is a technique that targets at correcting measurement errors that are due to measurement noise, i.e. random errors. From a statistical point of view the main assumption is that no systematic errors exist in the set of measurements, since they may bias the reconciliation results and reduce the robustness of the reconciliation. Definition and overview of Data ReconciliationData.. 더보기
데이터의 분포를 어떻게 보여줄까 - Histogram vs. Boxplot Boxplot Boxplot은 outlier를 제거하고 사분위수를 이용하여 가운데 50% 의 데이터를 통해 그래프를 생성한다. 이를 통해 중앙값을 비롯한 각 사분위수의 범위,최대값, 최소값을 알 수 있습니다. HistogramHistogram은 전체 데이터에 기초하여 측정값이 존재하는 범위를 몇 개의 구간(급)으로 나눈 경우,각 구간에 해당하는 데이터의 총 갯수를 보여준다. 상대도수를 모두 합하면 1이 된다. 각 막대 간에는 간격이 없으며, 많은 경우 값들은 정규분포를 따르는 것처럼 보인다. 이를 통해 데이터의 범위, 데이터가 집중된 곳이나 대칭성 등을 알 수 있다. 단, 데이터 자체의 측정값들은 그래프에 나타나지 않습니다. 출처: http://www.jmp.com/support/help/Options_.. 더보기
[STATA] 문자열 관련하여 유용한 기능들 - ltrim, itrim, rtri, abbrev, proper, upper, lower ltrim() & itrim() & rtrim() 각각 문자열의 왼쪽, 중간, 오른쪽에서 빈공간을 없애줍니다. abbrev(#) 지정한 숫자에 맞게 문자열을 잘라서 약어로 만들어줍니다. proper()문자열의 첫 번째 알파벳을 대문자로 만들어줍니다. upper()문자열의 모든 알파벳을 대문자로 만들어줍니다. lower() 문자열의 모든 알파벳을 소문자로 만들어줍니다. 더보기
[STATA] 원하는 문자를 추출하고 바꾸는 정규표현식(regular expression) - regexm, regexr, regexs regular expression, 즉 정규표현식이란 특정한 규칙을 가진 문자열의 집합을 표현하는데 언어입니다. 프로그래밍에서 많이 사용되기도 하는데, 문자열의 검색과 치환을 위한 용도로 많이 쓰입니다. regexmregexm()은 문자변수에서 찾고자하는 정보가 있으면 1 그렇지 않으면 0의 값을 만들때 유용합니다.gen 새로운변수명 =regexm(기존변수명, "찾고자하는문자열") 예컨대 다음의 command는 brand라는 변수에서 BMW가 몇 개나 있는지 찾아서 이에 해당하는 더미 변수를 만듭니다. gen BMW=regexm(brand, "BMW")tab BMW regexrregexr은 원하는 문자열을 찾아서 새로운 문자열로 대체합니다. gen 새로운변수명=regexr(기존변수명, "대체하고자하는문자.. 더보기
[STATA] 일정한 조건에 따라 dummy 변수 쉽게 만들기 tabulate & generate() STATA를 통해 가장 쉽게 더미 변수를 생성하는 방법은 tabulate과 generate command를 사용하는 것입니다. tabulate 기존변수명, generate(더미변수명)list 을 실행시키면 기존 변수에서의 관측치의 갯수에 따라 더미변수명1, 더미변수명2, 더미변수명3...라는 변수가 자동으로 생성됩니다. xi: i. xi command 역시 쉽게 더미 변수를 생성하도록 해줍니다. ‘i.*’는 xi 와 같이 쓰이면 ‘i.’ 뒤에 나오는 범주형 변수로 인식하고 더미 변수를 자동으로 생성해주는 역할을 하게 됩니다. xi i.group xi: reg wage_hourly age c.age#c.age i.w2edu 한편, 두번째 예와 같이 더미변수로 regr.. 더보기
[STATA] 두 개 이상의 분포 비교하기 - Box plot Boxplot의 정확한 명칭은 box-and-whisker plot으로, dataset의 분포를 보여주기 위해 사용되는 그래프의 일종으로, 다음과 같이 생겼습니다. STATA에서의 기본 command는 다음과 같습니다. graph box 변수1 변수2 변수3 한편, 이는 변수 카테고리가 x축에 위치해서 y축에 통계값이 나타나는 그래프이고, 반대로 변수 카테고리가 y축에 위치한 boxplot을 그리기 위해서는 다음과 같은 command를 사용합니다. graph hbox 변수1 변수2 변수3 변수1, 변수2, 변수3은 하나의 boxplot 그래프 안에서 다른 색깔로 그려집니다. 카테고리와 그래프 순서 그리고 over() option을 사용하면 전체 데이터를 over() option 에 따라 지정된 변수라는 .. 더보기
[STATA] 카테고리에 따라 데이터 정렬 혹은 생성 - sort, gsort, by, bysort 많은 STATA commands들은 개별 변수 내의 group 별로 처리되고는 합니다. sortsort command는 다음에 지정된 변수를 기준변수로 하여 오름차순(ascending order)으로 표본들을 정렬합니다. 두 개의 변수가 지정된 경우에는 2번째 변수는 2순위 기준변수가 됩니다. 한편, 문자열 변수인 경우인 경우에는 영어는 알파벳순, 한글은 가나다순으로 정렬됩니다.. sort company year gsort gsort command는 -와 함께 사용하여 지정된 변수를 기준변수로 하여 내림차순(descending order)으로 표본들을 정렬합니다. 다음의 command는 company 변수의 표본들을 기준으로 내림차순으로 정렬합니다.. gsort -company byby command는 .. 더보기
[STATA] 히스토그램과 instant command - histogram, scatteri 하나의 STATA do-file 일부를 살펴보면서 histogram, twoway histogram, scatteri command 등에 대해 알아보겠습니다. twoway (histogram foreign, discrete width(5) percent ytitle(percent of sites) ///xtitle("foreigners") xlabel(, angle(zero) tposition(inside)) ///title("Distribution of percent of foreigners")) ///(scatteri 0 13 25 13, c(l) m(i) legend(off) ///note("Note: Red line is the average (13).")) save "`figurepath'dis.. 더보기