本书对WRDS、Crsp、Compustat三大数据库的样本进行数据筛选、合并、整理,步骤及方法如下。
第一,数据筛选。
对上市公司样本来源,限定其上市的交易所,要求所选择的公司上市所在的交易所为NYSE、AMEX或NASDAQ。
对样本数据集中的股票数据,筛选出变量shrcd(表示股票的类别变量)取10或11的数据(表示这些股票是普通股),这一部分公司为普通股的样本。对于回报率数据,将数据集中的回报率为B或C的值设置为缺失,其中B代表有明确的当前的价格,但过去的价格不确定。C代表当前时间没有在交易所内进行交易。
股价取绝对值,数据集中的股价存在负数,当股价表现为负数时,代表当期价格因某种原因没有获得或不准确,代之以bid(买入价)和ask(卖出价)的均值。
若数据中存在一定的重复数据,对重复数据记录进行删除。数据起始年份为1962年,因为1961年之前的数据存在较多的缺失,且1962年末的数据是1963年的期初数据。数据截至2017年末,时间跨度56年,期间经历多次牛市和熊市、经济繁荣与危机。
第二,数据合并。
数据合并使用的数据集有三个,第一个是Compustat数据库中的公司基本面数据,第二个是Crsp数据库得到的股价和回报率数据,第三个是中介数据集data base link(数据集名字),是连接Compustat数据和Crsp数据用的。
数据合并工作分为两个步骤。(www.xing528.com)
第一步:将数据集Link与年度数据集Compustat_variable按照gvkey(公司代码)和fiscal year(财务年度)合并,选取fiscal year是因为Compustat数据库中的时间规定是财年末。Gvkey是Compustat数据库中编写的公司代码。link type code要求为“LU”“LC”“LS”,linkprim要求为“P”“C”。
以上标准参考Fama-French 92年SAS程序。另外,Compustat_annual中的时间应在linkdt(first effective date of link)和linkenddt(last effective date of link)之间,这两个时间是link数据集给出的可以确保数据有效的期间。
以上是连接数据集进行数据合并的规则,以确保正确连接Crsp和Compustat数据集使用。
第二步:将以上合并的数据集与年度数据集Crsp_annual按照permno(公司代码)和合并数据集中的fiscal year与Crsp_annual中的year匹配合并。CCM(Crsp-Compustat Merge)中的数据是财务数据,因此是按照财务年得出的,而Crsp_annual中包含的是从上年末到本年末的回报率数据,是按照日历年份得出的。也就是说,匹配方式为对应的财务年的基本面数据和日历年的股票数据相匹配。
Permno也是公司代码,因为Crsp和Compustat中都有数据库自己编写的公司代码,一个变量名为gvkey,另一个就是permno,所以最后选择一个就好,这里留下了permno。
Crsp-Compustat Merge指ccm数据集是Crsp和Compustat合并后得到的数据集,ccm是简写。
第三,数据整理结果。
按照以上数据清理规则和方法,本书对美国三大交易所的上市公司进行了系统的筛选、合并、清理后,得到了满足本书要求的每一年度的样本数据,详情见附表1。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。