金融高频时间序列分析

金融高频时间序列分析

李胜歌

一、金融计量学

二、金融高频时间序列分析

三、基于高频数据的金融波动率

一、金融计量学

（一）金融定量分析

金融计量学，是经济计量学的一个重要分支，主要是研究如何将经济计量学的基本原理与方法运用于金融领域，针对金融数据的特殊性，构造相应模型，以便实证检验金融理论和假设或者提提供金融预测。

（二）金融数据 1、低频数据二十世纪九十年代以前，人们对金融时间序列的研究都是针对日、

周、月、季度或者年度数据进行的，这种金融数据在金融计量学研究领域通常称为低频数据。

2、高频数据近年来，随着计算工具和计算方法的发展，极大地降低了数据记录和

存储的成本，使得对更高频率的金融数据进行研究成为可能。在金融市场中，高频率采集的数据可以分为两类：高频数据（ high fr

equency data ）和超高频数据（ ultra high frequency data ）。高频数据是指以小时、分钟或秒为采集频率的数据。高频数据即日内

数据，是指在开盘时间和收盘时间之间进行抽样的交易数据，主要是以小时、分钟、甚至秒为抽样频率的、按时间顺序排列的时间序列。

3、超高频数据超高频数据则是指交易过程中实时采集的数据。高频数据和超高频数据两者之间的最大区别是：前者是等时间间隔的，

后者的时间间隔是时变的。一般而言，金融市场上的信息是连续的影响证券市场价格运动过程的。

数据的离散采集必然会造成信息不同程度的缺失。采集数据频率越高，信息丢失越少；反之，信息丢失越多。

二、金融高频时间序列分析对金融高频数据统计特征的研究基于金融高频时间序列的波动性研究微观结构噪声研究最优抽样频率研究基于高频数据的金融管理方面的应用研究

三、基于高频数据的金融波动率（一）“已实现”波动（ Realized Volatility ， R

V ）

（二）“已实现”双幂次变差（ Realized Bipower Variation ， RBV ）

（三） RV与 RBV的比较研究

（一）“已实现”波动（ Realized Volatility ， RV ）

1、“已实现”波动的定义 2、“已实现”波动的理论基础 3、“已实现”波动的性质 4、“已实现”波动的应用 5、“已实现”波动估计量形式的改进及扩展

1 、 RV 的定义

Andersen 和 Bollerslev 提出 “已实现”波动（ RV ）的定义为：

M

j tjt yRV1

2, t=1,2,…,T

2、“已实现”波动的理论基础

基本条件就是金融市场中不存在风险套利的机会，这样金融资产的对数收益率就是一个特殊半鞅过程。

由特殊半鞅的性质，又可以将其进一步分解为可料有限变差过程和局部鞅过程，从经济意义上来讲，可料有限变差过程和局部鞅过程分别代表均值过程（ Mean Process ）和新息过程（ Innovation Process ）。

由二次变差的性质，收益率平方和的极限为金融资产对数价格收益的二次变差；

再由伊藤定理，可以得到二次变差与积分波动（ Integrated Volatility, IV ）的对应关系。

“ 已实现”波动就是收益率的平方和，这样就可以得出“已实现”波动的概率极限为积分波动。

3、“已实现”波动的性质根据 Andersen 和 Bollerslev 等（ 2000 ， 2001 ， 2001 ， 2003 ）对西

方国家发达金融市场的高频金融时间序列的研究，“已实现”波动通常具有下列性质：

（ 1 ）由于日内高频收益率之间存在序列相关和异方差性，所以“已实现”方差（ Realized Variance ）与“已实现”标准差（ Realized Standard Deviation ）的无条件分布都是极端右偏，而且具有极高的峰度。但是“已实现”标准差的偏度要比“已实现”方差的低；

（ 2 ）虽然“已实现”标准差的无条件分布都是极端右偏，而且具有极高的峰度，但是“已实现”标准差取对数后的无条件分布却很近似正态分布；

（ 3 ）虽然日间收益率的无条件分布并非正态分布，具有明显的“高峰厚尾”性，但是日间收益率除以“已实现”标准差后的条件分布却近似是正态分布；

（ 4 ）以上三条性质都是针对每日的“已实现”波动而言的，然而对“已实现”波动的时间聚合性质的研究，即对每周，每两周，每三周及每月的“已实现”波动的研究中发现：在时间聚合下，“已实现”波动的方差按

的尺度增长，其中表示时间跨度， d是常数；（ 5 ）“已实现”波动的自相关系数按双曲线的速率缓慢下降；（ 6 ）“已实现”波动取对数后的无条件分布是正态分布，具有显著的分

数维单整的性质。

12 dh

4、“已实现”波动的应用

“ 已实现”波动无模型、计算方便、并且是金融波动率的一致估计量，“已实现”波动在多变量的情形下还可以扩展为“已实现”协方差矩阵（ Realized Covariance Matrix ， RCM ），它不仅包括各变量自身的“已实现”波动率，也包括变量之间的“已实现”协方差。因此，“已实现”波动近年来被广泛应用于金融高频数据的应用研究中。

如： VaR 的计算；资产定价研究；运用“已实现”波动理论构建“已实现” Beta并对“已实现” Beta 的持续性和预测进行研究；进行动态投资组合研究等。

5、“已实现”波动估计量形式的改进及扩展

赋权偏差校正

（二）“已实现”双幂次变差（ Realized Bipower Variation ， RBV ）

1、“已实现”双幂次变差的概念

2、“已实现”双幂次变差的概率极限

3、“已实现”双幂次变差统计性质的实证研究

1、“已实现”双幂次变差的概念

Barndorff-Nielsen 和 Neil Shephard 提出“已实现”双幂次变差（ RBV ）的定义为：

s

tj

rM

j tj

srsr

t yyM

hRBV ,1

1

1 ,

21,

0, sr

2、“已实现”双幂次变差的概率极限

Barndorff-Nielsen 和 Neil Shephard 指出在不存在跳跃和存在有限次跳跃的条件下，当 s=2-r 时，都有下式成立：

ht

th urr

trrM

duRBV)1(

22,12

1lim )2,0(r

)2

1(

))1(2

1(

2 2

rr

r )( p 表示伽玛函数

3、“已实现”双幂次变差统计性质的实证研究本节使用深证成指和上证综指两个市场的金融高频

数据来构建“已实现”双幂次变差，然后对该估计量的特性进行实证研究。该高频数据是从 2005.4.14 至 2006.4.14深证成指和上证综指的 1 分钟间隔时段内的收盘价，这期间共有 243 个交易日，共有241×243=58563 个数据。

“ 已实现”双幂次变差的参数 r 、 s 的取值只要满足 r+s=2 ，那么估计量的概率极限即为积分波动。因此，不失一般性的，本文选取了 r=s=1 、 r=1/2且 s=3/2 、 r=7/4且 s=1/4 时的“已实现”双幂次变差来研究估计量的统计特性。

图 3-1 r=s=1 时的深证成指的 1分钟

“ 已实现”双幂次变差的自相关函数图

图 3-2 r=s=1 时的深证成指的 5分钟

“ 已实现”双幂次变差的自相关函数图

0 20 40 60 80 100 120 140 160-0.2

0

0.2

0.4

0.6

0.8

1

1.2

滞后阶数

AC

F

0 20 40 60 80 100 120 140 160-0.2

0

0.2

0.4

0.6

0.8

1

1.2

滞后阶数

AC

F

当 r=s=1 时，从图 3-1 至 3-5 和图 3-6 至 3-10 中可以看到，深证成指和上证综指在抽样频率分别为 1 分钟、 5 分钟、 10 分钟、 30 分钟和 60 分钟的“已实现”双幂次变差时间序列的 150阶自相关函数，都是随着滞后阶数的增大而缓慢下降。当 r=1/2且 s=3/2 时，从图 3-11 至 3-15 和图 3-16 至3-20 中，以及当 r=7/4且 s=1/4 时，从图 21-25 和图 26-30中，可以看到深证成指和上证综指在抽样频率分别为 1 分钟、5 分钟、 10 分钟、 30 分钟和 60 分钟的“已实现”双幂次变差时间序列的自相关函数，也都是随着滞后阶数的增大而缓慢下降的。

同时，表 3-1 与表 3-2 中深证成指和上证综指分维数 d 的估计值也都显著不为零。这说明“已实现”双幂次变差时间序列为长记忆时间序列，并且具有分数维特性。

表 3-3 至 3-5 分别给出了当 r=s=1 时，当 r=1/2且 s=3/2 时，以及当 r=7/4且 s=1/4 时，深证成指在 1分钟、 5 分钟、 10 分钟、 30 分钟和 60 分钟的抽样时间间隔下，“已实现”双幂次变差 RBV 、标准差、标准差取对数以及用标准差将收益率标准化后的各个统计量的偏度、峰度和 J-B 统计量。

表 3-6 至 3-8 则分别给出了当 r=s=1 时，当 r=1/2且 s=3/2 时，以及当 r=7/4且 s=1/4 时，上证综指在 1 分钟、 5 分钟、 10 分钟、 30 分钟和 60 分钟的抽样时间间隔下，“已实现”双幂次变差 RBV 、标准差、标准差取对数以及用标准差将收益率标准化后的各个统计量的偏度、峰度和 J-B 统计量。

RBV RBV RBVr=s=1 RBV

偏度 5.3672 2.66520.9957

7-

0.0397

1分钟峰度 42.942 14.504 4.7518 2.4683

J-B统计量 17022 1596.5 69.367 3.1482

偏度 5.7225 2.39830.5005

8 -0.001

5分钟峰度 49.585 13.334 3.7223 2.4955

J-B统计量 22900 1288.6 14.868 2.7909

偏度 3.4994 1.60670.2666

9-

0.1021

10分钟峰度 21.033 7.2891 3.1843 2.6063

J-B统计量 3719.7 284.36 3.0983 2.162

偏度 4.3444 1.5312 -0.1571 -0.165

30分钟峰度 31.562 7.9326 3.395 2.3623

J-B统计量 8865.5 333.68 2.3514 5.461

偏度 2.8838 1.33860.0056

9 -0.129

J-B统计量 1399.9 116.76 2.5718 3.3542

ln yt/

表 3-3 r=s=1 时深证成指在各个抽样频率下的统计量特征

从表 3-3 至 3-8 中可以看出，无论 r 、 s取何值，都可以得出“已实现”双幂次变差具有如下的统计特性：

（ 1 ）“已实现”双幂次变差与标准差的无条件分布都是极端右偏，而且具有极高的峰度，但是标准差的偏度要比“已实现”双幂次变差的低；

（ 2 ）虽然“已实现”双幂次变差的标准差的无条件分布都是极端右偏，而且具有极高的峰度，但是“已实现”标准差取对数后的无条件分布在抽样频率不是很高时（ 10 分钟以上），却为正态分布；

（ 3 ）虽然国内外的实证研究表明日间收益率的无条件分布并非正态分布，具有明显的“高峰厚尾”性，但是日间收益率除以“已实现”双幂次变差的标准差后的条件分布却近似是正态分布（由 J-B 统计量）。

通过对中国股市的深证成指和上证综指的高频金融时间序列的研究，从图 3-1 至 3-30 和表 3-1 至 3-8 中得到的“已实现”双幂次变差的统计性质，同 Andersen 和 Bollerslev 等对西方国家发达金融市场的高频金融时间序列的研究得到的“已实现”波动的性质是基本一致的。

（三） RV与 RBV的比较研究 “ 已实现”波动（ Realized Volatility ， RV ）是 Anderson 和 Bollersle

v 等人基于金融高频时间序列提出的一种全新的波动率度量方法，该方法由于具有无模型、计算方便、并且在一定条件下是波动率的一致估计量等优点，近年来已被广泛应用于高频金融数据的研究中。“已实现”波动的概念和方法，近年来也获得不断的改进和发展。“已实现”双幂次变差（ Realized Bipower Variation ， RBV ）是 Barndorff-Nielsen 和Neil Shephard 提出的另一类似于“已实现”波动的波动率度量方法，该估计量同样是波动率的一致估计量。

针对这两种文献中常被提及和讨论的有代表性的波动率估计方法，本节在定义形式、估计量的稳健性、有效性等方面对这两个估计量进行了比较，发现“已实现”双幂次变差的定义形式更广泛，除了具有稳健性，本节还证明了“已实现”双幂次变差比“已实现”波动更有效。

通过对深证成指和上证综指的实证研究，我们可以看出“已实现”双幂次变差的稳健性，同时也证实了“已实现”双幂次变差能更准确的估计金融股市收益率的波动。

1 、定义形式 Barndorff-Nielsen 和 Neil Shephard 提出“已实现”双幂次变

差（ RBV ）的定义为：

s

tj

rM

j tj

srsr

t yyM

hRBV ,1

1

1 ,

21,

0, sr

Andersen 和 Bollerslev 提出 “已实现”波动（ RV ）的定义为：

M

j tjt yRV1

2, t=1,2,…,T

当 r=0 ， s=2 或者 r=2 ， s=0 时， RBV 即为 RV,因此从定义形式上看， RV 是 RBV当参数取特定值时的特殊形式。

2 、稳健性Barndorff-Nielsen 和 Neil Shephard 指出在不存在跳跃和存在有

限次跳跃的条件下，当 s=2-r 时，都有下式成立：

ht

th urr

trrM

duRBV)1(

22,12

1lim )2,0(r

)2

1(

))1(2

1(

2 2

rr

r )( p 表示伽玛函数

当不存在跳跃时，“已实现”波动的极限收敛到积分波动：

th

ht utM

duRV)1(

2lim

th

ht

N

Nkk

h h

uuhtuhtt cdwduy)1(

0 0 )1()1(

此时，“已实现”波动的收敛结果为：

假设加入跳跃后金融资产对数价格的日收益为：

th

ht

N

Nkk

th

ht utM

cduRV)1(

2

)1(

2lim

在有限区间上发生有限次跳跃后，若波动率估计量的估计结果不变，则认为该估计量具有稳健性。

在加入有限次的跳跃后，“已实现”波动与“已实现”双幂次变差的收敛结果不再相同，“已实现”波动的收敛结果中除积分波动以外，还包含了跳跃带来的对波动的影响，而“已实现”双幂次变差仍收敛到积分波动。同没有加入跳跃时相比，“已实现”波动的收敛结果发生了改变，而“已实现”双幂次变差则没有发生变化。

因此同“已实现”波动相比，“已实现”双幂次变差对波动特性的估计具有更好的稳健性。

3 、有效性

在一定条件下，“已实现”双幂次变差与“已实现”波动都是积分波动的一致估计量，那么“已实现”双幂次变差与“已实现”波动哪个更有效呢？本节给出三个定理：定理 3-3 证明了在每一点的波动相等的前提条件下，当 )2,0(r

入引理 3-1 后，定理 3-4 证明了当 r=1 时，“已实现”双幂次变差的方差小于“ 已实现”波动的方差；在证明了引理 3-2 后，定理 3-5 证明了当

时“已实现”双幂次变差的方差小于“已实现”波动的方差；在引

)2,0(r

并且 r+s=2 时，“已实现”双幂次变差的方差小于“已实现”波动的方差，而且当 r=1 时，“已实现”双幂次变差的方差最小。

RV 与 RBV 的有效性对比：

4 、实证研究

本节实证研究采用的高频金融时间序列的原始数据是 2005.4.14-2006.4.14深证成指和上证综指的 1 分钟间隔时段内的收盘价，这期间共有 243 个交易日，共有 241×243=58563个数据。

在深证成指 1 分钟间隔的对数价格序列中，找出相邻两个时间点差值绝对值最大的时间点分别为第 31149 个（ t1 ）和第 31331 个（ t2) 时间点， t1 与 t1+1 时刻的对数价格差的绝对值为 0.0066 ， t2与 t2+1 时刻的对数价格差的绝对值为 0.0065 。可以将 t1 与 t2看作对数价格序列中的跳跃点， t1 与 t2 分别对应于第 129天的第 60 个日内对数价格收益和第130天的第 1 个日内对数价格收益。

图 3-33画出了 [31100 ， 31350] 区间上的对数价格收益路径，从图中可以看到时间点为 31149 （ t1 ）和 31331 （ t2 ）处发生了跳跃。

图 3-34画出了 [125 ， 135] 区间上的“已实现”波动（ RV ）和“已实现”双幂次变差（ RBV ），可以看出在第 130天和第 131天的位置上“已实现”波动（ RV ）明显的大于“已实现”双幂次变差（ RBV ），这正是由于“已实现”波动（ RV ）此时还包含跳跃带来的波动，而“已实现”双幂次变差（ RBV ）描述的仅仅是积分波动。

图 3-33 深证成指 1 分钟数据在 [31100 ， 31350] 上的对数价格路径图

在深证成指 1 分钟间隔的对数价格序列中，找出相邻两个时间点差值绝对值最大的时间点分别为第 31149 个（ t1 ）和第 31331 个（ t2) 时间点， t1 与 t1+1 时刻的对数价格差的绝对值为 0.0066 ， t2与 t2+1 时刻的对数价格差的绝对值为 0.0065 。可以将 t1 与 t2看作对数价格序列中的跳跃点， t1 与 t2 分别对应于第 129天的第 60 个日内对数价格收益和第130天的第 1 个日内对数价格收益。图3-33画出了 [31100 ， 31350] 区间上的对数价格收益路径，从图中可以看到时间点为 31149 （ t1 ）和 31331 （ t2 ）处发生了跳跃。

图 3-34画出了 [125 ， 135] 区间上的“已实现”波动（ RV ）和“已实现”双幂次变差（ RBV ），可以看出在第 130天和第 131天的位置上“已实现”波动（ RV ）明显的大于“已实现”双幂次变差（ RBV ），这正是由于“已实现”波动（ RV ）此时还包含跳跃带来的波动，而“已实现”双幂次变差（ RBV ）描述的仅仅是积分波动。

图 3-34 深证成指在时间区间 [125 ， 135] 上的 RV 与 RBV

图 3-35画出了 [18701 ， 18800] 区间上的对数价格收益路径，从图中可以看到时间点为 18771处发生了跳跃。图 3-36画出了 [71 ， 80] 区间上的“已实现”波动（ RV ）和“已实现”双幂次变差（ RBV ），可以看出在第 78天的位置上“已实现”波动（ RV ）明显的大于“已实现”双幂次变差（ RBV ）。

图 3-35 上证综指 1 分钟数据在[18701 ， 18800] 上的对数价

格路径图

图 3-36 上证综指在时间区间[71 ， 80] 上的 RV 与 RBV

为了说明定理 3-5 （有效性），分别求出“已实现”波动和 r=s=1 时的“已实现”双幂次变差，再任取 r≠1 时的“已实现”双幂次变差，不妨取 r=1/2,s=3/2 。

表 3-7 各种收益率序列的分布特征　 10 分钟数据 YRVt YRBVt YRBV1t

均值 0.1 0.1 0.1

标准差 1.15 1.3 1.28

深证成指偏度 -0.1 -0.1 -0.1

峰度 2.46 2.61 2.57

　 J-B统计量 3.08 1.99 2.48

均值 0.12 0.14 0.14

标准差 1.04 1.17 1.16

上证综指偏度 -0.1 -0.2 -0.2

峰度 2.43 2.56 2.51

　 J-B统计量 4.04 3.06 3.73

从表 3-7 中可以看出， r=s=1 时的 YRBVt 的J-B 统计量最小，其次是 YRBV1t 的 J-B 统计量， YRVt 的 J-B 统计量最大。这说明用 r=s=1 时的“已实现”双幂次变差的标准差标准化后的日收益率的正态化程度最高，从而说明 r=s=1 时的“已实现”双幂次变差对真实波动率的度量更准确。对深证成指和上证综指两个市场的实证结果与定理 3-5 的结论相一致。

谢谢大家！

金融高频时间序列分析

Documents