认知语言学定量研究的几种新方法（advanced quantitative methods in cognitive...

２０１６年１月外国语Ｊａｎｕａｒｙ２０１６

第３９▲第１期Ｊｏｕｒｎａｌｏｆ

Ｐｏｒｅ＾ｎＬａｎｇｕａｇｅｓ＼〇１３９饮〇．１

文章编号：１００４

－

５１３９（２０１６）０１

－００７１－

０９中图分类号：ＨＯ

－

０６文献标识码：Ａ

认知语言学定量研究的几种新方法^

张炜炜、刘念２

（１．上海外国语大学语言研究院，上海２０００８３

；

２．俄克拉荷马大学现代语言及语言学系，美国）

摘要：本文针对近期认知语言学研究中出现的定量转向，

用具体案例介绍了一系列国际认知语言学研究中

前沿的多元统计方法，主要涉及探索性统计分析（如聚类分析、多维尺度分析）、验证性统计分析（如逻辑斯蒂

回归建模、混合效应回归建模）以及机器学习模型（如随机森林、朴素判别学习）三个方面。最后，本文还简要

介绍了在这些数据统计分析中可资利用的统计软件包（Ｒ环境）。

关键词：认知语言学；定量研究方法；多元统计

ＡｄｖａｎｃｅｄＱｕａｎｔｉｔａｔｉｖｅＭｅｔｈｏｄｓｉｎＣｏｇｎｉｔｉｖｅＬｉｎ

ｇｕｉｓｔｉｃｓＲｅｓｅａｒｃｈ

ＺＨＡＮＧＷｅｉｗｅｉ

１

，ＵＵＮｉａｎ

（１．ＩｎｓｔｉｔｕｔｅｏｆＬｉｎｇｕｉｓｔ

ｉｃＳｔｕｄｉｅｓ，ＳｈａｎｇｈａｉＩｎｔｅｒｎａｔｉｏｎａｌＳｔｕｄｉｅｓＵｎｉｖｅｒｓｉ

ｔｙ，

Ｓｈａｎｇｈａｉ２０００８３

，Ｃｈｉｎａ；２

．ＴｈｅＵｎｉｖｅｒｓｉｔｙｏｆＯｋｌａｈｏｍａ

，ＵＳＡ）

Ａｂｓｔｒａｃｔ＊Ｉｎｌｉｎｅｖｒｉｔｈｔｈｅｑｕａｎｔ

ｉｔａｔ

ｉｖｅｔｕｒｎｉ

ｎＣｏｇｎｉｔｉｖｅＬｉｎ

ｇｕｉｓｔ

ｉｃｓ

，ｔｈ

ｉｓｐａｐｅｒｉｎｔｒｏｄｕｃｅｓａｓｅｒｉｅｓｏｆａｄｖａｎｃｅｄ

ｑｕａｎ？

ｔｉｔａｔｉｖｅｍｅｔｈｏｄｓｗｉｔｈａｍｐｌｅｅｘａｍ

ｐｌｅｓ．Ｉｔｉｌｌｕｓｔｒａｔｅｓｍｕｌｔｉｖａｒｉａｔｅｍｅｔｈｏｄｓｏｆｅｘｐｌｏｒａｔｏｒ

ｙａｎａｌ

ｙｓｉｓ（

ｅ．

ｇ．ｃｌｕｓｔｅｒａｎａｌ

ｙｓｉｓ

，

ｍｕｌｔｉｄｉｍｅｎｓｉｏｎａｌｓｃａｌｉｎｇａｎａ

ｌｙｓｉｓ）

，ｃｏｎｆｉｒｍａｔｏｒ

ｙａｎａｌ

ｙｓｉｓ（ｅ．

ｇ．ｌｏｇｉ

ｓｔｉｃｒｅ

ｇｒｅｓｓｉｏｎｍｏｄｅｌ

，ｍｉｘｅｄ

－

ｅｆｆｅｃｔｓｒｅｇｒｅｓｓｉｏｎ

ｍｏｄｅｌ）ａｎｄｍａｃｈｉｎｅｌｅａｒｎｉｎｇｍｏｄｅｌ（ｅ

．

ｇ．ｒａｎｄｏｍｆｏｒｅｓｔ

，ｎａｉＶｅｄｉｓｃｒｉｍｉｎａｔｉｖｅｌｅａｒｎｉｎ

ｇ）．Ｍｏｒｅｏｖｅｒ

，ｔｈｉｓ

ｐａｐｅｒｂｒｉｅｆｌ

ｙ

ｉｎｔｒｏｄｕｃｅｓｓｔａｔｉｓｔｉｃａｌｐａｃｋａｇｅｓｏｆｔｈｏｓｅｍｅｔｈｏｄｓｉ

ｎｔｈｅｓｔａｔｉｓｔｉｃａｌｅｎｖｉｒｏｎｍｅｎｔＲ．

Ｋｅｙｗｏｒｄｓ：Ｃｏ

ｇｎ

ｉｔｉｖｅＬｉｎ

ｇｕｉｓｔｉｃｓ

；ｑｕａｎｔｉｔａｔｉｖｅｍｅｔｈｏｄｓ；ｍｕｌｔｉｖａｒｉａｔｅｓｔａｔｉｓｔｉｃｓ

ｉ．引言

近年来，认知语言学的整体研究以及其代表性刊物ＣｏｇｎｔｏｅＬｉｎｇｕｉｓｔ都展现出显著的“

定

量”

转向趋势。Ｊａｎｄａ（２０１３ｂ

）分析了Ｃｏｇｎｉｔｉｖｅｌｉｎｇｕｉｓｔｉｃｓ历年收录的论文，发现自２００８年之后，该

期刊论文的研究方法出现了明显的转变——半数以上的论文都采用了定量的分析方法，而２０１０年

使用定量方法的论文更是超过８０％。同时，认知语言学界也出现了大量关注定量方法的研究成

果，如Ｇｌ

ｙｎｎ＆Ｆｉｓｃｈｅｒ（

２０１０），Ｊａｎｄａ（

２０１３ａ），

Ｇｌ

ｙｎｎ＆Ｒｏｂｉｎｓｏｎ（

２０１４）。认知语言学认为语言现象

不是独立存在，而是受到众多因素影响的，语言研究也相应地涉及多个变量，因此，多元统计的方

法在国际认知语言学领域得到了广泛应用。相形之下，国内认知语言学研究还处于由定性向定量

的转型初期，有待系统地引进国外最新定量研究方法，

应用到针对汉语的研究之中。本文旨在介

绍认知语言学中常用的多元统计方法，主要着眼于探索性统计分析、验证性统计分析以及机器学

＊感谢许余龙教授、《外国语》编辑部及匿名审稿专家对本文初稿提出的宝贵建议。

７１

习模型三个方面。这三类方法可有效地保证对语言描写的客观性，以顺应认知语言学方法论的“

实证定量”

转向，从而推进认知语言学研究方法的改进。

２？探索性统计分析（

ｅｘｐｌｏｒａｔｏｒｙａｎａ

ｌｙｓｉｓ

）

一般而言，统计显著性检验方法（如卡方检验、Ｆ

ｉｓｈｅｉ

？

精确检验、Ｔ检验、二项检验等）是从某种

假定出发，再根据计算所得的Ｐ值对零假设进行拒绝或接受，

这类统计方法中数据总体的分布形式

是给定的或假定的。然而，语言研究中，有时我们无法从某种假定出发，而是需要从原始数据出发，

进而探索数据的内在规律，这时就需要借助探索性统计分析方法。认知语言学研究中比较常用

的、针对多元数据形式的探索性统计分析主要有：聚类分析（ｃｌｕｓｔｅｒａｎａｌｙｓｉｓ）（如Ｄｉｖｊａｋ＆Ｇｒｉｅｓ

２００６；Ｇｒｉｅｓ＆Ｈｉｌｐｅｒｔ２００８

；Ｄｉｖ

ｊａｋ２０１０），多维尺度分析（ｍｕｌｔｉｄｉｍｅｎｓｉｏｎａｌｓｃａｌｉｎｇａｎａｌｙ

ｓｉｓ）（如

Ｌｅｖｓｈｉｎａ２０１１；

Ｈｉｌｐｅｒｔ２０１１

；

Ｒｕｅｔｔｅ２０１２；

Ｚｈａｎｇ

ｅｆａＺ．２０１５

），多重对应分析（

ＭＣＡ）（如

ＬｅｖｓｈｉｎａｅｆａＺ．

２０１３ａ）等。总体而言，探索性统计分析的方法强调数据的直观性和可视化，

以便研究者一目了然地

发现数据中的重要信息。

２．１聚类分析

聚类分析可将看似无序的对象按相似特征进行分类并归纳成不同的组别，使得在同一

组别中

的对象都具有相似属性，从而达到组内对象相似性高，组间对象相似性低。例如，

ＬｅｖＳｈｉｎａ

（２０１２）

利用层次聚类分析（ｈｉｅｒａｒｃｈｉｃａｌｃｌｕｓｔｅｒａｎａｌｙｓｉｓ）考察了荷兰语中含有Ａｊｃｔｉ的致使构式在荷兰荷兰

语和比利时荷兰语中的异同。该研究借助计算机自动标注和人工标注相结合的方式，从３５个特征

方面对含有目标构式的例句进行标注，如致使者、受使者的语义类别、词性、数、有定性，受使者的自

愿性，结果事件谓词的及物性等。接着，利用距离算法将例句的频数和语言特征转换为距离矩阵

（ｄ

ｉｓｔａｎｃｅｍａｔｒｉｘ），作为层次聚类分析的输人值。该研究采用了可置换自助法（ｂｏｏｔｓｔｒａｐｐｉｎｇｗｉｔｈ

ｒｅｐｌａｃｅｍｅｎｔ）分别从两个地区的语料中随机抽样了６６个例句来进行聚类，分析的结果是以树状图

（ｄｅｎｄｒｏ

ｇｒａｍ）的形式呈现。通过对比主要组别，就可得出ｄｏｍ构式在荷兰、比利时地区的使用差

异。

另外，聚类分析在近义词（或近义构式）的辨析研究中也得到了广泛应用。如Ｊａｎｄａ＆Ｓｏｌｏｖ

ｙｅｖ

（２００９

）利用聚类分析考察了俄语中表示ＳＡＤＮＥＳＳ含义的六个近义名词，作者根据各个名词在特

定构式中出现的相对频率进行聚类，不同名词在树状图中的距离可以直观地反映出其语义的相似

性或差异性。Ｄｉｖｊａｋ（２０１０）辨析了俄语中ＴＲＹ类动词，聚类分析将近义动词分组于树状图中的不

同节点，从而反映出动词之间的差异性。类似地，

Ｄｅｓａｇｕｌｉｅｒ（

２０１４）根据英语近义程度副词ｒａｃｉｅｒ

、

和ｐｒｅｔｔｙ在［程度副词＋形容词］构式中的使用频率，利用聚类分析将其语义特征进行了

可视化处理。

简言之，聚类分析能将语言对象按照其间特征的临近性进行组合和分类。但如果涉及时间变

量的聚类，我们则不得不考虑到时间序列的问题，即对时间点的聚类不仅要考虑到特征距离的远

近，还要考虑到聚类结果不可违背时间的先后顺序。Ｇｒｉｅｓ＆Ｈ

ｉｌ

ｐｅｒｔ（２００８

）利用基于差异的近邻聚

类（ｖａｒｉａｂｉｌｉｔ

ｙ－ｂａｓｅｄｎｅｉｇ

ｈｂｏｒｃｌｕｓｔｅｒｉｎｇ，缩写为ＶＮＣ）方法来确定历时语料中的历时时段。例如

，作

者研究了英语中情态词ｓ／ｉａＺＺ后面搭配的动词不定式（６ｅ、／ｉａｉ？和ｃｏｍｅ）在１５００

－

１９００四百

年间的历时变化。这类历时研究中非常重要的一个环节就是如何将四百年的时间跨度进行分段。

在无已知信息可作为分类标准的时候，作者提出的ＶＮＣ方法就可用于历时时段的划分。

２．２多维尺度分析

另一常用的探索性分析方法是多维尺度分析，

用以分析观察对象之间的相似性（或差异性）。

７２

多维尺度分析体现了降维的思想，可将多个特征维度借助算法去构建合适的低维空间，通常为二

维或三维空间。这样高维空间中的样本间相似性（或差异性）可通过样本在低维空间中的距离反

映出来，即距离越大，相似性越小。此类方法在认知语言学研究中得到了大力推广，尤其是涉及语

言历时变异的研究。

例如，Ｈｉｌ

ｐｅｒｔ（２０１１

）基于美国英语历史语料库（ＣＯＨＡ）考察了美语中ｔｏｐｅ、办说这类既可作名

词又可作动词的词汇的历史演变，以及ｅｘｐｅｃｔ、ｒｅｍｅｍ６ｅｒ这类谓词所带补语的历时结构变化。

Ｈｉｌｐｅｒｔ借助多维尺度分析将多变量数据（ｍｕｌｔｉｖａｒｉａｔｅｄａｔａ）降维为双变量数据（

ｂｉｖａｒｉａｔｅｄａｔａ）从而

以动态图（ｍｏ

ｔｉｏｎｃｈａｒｔ）的形式将所关注的语言现象的历时演变过程直观、形象地呈现出来。又

如，

Ｚｈａｎｇ（２０１５

）关注表达“

女性”

范畴的转喻类型在汉语历史发展过程中的历时差异。作者

计算出不同的“

女性”

概念在每个时段各类转喻类型的频数，并将“

某一时段中的某一

女性概念”

视

为观察样本，然后根据距离算法计算出不同样本在转喻类型分布上的距离，再通过多维尺度分析

降维得到一个三维空间。空间中每个点代表

一个样本，

Ｓ卩

“

某一时段中的某一女性概念

”

，点间距

离则反应了样本在转喻类型选择中的差异性（距离越大，其转喻类型分布的差异就越大）。

语言研究中涉及“

降维”

思想，并用于可视化处理的多元探索性方法还有主成分分析、因子分

析、多重对应分析等，由于篇幅关系，在此不一一介绍。但我们需补充一点，探索性统计分析可与统

计显著性检验结合使用，前者侧重于发现数据中的结构、特征以及数据间的关联

，而后者侧重对统

计假设的检验。在实际数据分析中，我们可以先利用探索性统计方法对整体数据进行初步分析来

发现数据中存在的规律，从而在进

一

步选择统计分析方法之前对数据结构有所了解。然而，由于

此类方法不涉及假设验证，无法得知数据规律是否具有统计学意义上的显著性，因此更多地用于

数据的可视化处理。

３？验证性统计分析（ｃｏｎｆｉｒｍａｔｏｒ

ｙａｎａｌ

ｙｓｉｓ

）

聚类分析、多维尺度分析等探索性统计方法可初步揭示多变量情况下数据的主要特征，但想

要进一步准确量化语言中存在的差异，确定影响变异的语内或语外因素，

就需要借助验证性统计

方法，比如回归建模。回归建模的主要目标是通过确立因变量和自变量之间的定量关系来判断自

变量是否对因变量产生影响，从而利用所求得的回归方程进行控制和预测。

根据因变量的分布特征，认知语言学研究中常用的回归模型可分为三类：线性回归（

ｌｉｎｅａｒ

ｒｅｇｒｅｓｓｉｏｎ）、逻辑斯蒂回归（ｌｏｇ

ｉｓｔｉｃｒｅ

ｇｒｅｓｓｉｏｎ）

？以及泊松回归（Ｐｏｉｓｓｏｎｒｅｇｒｅｓｓｉｏｎ）。当因变量为连

续性数值变量（ｎｕｍｅｒｉｃｖａｒｉａｂｌｅ）时，如反应时等，我们选用线性回归模型；

泊松回归则适用于因变

量是泊松分布的情况，如某语言现象出现的频率（参见Ｚｈａｎｇ，Ｆｏｒｔｈｃｏｍｉｎｇ）；当因变量为二元分布，

如两类语言形式的选择时，应选择逻辑斯蒂回归。

认知语言学研究的对象很多时候并不是数值或频率，而是分类变量（ｃａｔｅｇｏ

ｒｉｃａｌｖａｒｉａｂｌｅ），其变

量值是定性的、互不相容的类别或属性。同时，认知语言学涉及很多

“

二选一”

的交替研究，比如荷

兰语中ｄｏｅ／！和致使构式②之间的选择（Ｓｐｅｅ

ｌｍａｎ＆Ｇｅｅｒａｅｒｔｓ２００９），英语母语和二语习得者情

态动词ｍａｙ和的选择（

Ｇｒｉｅｓ＆Ｄｅｓｈｏｒｓ２０１４）等。因此

，逻辑斯蒂回归分析尤为重要。鉴于篇

幅，以下只简略介绍逻辑斯蒂回归在认知语言学中的应用。

① 标准的逻辑斯蒂分析其因变量必须是二分类，当因变量为多分类的时候，我们则需要采用多元逻辑斯蒂回归分析

（ｍｕｌｔｉｖａｒｉａｔｅｌｏ

ｇｉｓｔｉｃｒｅ

ｇｒｅｓｓｉｏｎａｎａｌｙｓｉｓ）（如Ａｒ

ｐｐｅ

２００８

）〇

② 荷兰语中致使构式存在两个致使助动词可供选择，即和前者类似英语中４的致使用法，后者类似ｋ

７３

３．１逻辑斯蒂回归

逻辑斯蒂回归属于广义线性模型（ｇｅｎｅｒａｌｉｚｅｄｌｉｎｅａｒｍｏｄｅｌ）的一种，其因变量为两分类变量，即

“

是”

或“

否”

，其自变量既可以是数值变量，也可以是分类变量。比如，２以

（２０１１

）从“一形

多义＂

（ｓｅｍａｓｉｏｌｏｇｉｃａｌ）的角度建立逻辑斯蒂回归模型，用以找出影响首都地名语义分布的因素。作

者从不同方面对目标句进行标注，如首都地名的语法位置，谓语对主语生命度的要求，语料地域来

源，首都地名类别，前文出现该首都地名转喻的次数，

目标句在新闻中的位置等。用首都地名的语

义（本义ＶＳ．转喻义）作为回归模型的因变量，上述不同因素作为自变量建立逻辑斯蒂回归模型。

统计结果表明：首都地名的转喻义趋于出现在主语位置、新闻标题；前文出现该首都地名转喻义次

数越多，该目标句中首都地名就越趋于表达转喻义；当然，不同国家的首都在本义、转喻义分布上

也表现出差异。该模型的复相关系数平方圮值为〇．刀

，表明数据中大约７７％的变异可被该模型

自变量解释，同时也说明以上多个自变量对首都地名的语义分布具有很好的预测力。

多元回归建模的魅力不仅在于可准确计算出不同因素（即主因素）对语言现象的影响，同时还

可将不同因素的交互关系对于因变量的影响考虑进去。此外，不少研究者提倡将随机因素也加人

到回归模型之中，以便更好的计算各因素对于语言现象的影响，这样的模型称为混合效应模型

（ｍｉｘｅｄ－

ｅｆｆｅｃｔｓｍｏｄｅｌ）（参见Ｂａａ

ｙｅｎｅｆａＺ－２００８）。目則，混合效应模型也被广泛运用于认知语曰学

研究（如Ｚｅｎｎｅｒｅｆ〇／？２０１２，２０１３

；＆Ｇｒｉｅｓ２０１２

；

Ｌｅｖｓｈｉｎａ〇／？２０１４；

Ｇｒｉｅｓ２０１３；Ｎｙｃ

ｚ２０１３；

Ｓｐｅｅｌｍａｎｅｆ〇／

．Ｆｏｒｔｈｃｏｍｉｎｇ）〇

其中，Ｌｅｖｓｈｉｎａｅｔ（

２０１３ｂ）为考察影响荷兰语中近义致使构式（办饥ｖｓ．／ａｉｅｒａ构式）选择的语

内、语外因素，将构式选择作为因变量，将致使者的语义分类，致使对象的语义分类、句法特征，

语言

变体等作为固定变量，将结果谓语（ｅｆｆｅｃｔｅｄｐｒｅ

ｄｉｃａｔｅ）作为随机变量，

建立了混合效应逻辑斯蒂回

归模型。计算结果表明，构式选择是多种形式、语境、概念因素交互作用的结果。又如，２ ‘

（Ｆｏｒｔｈｃｏｍｉｎｇ）从

“一

■义多形”

（ｏｎｏｍａｓｉｏｌｏｇ

ｉｃａｌ）的角度，

探讨概念“

政府”

在何时由字面形式（美国

政府、法国政府”

等）表达，何时由地名转喻形式（

“

华盛顿、白宫”

等）表达。作者将语义、句法、语

篇、地域等多个因素作为回归模型中的固定变量，称名形式的选择（字面形式ｖｓ？地名转喻）则作为

因变量。同时，考虑到谓语动词自身可能对于两类表达的选择有所偏好，因此，

为了控制谓语动词

对于称名选择的影响，作者将谓语动词（如“

是、宣布、采取、制定”

等）作为随机变量，建立了混合效

应逻辑斯蒂回归模型。结果表明，除了一些主因素（如目标句在语篇中的位置）对于称名选择有所

影响以外，更为复杂的是，政府类别因素和体裁因素（即网络论坛ｖｓ

？新闻报纸）之间也存在交互关

系。

在一般回归模型中引入随机变量这一方法，可消除变量本身具有的异质性对整体模型的影

响，从而提高模型的精度。但由于加人了随机变量，混合效应模型的复相关系数平方Ｒ

２

值解读意

义不大，不可误读为自变量可解释的差异比例。目前而言，尚未有统一的算法可计算出模型所解

释的差异有多大比例是由固定变量解释，多大比例是由随机变量解释。因此，在汇报混合效应模

型的统计量时，我们应该选择汇报模型的Ｃ值和Ｓｏｍｅｒｓ

’

Ｄ值，这两个统计量的值（最大值为１）越

高，表明模型的预测能力越强。

３．２多元回归与探索性分析的结合

此外，多元回归可用来验证探索性分析所得出的结论。例如，Ｇｌ

ｙｉｍ（

２０１０）首先利用对应分析

将动词制约的句法类型分为施事构式和谓语构式，之后借助逻辑斯蒂回归模型确认影响两

类构式选择的诸多因素，并对两类构式选择做出预测。Ｄｅｓｈｏｒｓ＆Ｇｒｉｅｓ（２０１４）则研究了英语母语

者、英语学习者使用ｃ＜ｗｌ和ｍａｙ，以及法语ｐｏｕｗｉｒ的差异。该研究首先从形态、语义、句法方面对目

７４

标句进行标注，再利用层次聚类分析对目标句进行探索性分析，得出初步结论。然后，作者建立了

逻辑斯蒂回归模型用以进一步验证聚类分析的结果，并找出影响母语者和二语者和＿选词

差异的具体形态、句法、语义因素。

综上所述，在定量研究中，理想状态便是像上述研究一样

，将探索性分析的可视化结果再用回

归建模的统计方法加以验证。换言之，探索性方法有助于研究者发现语言变异，其可视化功能使

语言变异一目了然；验证性统计方法则可指出所发现的变异多大程度上具有统计学显著意义，以

及受到哪些因素的影响。

回归建模是一个复杂的过程，

研究者必须按照建模步骤，谨慎对待模型的选择、诊断、验证，才能

建立相对理想的模型。比如，线性回归模型建立后需要诊断模型的残差（ｒｅｓｉｄｕａｌ）是否满足独立性、等

方差性（ｅｑｕａｌｖａｒｉａｎｃｅ）、正态性

；泊松回归模型则需要诊断是否存在偏大离差（ｏｖｅｒｄｉｓｐｅｒｅｉｏｎ）问题，等

等。此外，在建模过程中，

对于缺失值（１１１１８８〗１１§ （１３１３）、多重共线性（１１１

１１１０－

〇〇１１１１１６３１１１）０、过度拟合现象

（ｏｖｅｒｆｉｔｔｉｎｇ）、极端值（ｏｕｔｌｉｅｒ）的识别和处理也须多加注意。

４．机器学习模型（ｍａｃｈｉｎｅｌｅａｒｎｉ

ｎｇｍｏｄｅｌ

）

在此，我们简要谈及两类常用的机器学习模型在认知语言学研究中的应用

，即随机森林

（ｒａｎｄｏｍｆｏｒｅｓｔ）模型和朴素判别学习（ｎａｉｖｅｄｉｓｃｒｉｍｉｎａｔｉｖｅｌｅａｒｎｉｎｇ）模型。这两类方法十分强大，可

作为多元回归的替代。

４．１随机森林

随机森林是包含多个决策树（ｄｅｃｉｓｉｏｎｔｒｅｅ）的分类器，可处理大量的输入变量，

给出精确的预

测，并在分类的时候评估变量的重要性。与多元回归相比，随机森林对多重共线性问题容忍性较

大，也可稳健地处理稀疏数据（ｓｐａ

ｒｓｅｄａｔａ）。

例如，

Ｔａｇｌｉａｍｏｎｔｅ＆Ｂａａ

ｙｅｎ（

２０１２）以ｉｗｗ／ｗｅｒｅ在使用中的差异为例，

对比了混合效应模型和随

机森林在统计实践中的优劣性。文章指出两类方法各有优势：混合效应模型可以控制随机变量

（如语言使用者个体等因素）对模型的影响；随机森林可更好地评估因子预测变量（ｆａｃｔｏｒｉａｌ

ｐｒｅｄｉｃｔｏｒ）、连续预测变量（

ｃｏｎｔｉｎｕｏｕｓｐｒｅ

ｄｉｃｔｏｒ）的重要性，可用于具有高度多重共线性、不平衡的数

据。又如ＢｅｍａｉｓｃｈｅｔａＺ．（

２０１４）分别采用条件推断决策树（ｃｏｎｄｉｔｉｏｎａｌ

ｉｎｆｅｒｅｎｃｅｔｒｅｅ）和随机森林研

究了南亚英语和英国英语中ＧＩＶＥ与格构式交替现象，即双宾语构式（九Ａ／

ｔｗｙａｔｏｏＡ）和介

词与格构式ａｔｏｏＡｔｏＭａ／

ｙ），结果显示条件推断决策树的分类准确率为６３．７％

，而随机

森林将分类预测的准确率提高到了６４．７％？。

４．２朴素判别学习

近年来，朴素判别学习也被应用到认知语言学研究之中（如Ｂａａｙｅ

ｎ２０１１；Ｂａａｙｅｎ

ａＺ．２０１１；

ＢａａｙｅｎｅｆａＺ．２０１３）。Ｂａａ

ｙｅｎ

（２０１１

）运用朴素判别学习模型研究了英语与格交替（ｄａｔｉｖｅ

ａｌｔｅｒｎａｔｉｏｎ）。该研究还比较了朴素判别学习模型与另外三类模型——广义线性混合效应模型（即

逻辑斯蒂混合效应模型〉、基于记忆学习模型（ｍｅｍｏｒｙ

ｂａｓｅｄｌｅａｒｎｉｎｇ）以及支持向量机器模型

（ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅｓ）。比较结果显示，在分类准确性方面，

朴素判别学习模型与另三类模型表

现相似，但朴素判别学习模型可为学习（ｌｅａｒｎｉｎ

ｇ）、分类（ｃｌａｓｓｉｆｉｃａｔｉｏｎ）以及语料库语言学中的显著

共现词素分析法（ｄｉｓｔｉｎｃｔｉｖｅｃｏｌｌｅｘｅｍｅａｎａｌ

ｙｓｉｓ）提供一个统一的框架。此外，朴素判别学习可更精

确地测量各变量的重要性，以及用于探索非正态分布数据中的差异。

③ 该研究的分类基准率为４８．４％，即不运用任何分类算法，总是选择最高频的一类或随机分类的准确率。

７５

总体而言，随机森林和朴素判别学习的应用在认知语言学研究中具有很好的前景。这两类方

法在已知样本中就地取材，抽出训练集（ｔｒａｉｎｉｎｇｓｅｔ），将余下部分作为验证集（ｖａｌｉｄａｔｉｏｎｓｅｔ）用以预

测。这样就能在不涉及新样本的情况下解决了模型验证（ｍｏｄｅｌｖａｌｉｄａｔｉｏｎ

）问题。值得一提的是，

这两类方法在提供分类精准性的同时，运算量并不会显著增加，非常适合大数据分析。不过，随机

森林以及朴素判别学习都是非常前沿的方法，其技术应用还处于发展阶段，实际操作也还尚未有

统一的模式，因此

，研究者在使用上述方法时更需谨慎。

５．统计软件Ｒ简介

最后，我们对目前认知语言学定量研究中常用的统计软件Ｒ做一简单介绍。前文提及的所有

个案研究的数据分析都是在Ｒ环境下完成的。Ｒ是一种开源的编程语言和操作环境，内嵌了多种

统计、数据分析功能，也可进行自然语言处理。Ｒ

两源代码可从其网站（ｈｔｔｐ

：／／ｗｗｗ．ｒ－

Ｆ〇ｊｅｃｔ．〇ｒｇ／

）

免费获得，也可自由下载多种软件包以增强其功能。比如，本文提及的聚类分析可使用ｐｖｄｕｓｔ（）

函数（来自软件包Ｉｐｖｃｌｕｓｔ

丨）、ＭＤＳ分析可利用ｉｓｏＭＤＳ（）函数（来自软件包｜ＭＡＳＳ１）来进行操作；

对于多元回归建模，

Ｒ也提供了各种函数供选择，比如线性回归函数ｌｍ（）Ｊｏｇｉｓｉｔｃ回归函数ｇｌｍ

（）

（都来自软件包Ｕｔａｔｓ丨），以及用于混合效应模型的ｌｍｅｒ（）函数（来自软件包丨

ｌｍｅ４１）；随机森林分

析可利用来自软件包ＩｒａｎｄｏｍＦｏｒｅｓｔ

ｌ的随机森林函数ｒａｎｄｏｍＦｏｒｅｓｔ（）等。此外，

Ｒ语言也是一款十

分强大的数据可视化软件，比如，利用其数据可视化包ｌｇｇｐｌ〇ｔ２

｜可直观地展现出数据结构。关于

统计软件的选择，尽管可说是个人偏好问题，但在当前认知语言学定量研究中，

Ｒ语言以其开源特

征、强大的数据分析和可视化功能以及良好的可扩展性受到越来越多的学者的青睐。

６．结语

由于受到社会语言学对“

语言社会变异性”

的重视，以及心理语言学实证方法的影响，

认知语

言学的研究核心已从论证语言、认知机制的普遍性、概念性转为对“

基于使用”

的语言变异的实证

研究，其方法论也从内省法转向

“

实证、定量

”

，比如新兴的“

认知社会语言学”

研究范式（参见

Ｇｅｅｒａｅｒｔｓ扣ａＺ．２０１０

；

Ｋｒｉｓｔｉａｎｓｅｎ＆Ｄｉ

ｒｖｅｎ２００８；Ｋｒ

ｉｓｔｉａｎｓｅｎ＆Ｇｅｅｒａｅｒｔｓ２０１３

；

ＰｕｔｚｅｉａＺ．２０１２）〇同时

，

语言现象通常受到多个因素的制约，简单的描述性一元统计方法在多变量数据分析上难有突破。

因此，掌握多元统计方法对于进行认知语言学研究具有十分重要的意义。

鉴于篇幅关系，本文只是以例举的方法精要介绍了几类多元统计方法适用的语言问题（见表

一

），对于方法的具体操作步骤则做了省略。文中提及的研究在语言问题的提出和统计方法的应

用等方面都具有一定的典型性，感兴趣的读者可做进一步阅读，以借鉴其研究方法。定量分析的

研究方法方兴未艾，希望本文能引起语言学界对它的关注

，从而在方法论上丰富认知语言学的研

究。

表一认知语言学中常用的多元统计方法概要

类别方法适用范围／原理

ｉｍ

注意事项

聚类可发现数据中的结构、不涉及假设验证，

探索性倾特征以及数据间的关联；无法得知数据规律

统计分析麵尺＝＝＝强＿＿直观＿

度分析可视化教上的显著性

７６

类别方法适用范围／原理＾注意事项

线性因变量为反应时、

模型词长等测量值Ｔ可计算主因素、交互因素缺失值、多重共线性、

验证性泊松对因变量的影响；过度拟合现象、极端

统计分析模型可引人随机变量；值等都可能

逻辑斯蒂目变量为“

二选－

”并可对语言现紐簡测影响翻的效度

模型的分类变量

随机含多个决策树的可处理大量的输人变量；

机器雜分類奸展阶段，

学习模型＿未有统一的操作模式彳卜系

统计分类器模型验证可不涉及新样本；

｜

判别＇

｜

预测精度高，且运算量小

当然，我们在强调“

实证” “

定量”

转向的同时，不能脱离语言研究者的内省作用。Ｇｅｅｒａｅｒｔｓ

（２０１０：７５）指出在语言研究设计中，合理提出研究假设、将假设具体转化为可操作的预测条件、对

实验分析结果的阐释都离不开研究者的内省。此外，在理论构建阶段，内省法提供的数据可起到

；

佐证作用；具体分析过程中，语感得出的语料也可对语料库语料进行补充。正如Ｂｎｋｒ

－Ｓｚａｌ＾＆

Ｂｒｄａｒ（

２０１２：

７４４）所强调的，内省在理论的构建和假设的提出阶段发挥了巨大作用，而理论的验证

阶段则离不开实证定量研究。将内省的思辨指导和定量的严格检验有机结合在一起，才能更好地

帮助我们进行认知语言学研究。

参考文献：

［１］Ａｒ

ｐｐｅ，Ａ．Ｕｎｉｖａｒｉａｔｅ，ｂｉｖａｒｉａｔｅ

，ａｎｄｍｕ

ｌｔｉｖａｒｉａｔｅｍｅｔｈｏｄｓｉｎｃｏｒｐｕｓ

－

ｂａｓｅｄｌｅｘｉｃｏｇｒａｐｈｙ：Ａｓｔｕｄｙｏｆ

ｓｙｎｏｎ

ｙｍｙ

［Ｄ］

，ＰｕｂｌｉｃａｔｉｏｎｓｏｆｔｈｅＤｅｐａｒｔｍｅｎｔｏｆＧｅｎｅｒａｌＬｉｎｇｕｉｓｔ

ｉｃｓ

，Ｕｎｉｖｅｒｓ

ｉｔｙ

ｏｆＨｅｌｓｉｎｋｉ，２００８．

［２

］Ｂａａｙｅｎ

，Ｒ．Ｈ．Ｃｏｒｐｕｓｌｉｎｇｕ

ｉｓｔｉｃｓａｎｄｎａｉｖｅｄｉｓｃｒｉｍｉｎａｔｉｖｅｌｅａｒｎｉｎｇ［

Ｊ］

．ＢｒａｚｉｌｉａｎＪｏｕｒｎａｌｏｆ

ＡｐｐｌｉｅｄＬｉｎｇｕ

ｉｓ？

ｔｉｃｓ，２０１１

，（１１）：２９５

－

３２８．

［３］Ｂａａｙｅｎ

，Ｒ．Ｈ．

，Ｄａｖｉｄｓｏｎ

，Ｄ．Ｊ

．＆Ｄ．Ｂａｔｅｓ．Ｍ．Ｍｉｘｅｄ

－

ｅｆｆｅｃｔｓｍｏｄｅｌｉｎｇｗ

ｉｔｈｃｒｏｓｓｅｄｒａｎｄｏｍｅｆｆｅｃｔｓｆｏｒｓｕｂ

ｊｅｃｔｓ

ａｎｄｉｔｅｍｓ［

Ｊ］．Ｊｏｕｒｎａｌｏｆ

ＭｅｍｏｒｙａｎｄＬａｎｇｕａｇｅ＾２００８

，（

５９）：３９０

－４１２．

［４］Ｂａａｙｅｎ，Ｒ．Ｈ．

，Ｍｉｌｉｎ

，Ｐ．

，Ｆｉ

ｌｉｐｏｖｉｄＤｕｒｄｅｖ

ｉｃ

，Ｄ．，Ｈｅｎｄｒｉｘ

，Ｐ．＆Ｍ．Ｍａｒｅｌｌｉ．Ａｎａｍｏｒｐｈｏｕｓｍｏｄｅｌｆｏｒｍｏｒｐｈｏ

？

ｌｏｇ

ｉｃａｌｐｒｏｃｅｓｓｉｎ

ｇｉｎｖｉｓｕａｌｃｏｍｐ

ｒｅｈｅｎｓｉｏｎｂａｓｅｄｏｎｎａｉｖｅｄｉｓｃｒｉｍｉｎａｔｉｖｅｌｅａｒｎｉｎ

ｇ［Ｊ］

．ＰｓｙｃｈｏｌｏｇｉｃａｌＲｅｖｉｅｗ，

２０１１，（１１８）：４３８－４８２．

［５］Ｂａａｙｅｎ，Ｒ．Ｈ．

，Ｅｎｄｒｅｓｅｎ

，Ａ”Ｊａｎｄａ，Ｌ”Ｍａｋａｒｏｖａ，Ａ．、＆Ｔ．Ｎｅｓｓｅｔ．Ｍａｋｉｎ

ｇｃｈｏｉｃｅｓｉｎＲｕｓｓｉａｎ

：Ｐｒｏｓａｎｄ

ｃｏｎｓｏｆｓｔａｔｉｓｔｉｃａｌｍｅｔｈｏｄｓｆｏｒｒｉｖａｌｆｏｒｍｓＬｉｎｇｕｉｓｔ

ｉｃｓ

ｙ２０１３

，（３）：２５３

－２９１．

［６］Ｂｒｄａｒ－Ｓｚａｂ６

，Ｒ．＆Ｍ．Ｂｒｄａｒ．Ｔｈｅｐ

ｒｏｂｌｅｍｏｆｄａｔａｉｎｔｈｅｃｏｇｎ

ｉｔｉｖｅｌｉｎ

ｇｕｉｓｔ

ｉｃｒｅｓｅａｒｃｈｏｎｍｅ

ｔｏｎ

ｙｍｙ：Ａｃｒｏｓｓ

－

ｌｉｎ？

ｇｕ

ｉｓｔｉｃ

ｐｅｒｓｐｅｃｔｉｖｅ．ＬａｎｇｕａｇｅＳｃｉｅｎｃｅｓ

ｔ２０１２

，（３４）：７２８

－

７４５．

［７］Ｂｅｍａｉｓｃｈ

，Ｔ．

，Ｇｒｉｅｓ，Ｓ．Ｔｈ．＆Ｊ．Ｍｕｋｈｅｉｊｅｅ．ＴｈｅｄａｔｉｖｅａｌｔｅｒｎａｔｉｏｎｉｎＳｏｕｔｈＡｓｉａｎＥｎ

ｇｌｉｓｈ（ｅｓ）：Ｍｏｄｅｌｌｉｎ

ｇ

ｐｒｅｄｉｃｔｏｒｓａｎｄ

ｐｒｅｄｉｃｔｉｎｇｐ

ｒｏｔｏｔｙｐｅｓ［Ｊ］

．Ｅｎｇ

ｌｉｓｈＷｏｒ

ｌｄ－Ｗｉｄｅ，２０１４

，３５（１）：７－

３１．

［８

］Ｄｅｓａｇｕｌｉｅｒ

，Ｄ．Ｖ

ｉｓｕａｌｉｚ

ｉｎｇ

ｄｉｓｔａｎｃｅｓｉｎａｓｅｔｏｆｎｅａｒｓ

ｙｎｏｎ

ｙｍｓ

：ｒａｔｈｅｒ，ｑｕｉ

ｔｅ，ｆａｉｒｌ

ｙ，ａｎｄｐｒｅｔｔ

ｙ［Ｃ

］／／

Ｇｌｙｎｎ

，Ｄ．＆Ｊ．Ｒｏｂｉｎｓｏｎ．ＣｏｒｐｕｓＭｅｔｈｏｄｓ

ｆｏｒＳｅｍａｎｔｉｃｓ：ＱｕａｎｔｉｔａｔｉｖｅＳｔｕｄ

ｉｅｓｉｎＰｏｌ

ｙｓｅｍｙ

ａｎｄＳｙｎｏｎｙｍｙ，Ａｍ？

ｓｔｅｒｄａｍ＆Ｐｈｉｌａｄｅｌｐｈｉａ：Ｊ

ｏｈｎＢｅｎｊａｍｉｎｓ

，２０１４．１４５－

１７８．

７７

［９］Ｄｅｓｈｏｒｓ，Ｓ．

＆Ｓ．Ｔｈ．Ｇｒｉｅｓ．Ａｃａｓｅｆｏｒｔｈｅｍｕｌｔｉｆａｃｔｏｒｉａｌａｓｓｅｓｓｍｅｎｔｏｆｌｅａｒｎｅｒｌａｎｇ

ｕａｇｅ：Ｔｈｅｕｓｅｓｏｆｍａｙａｎｄ

ｃａｎｉｎＦｒｅｎｃｈ－Ｅｎｇｌｉｓｈｉｎｔｅｒｌａｎｇｕａｇｅ［Ｃ］／／Ｇｌｙ

ｎｎ，Ｄ．

＆Ｊ－Ｒｏｂｉｎｓｏｎ．ＣｏｒｐｕｓＭｅｔｈｏｄｓｆｏｒＳｅｍａｎｔｉｃｓ＼Ｑｕａｎｌｉ

－

ｔａｔｗｅＳｔｕｄｉｅｓｉｎＰｏｌｙｓｅｍｙａｎｄＳｙｎｏｎｙｍｙ

．Ａｍｓｔｅｒｄａｍ／Ｐｈｉｌａｄｅｌｐｈｉａ：ＪｏｈｎＢｅｎｊａｍｉｎｓ

，２０１４．１７８

－

２０４．

［１０］Ｄｉｖｊａｋ

，Ｄ．Ｓｔｒｕｃｔｕｒｉｎｇ

ｔｈｅＬｅｘｉｃｏｎ：ＡＣｌｕｓｔｅｒｅｄＭｏｄｅｌｆｏｒＮｅａｒ－

ｓｙｎｏｎｙｍｙ［Ｍ］

．Ｂｅｒｌｉｎ／ＮｅｗＹｏｒｋ

：Ｍｏｕｔｏｎｄｅ

Ｇｒｕｙｔｅｒ

，２０１０．

［１１］Ｄｉｖ

ｊａｋ

，Ｄ．＆Ｓ．

＂

Ｈｉ．Ｇｒｉｅｓ．Ｗａｙｓｏｆｔｒｙ

ｉｎｇｉｎＲｕｓｓｉａｎ：Ｃｌｕｓｔｅｒｉｎｇ

ｂｅｈａｖｉｏｒａｌｐｒｏｆｉｌｅｓ［

Ｊ］

．ＣｏｒｐｕｓＬｉｎｇｉｄｓｔｉｅｓａｎｄ

ＬｉｎｇｕｉｓｔｉｃＴｈｅｏｒｙ，２００６，２（１）：２３－

６０．

［１２］Ｄｏｇｒｕｆｔｚ

，Ａ．Ｓ．

，＆Ｓ．Ｔｈ．Ｇｒｉｅｓ．Ｓｐｒｅａｄｏｆｏｎ

－

ｇｏｉｎｇ

ｃｈａｎｇｅｓｉｎａｎｉｍｍｉｇｒａｎｔｌａｎ

ｇｕａｇｅ［

Ｊ］

．Ｒｅｖｉｅｗｏ

ｆ

Ｃｏｇｎｉｔｉｖｅ

Ｌｉｎｇｕｉｓｔｉｃｓ，２０１２

，１０（２）：

４０１－４２６．

［１３］Ｇｅｅｒａｅｒｔｓ

，Ｄ．Ｔｈｅｄｏｃｔｏｒａｎｄｔｈｅｓｅｍａｎｔ

ｉｃｉａｎ

［Ｃ］／／Ｇｌ

ｙｎｎ

，Ｄ．＆Ｋ．Ｆｉｓｃｈｅｒ．ＱｕａｎｔｉｔａｔｉｖｅＭｅｔｆｗｄｓｉｎＣｏｇｎｉ？

ｔｉｖｅＳｅｍａｎｔｉｃｓ：Ｃｏｒｐｕｓ

－ＤｒｉｖｅｎＡｐｐｒｏａｃｈｅｓ

．Ｂｅｒｌｉｎ／ＮｅｗＹｏｒｋ：ＭｏｕｔｏｎｄｅＧｒｕｊ

ｒｔｅｒ

，２０１０．６３

－

７８．

［１４］Ｇｅｅｒａｅｒｔ

ｓ，Ｄ．

，Ｋｒｉｓｔ

ｉａｎｓｅｎ

，Ｇ．＆Ｙ．Ｐｅｉｒｓｍａｎ．ＡｄｖａｎｃｅｓｉｎＣｏｇｎｉｔｉｖｅＳｏｃｗｌｉｎｇｕｉｓｔ

ｉｅｓ

［Ｍ

］

．Ｂｅｒｌｉｎ／ＮｅｗＹｏｒｋ：

ＭｏｕｔｏｎｄｅＧｒｕｙｔｅｒ

，２０１０．

［１５］Ｇｌｙ

ｎｎ，Ｄ．Ｔｅｓｔｉｎ

ｇｔｈｅｈ

ｙｐｏｔｈｅｓｉｓ．Ｏｂｊｅｃｔｉｖｉｔｙａｎｄｖｅｒｉｆｉｃａｔｉｏｎｉｎｕｓａｇｅ

－ｂａｓｅｄｃｏｇｎｉｔｉｖｅｓｅｍａｎｔｉｃｓ［Ｃ］／／

Ｇｌｙｎｎ

，Ｄ．＆Ｋ．Ｆｉｓｃｈｅｒ．

ＱｕａｎｔｉｔａｔｉｖｅＭｅｔｈｏｄｓｉｎＣｏｇｎｉｔｉｖｅＳｅｍａｎｔｉｃｓ：Ｃｏｒｐｕｓ－ｄｒｉｖｅｎＡｐｐｒｏａｃｈｅｓ．Ｂｅｒｌｉｎ／Ｎｅｗ

Ｙｏｒｉｃ；ＭｏｕｔｏｎｄｅＧｒｕ

ｙｔｅｒ

，２０１０．２３９—

２７０．

［１６］Ｇｌｙｎｎ

，Ｄ．＆Ｋ．

Ｆｉｓｃｈｅｒ．

ＱｕａｎｔｉｔａｔｉｖｅＭｅｔｈｏｄｓｉｎＣｏｇｎｉｔｉｖｅＳｅｍａｎｔｉｃｓ：Ｃｏｒｐｕｓ－

ｄｒｉｖｅｎＡｐｐｒｏａｃｈｅｓ［Ｍ

］．Ｂｅｒｌｉｎ／

ＮｅｗＹｏｒｋ：ＭｏｕｔｏｎｄｅＧｒｕｙｔｅｒ

，２０１０．

［１７］Ｇｌｙ

ｎｎ，Ｄ．＆Ｊ．Ｒｏｂｉｎｓｏｎ．Ｃｏｒｐｕ

ｓＭｅｔｈｏｄｓｆｏｒ

Ｓｅｍａｎｔｉｃｓ：ＱｕａｎｔｉｔａｔｉｖｅＳｔｕｄｉｅｓｉｎＰｏｌｙｓｅｍｙａｎｄＳｙｎｏｎｙｍｙ［

Ｍ］

．

Ａｍｓｔｅｒｄａｍ／Ｐｈｉｌａｄｅｌｐｈｉａ：ＪｏｈｎＢｅｎｊ

ａｍｉｎｓ，２０１４．

［１８］Ｇｒｉｅｓ

，Ｓ．Ｔｈ．

Ｓｏｕｒｃｅｓｏｆｖａｒｉａｂｉｌｉｔｙ

ｒｅｌｅｖａｎｔｔｏｔｈｅ（ｃｏ

ｇｎｉｔｉｖｅ）

ｓｏｃｉｏｌｉｎｇｕ

ｉｓｔ

，ａｎｄ

ｑｕａｎｔｉｔａｔｉｖｅｃｏｒｐｕｓｍｅｔｈｏｄｓｔｏ

ｈａｎｄｌｅｔｈｅｍ［

Ｊ］

．Ｊｏｕｒｎａｌｏｆ

Ｐｒａｇｍａｔｉｃｓｆ２０１３

，５２（６）：５

－

１６．

［１９］Ｇｒｉｅｓ，Ｓ

．Ｔｈ．

＆Ｓ．Ｄｅｓｈｏｒｓ．Ｕｓｉｎｇ

ｒｅｇｒｅｓｓｉｏｎｓｔｏｅｘ

ｐｌｏｒｅｄｅｖｉａｔｉｏｎｓｂｅｔｗｅｅｎｃｏｒｐｕｓｄａｔａａｎｄａｓｔａｎｄａｒｄ／ｔａｒ

ｇｅｔ

：

Ｔｗｏｓｕ＾ｅｓｔｉｏｎｓＣｏｒｐｏｒａ，２０１４

，

９（

１）：１０９

－

１３６．

［２０］Ｇｒｉｅｓ，Ｓ

．Ｔｈ．

＆Ｍ．ＨＵｐｅｒｔ．Ｔｈｅｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆｓｔａ

ｇｅｓｉｎｄｉａｃｈｒｏｎｉ

ｃｄａｔａ；Ｖａｒｉａｂｉｌｉｔ

ｙ－ｂａｓｅｄｎｅｉ

＾ｉｂｏｒｃｌｕｓｔｅｒｉｎｇ

［Ｊ］．Ｃｏｒｐｏｒａ，２００８，（３）；５９

－

８１．

［２１］Ｈｉｌｐｅｒｔ，Ｍ．Ｄｙｎａｍｉ

ｃｖｉｓｕａｌｉｚａｔｉｏｎｓｏｆｌ

ａｎｇｕａ

ｇｅｃｈａｎｇ

ｅ：Ｍｏｔｉ

ｏｎｃｈａｒｔｓｏｎｔｈｅｂａｓｉｓｏｆｂｉｖａｒｉａｔｅａｎｄｍｕｌｔｉｖａｎａｔｅ

ｄａｔａｆｒｏｍｄｉａｃｈｒｏｎｉｃｃｏｒｐｏｒａ［

Ｊ］．Ｉｎｔｅｒｎａｔ

ｉｏｎａｌＪｏｕｒｎａｌｏｆ

ＣｏｒｐｕｓＬｉｎｇｕｉｓｔｉｃｓ

，２０１１，１６（４）：４３５

－

４６１．

［２２

］Ｊａｎｄａ，Ｌ．ＣｏｇｎｉｔｉｖｅＬｉｎｇｕｉｓｔｉｃｓ＇

，ＴｈｅＱｕａｎｔｉｔａｔ

ｉｖｅＴｕｒｎ．ＴｈｅＥｓｓｅｎｔｉａｌＲｅａｄｅｒ［Ｍ］．Ｂｅｒｌｉｎ；ＭｏｕｔｏｎｄｅＧｒｕ

ｙｔｅｒ

，

２０１３ａ．

［２３］Ｊａｎｄａ，Ｌ．Ｑｕａｎｔｉｔ

ａｔｉｖｅｍｅｔｈｏｄｓｉｎｃｏｇｎ

ｉｔｉｖｅｌ

ｉｎｇｕｉｓｔｉｃｓ．Ａｎｉ

ｎｔｒｏｄｕｃｔｉｏｎ［Ｃ］／／Ｊａｎｄａ

，Ｌ．

Ｃｏｇｎｉｔｉｖｅｌｉｎｇｕ

ｉｓｔｉｃｓ？

，

ＴｈｅＱｕａｎｔｉｔａｔｉｖｅＴｕｒｎ：ＴｈｅＥｓｓｅｎｔｉａｌＲｅａｄｅｒ．Ｂｅｒｌｉｎ：ＭｏｕｔｏｎｄｅＧｒｕ

ｙｔｅｒ

，２０１３ｂ．１－

３２．

［２４］Ｊａｎｄａ

，Ｌ．＆Ｖ．

Ｓｏｌｏｖｙｅｖ．

Ｗｈａｔｃｏｎｓｔｒｕｃｔｉｏｎａｌｐ

ｒｏｆｉｌｅｓｒｅｖｅａｌａｂｏｕｔｓｙｎｏｎ

ｙｍｙ

：ＡｃａｓｅｓｔｕｄｙｏｆＲｕｓｓｉａｎｗｏｒｄｓｆｏｒ

ＳＡＤＮＥＳＳａｎｄＨＡＰＰＩＮＥＳＳ［Ｊ］．ＣｏｇｎｉｔｉｖｅＵｎｇｕｉｓｔｗｓ

，２００９，（２）：３６７

－

３９３．

［２５］Ｋｒｉｓｔｉａｎｓｅｎ，Ｇ．

，＆Ｒ．Ｄｉｒｖｅｎ．Ｃｏｇｎｉ

ｔｉｖｅｓｏｃｉｏｌｉｎｇｕｉｓｔｉ

ｃｓ：Ｒａｔｉｏｎａｌｅ

，ｍｅｔｈｏｄｓａｎｄｓｃｏｐｅ［Ｃ

］／／Ｋｎｓｔｉａｎｓｅｎ

，

Ｇ．＆Ｒ．Ｄｉｒｖｅｎ．Ｃｏｇｎ

ｉｔｉｖｅＳｏｃｉｏｌｉｎｇｕｉｓｔｉｃｓ＼ＬａｎｇｕａｇｅＶａｒｉａｔｉｏｎ

ｔＣｕｌｔｕｒａｌＭｏｄｅｌｓ，ＳｏｃｉａｌＳｙｓｔｅｍｓ．Ｂｅｒｌｉｎ

：Ｄｅ

ＧｒｕｙｔｅｒＭｏｕｔｏｎ

，２００８．１－

１７．

［２６］Ｋｒｉｓｔｉａｎｓｅｎ，Ｇ．＆Ｄ．Ｇｅｅｒａｅｒｔｓ．Ｃｏｎｔｅｘｔｓｏｆ

ｕｓｅｉｎｃｏ

ｇｎｉｔｉｖｅｓｏｃｉｏｌｉｎ

ｇｕｉｓｔｉ

ｃｓ［｝］

．Ｊｏｕｒｒｕｄｏｆ

Ｐｒａｇｍａｔｗｓ，２０１３

，

（５２）．

［２７

］Ｌｅｖｓｈｉｎａ

，Ｎ．ＤｏｅＷａｔＪｅＮｉｅｔＬａｔｅｎＫａｎ：Ａｕｓａｇｅ－ｂａｓｅｄａｎａｌｙ

ｓｉｓｏｆＤｕｔｃｈｃａｕｓａｔｉｖｅｃｏｎｓｔ

ｒｕｃｔｉｏｎｓ［Ｄ］

．Ｕｎｉ

？

ｖｅｒｓｉｔｙｏｆＬｅｕｖｅｎ，２０１１．

［２８］Ｌｅｖｓｈｉｎａ

，Ｎ．Ｃｏｍｐａｒｉｎｇｃｏｎｓｔｒｕｃｔ

ｉｏｎｓ：Ａｕｓａ

ｇｅ－ｂａｓｅｄａｎａｌ

ｙｓｉｓｏｆｔｈｅｃａｕｓａｔｉｖｅｃｏｎｓｔｒｕｃｔｉｏｎｗｉｔｈｄｏｅｎｉｎＮｅｔｈ－

ｅｒｌａｎｄｉ

ｃａｎｄＢｅｌｇｉａｎＤｕｔｃｈ

［Ｊ

］．Ｃｏｎｓｔｒｕｃｔ

ｉｏｎｓａｎｄＦｒａｍｅｓ，２０１

２，４（１

）：７６

－１０１．

７８

［２９

］Ｌｅｖｓｈｉｎａ，Ｎ．

，Ｇｅｅｒａｅｒｔｓ

，Ｄ．＆Ｄ．Ｓｐｅｅｌｍａｎ．Ｍａｐｐｉ

ｎｇｃｏｎｓ

ｔｒｕｃｔ

ｉｏｎａｌｓｐａｃｅｓ：Ａｃｏｎｔｒａｓｔ

ｉｖｅａｎａｌ

ｙｓｉｓｏｆＥｎｇｌｉｓｈ

ａｎｄＤｕｔｃｈａｎａｌｙｔｉｃｃａｕｓａｔｉｖｅｓ．

Ｌｉｎｇｕｉｓｔｉｃｓ，２０１３ａ，５１（４）

；８２５

—

８５４．

［３０］Ｌｅｖｓｈｉｎａ，Ｎ．


，Ｄ．＆Ｄ．

Ｓｐｅｅｌｍａｎ．Ｔｏｗａｒｄｓａ３Ｄ－

ｇｒａｍｍａｒ：Ｉｎｔｅｒａｃｔｉｏｎｏｆｌｉｎｇｕｉｓｔｉｃａｎｄｅｘｔｒａｌｉｎ

ｇｕｉｓ

－

ｔｉｃｆａｃｔｏｒｓｉ

ｎｔｈｅｕｓｅｏｆＤｕｔｃｈｃａｕｓａｔｉｖｅｃｏｎｓｔｒｕｃｔｉｏｎｓ［

Ｊ］．ＪｏｕｒｎａｌｏｆＰｒａｇｍａｔｉｃｓｙ２０１３ｂ

，（５２）：３４

－

４８．

［３１］Ｌｅｖｓｈｉｎａ，Ｎ．

，Ｇｅｅｒａｅｒｔｓ，Ｄ．＆Ｄ．Ｓｐｅｅｌｍａｎ．Ｄｕｔｃｈｃａｕｓａｔｉｖｅｃｏｎｓｔｒｕｃｔｉｏｎｓ：Ｑｕａｎｔ

ｉｆｉｃａｔｉｏｎｏｆｍｅａｎｉｎｇ

ａｎｄ

ｍｅａｎｉｎｇｏｆ

ｑｕａｎｔ

ｉｆｉｃａｔｉｏｎ［

Ｃ］／／Ｇｌ

ｙｎｎ

，Ｄ．＆Ｊ．Ｒｏｂｉｎｓｏｎ．ＣｏｒｐｕｓＭｅｔｈｏｄｓ

ｆｏｒＳｅｍａｎｔｉｃｓ？

．ＱｕａｎｔＵａｔｉｅＳｔｕｄｉｅｓ

ｉｎＰｏｌｙｓｅｍｙａｎｄＳｙｎｏｎｙｍｙ．Ａｍｓｔａｒｄａｍ／Ｐｈｉｌａｄｅｌｐｈｉ

ａ：Ｊ

ｏｈｎＢｅｎｊａｍｉｎｓ，２０１４．２０５

－

２２１．

［３２］Ｎｙｃｚ，Ｊ

．Ｃｈａｎｇｉｎｇｗｏｒｄｓｏｒｃｈａｎｇｉｎｇｒｕｌｅｓ？Ｓｅｃｏｎｄｄｉａｌｅｃｔａｃｑｕｉｓｉｔｉｏｎａｎｄ

ｐｈｏｎｏ

ｌｏｇ

ｉｃａｌｒｅｐｒｅｓｅｎｔａｔｉｏｎ［

Ｊ］

．

Ｊｏｕｒｎａｌｏｆ

Ｐｒａｇｍａｔｉｃｓ，２０１３，（５２）：

４９— ６２．

［３３］ＰＵｔｚ

，Ｍ．

，Ｒｏｂｉｎｓｏｎ

，Ｊ

．Ａ．＆Ｍ．Ｒｅｉｆ．Ｃｏ

ｇｎｉｔｉｖｅｓｏｃｉｏｌ

ｉｎｇｕｉｓｔｉｃｓ

：Ｖａｒｉａｔｉｏｎｉｎｃｏｇｎｉｔｉｏｎａｎｄｌａｎｇｕａｇｅｕｓｅ［Ｊ］

．

Ｒｅｖｉｅｗｏｆ

Ｃｏｇｎｉｔｉｖｅｌｉｎｇｕｉｓｔｉｃｓ．

，１０（２），２０１２．

［３４］Ｒｕｅｔｔｅ，Ｔ．

Ａ＾ｒｅｇａｄｎｇ

ｌｅｘｉｃａｌｖａｒｉａｔｉｏｎ：Ｔｏｗａｒｄｓｌａｒｇｅ

－ｓｃａｌｅｌｅｘｉｃａｌｌｅｃｔｏｍｅｔｒ

ｙ［Ｄ］

．ＰｈＤｄｉｓｓｅｒｔａｔｉｏｎ．Ｕｎｉ

ｖｅｒ？

ｓｉｔ

ｙｏｆＬｅｕｖｅｎ

，２０１２．

［３５

］Ｓｐｅｅｌｍａｎ，Ｄ．＆Ｄ．Ｇｅｅｒａｅｒｔｓ．Ｃａｕｓｅｓｆｏｒｃａｕｓａｔｉｖｅｓ

：ＨｉｅｃａｓｅｏｆＤｕｔｃｈ４

ｄｏｅｎ＊

ａｎｄ＊

ｌａｔｅｎ

＇

［

Ｃ］／／Ｓａｎｄｅｒｓ

，

Ｔ．＆Ｅ．Ｓｗｅｅｌｓｅｒ．ＣａｕｓａｌＣａｔｅｇｏｒｉｅｓｉｎＤｉｓｃｏｕｒｓｅａｎｄＣｏｇｎｉｔｉｏｎ．Ｂｅｒｌｉｎ／ＮｅｗＹｏｉｋ：ＭｏｕｔｏｎｄｅＧｒｕｙｔｅｒ

，２００９．

１７３－

２０４．

［３６

］Ｓｐｅｅｌｍａｎ

，Ｄ．

，Ｈｅｙｌｅｎ

，Ｋ．＆Ｄ．Ｇｅｅｒａｅｒｔｓ．ＭｉｘｅｄＭｏｄｅｌｓａｎｄＭｏｄｅｍＭｕｌｔｉｖａｒｉａｔｅＭｅｔｈｏｄｓｉｎＬｉｎｇｕｉｓｔｉｃｓ［Ｃ

］．

ＴｈｅＳｐｒｉｎｇｅｒＰｒｅｓｓ，Ｆｏｒｔｈｃｏｍｉｎｇ．

［３７］Ｔａｇｌｉａｍｏｎｔｅ

，Ｓ．＆Ｈ．Ｂａａ

ｙｅｎ

．Ｍｏｄｅｌｓ，ｆ

ｏｒｅｓｔｓａｎｄｔｒｅｅｓｉｎＹｏｒｋＥｎｇｌｉｓｈ：Ｗａｓ／ｗｅｒｅｖａｒｉａｔ

ｉｏｎａｓａｃａｓｅｓｔｕｄ

ｙ

ｆｏｒｓｔａｔｉｓｔｉｃａｌｐ

ｒａｃｔｉｃｅ［Ｊ］

．ＬａｎｇｕａｇｅＶａｒ

ｉａｔｉｏｎａｎｄＣｈａｎｇｅ

９２０１２，２４（２）：

１３５－

１７８．

［３８

］Ｚｅｎｎｅｒ

，Ｅ．

，Ｓｐ

ｅｅｌｍａｎ，Ｄ．＆Ｄ．Ｇｅｅｒａｅｒｔｓ．Ｃｏ

ｇｎｉｔｉｖｅＳｏｃｉｏｌｉｎｇｕｉｓｔｉｃｓｍｅｅｔｓｌｏａｎｗｏｒｄｒｅｓｅａｒｃｈ：

Ｍｅａｓｕｒｉｎｇｖａｒｉ？

ａｔｉｏｎｉｎｔｈｅｓｕｃｃｅｓｓｏｆａｎｇｌｉｃｉｓｍｓｉ

ｎＤｕｔｃｈ［Ｊ］．Ｃｏｇｎｉｔ

ｉｖｅＬｉｎｇｕｉｓｔｉｃｓ，２０１２

，２３（４）：７４９

－

７９２．

［３９］Ｚｅｎｎｅｒ

，Ｅ．

，Ｓｐｅｅｌｍａｎ

，Ｄ．＆Ｄ．Ｇｅｅｒａｅｒｔｓ．Ｍａｃｒｏａｎｄｍｉｃｒｏｐｅｒ

ｓｐｅｃｔｉｖｅｓｏｎｔｈｅｄｉｓｔｒｉｂｕｔｉｏｎｏｆＥｎｇｌｉｓｈｉｎ

Ｄｕｔｃｈ．Ａｑｕａｎｔｉｔａｔｉｖｅｕｓａｇｅ－ｂａｓｅｄａｎａｌ

ｙｓｉｓｏｆ

ｊｏｂａｄｓ

［

Ｊ］

．Ｌｉｎｇｕｉｓｔｉｃｓ，

２０１３，５１（５）：１０１９

－

１０６４．

［４０］Ｚｈａｎｇ，Ｗ．ＶａｒｉａｔｉｏｎｉｎＭｅｔｏｎｙｍｙ－

，Ｃｒｏｓｓ－

ｌｉｎｇｕｉｓｔｉｃ，ＨｉｓｔｏｒｉｃａｌａｎｄＳｏｃｕｄ

－

ｌｅｃｔａｌＰｅｒｓｐｅｃｔｉｖｅｓ［Ｍ］．Ｂｅｒｌｉｎ／Ｎｅｗ

Ｙｏｒｋ：ＭｏｕｔｏｎｄｅＧｒｕｙｔｅｒ

，Ｆｏｒｔｈｃｏｍｉｎｇ．

［４１

］Ｚｈａｎｇ，Ｗ．


，Ｄ．＆Ｄ．Ｓｐｅｅｌｍａｎ．Ｖ

ｉｓｕａｌ

ｉｚ

ｉｎｇ

ｏｎｏｍａｓｉｏｌｏｇ

ｉｃａｌｃｈａｎｇｅ：

Ｄｉａｃｈｒｏｎｉ

ｃｖａｒｉａｔｉｏｎｉｎｍｅｔ

？

ｏｎｙｍ

ｉｃｐ

ａｔｔｅｒｎｓｆｏｒＷＯＭＡＮｉｎＣｈｉｎｅｓｅ［Ｊ］．ＣｏｇｎｉｔｉｖｅＬｉｎｇ

ｕｉｓｔｉｃｓ，２０１５

，２６（２）：２８９－

３３０．

［４２］Ｚｈａｎｇ，Ｗ．

ｆＳｐｅｅｌｍａｎ

，Ｄ．＆Ｄ．Ｇｅｅｒａｅｒｔｓ．Ｖａｒｉａｔｉｏｎｉｎｔｈｅ（

ｎｏｎ）ｍｅｔｏｎ

ｙｍｉｃｃａｐｉｔａ

ｌｎａｍｅｓｉｎＭａｉｎｌ

ａｎｄＣｈｉ？

ｎｅｓｅａｎｄＴａｉｗａｎＣｈｉｎｅｓｅ［

Ｊ］．ＭｅｔａｐｈｏｒａｎｄｔｈｅＳｏｃｉａｌＷｏｒｌｄ

，２０１１，１（１）；９０

－

１１２．

［４３

］Ｚｈａｎ

ｇ，Ｗ．

，Ｓｐｅｅｌｍａｎ

，Ｄ．＆Ｄ．Ｇｅｅｒａｅｒｔｓ．（Ｎｏｎ）ｍｅｔｏｎ

ｙｍｉｃｅｘｐｒｅｓｓｉｏｎｓｆｏｒＧＯＶＥＲＮＭＥＮＴｉｎＣｈｉｎｅｓｅ

：Ａ

ｍｉｘｅｄ－

ｅｆｆｅｃｔｓｌｏｇｉｓｔｉｃｒｅｇ

ｒｅｓｓｉｏｎａｎａｌｙ

ｓｉｓ［Ｃ］／／Ｓｐｅｅｌｍａｎ

，Ｄ．

，Ｈｅｙｌｅｎ，Ｋ．＆Ｇｅｅｒａｅｒｔｓ．ＭｉｘｅｄＭｏｄｅｌｓａｎｄ

ＭｏｄｅｍＭｉｄｔｉｖａｒｉｃＵｅＭｅｔｈｏｄｓｉｎＬｉｎｇｕｉｓｔｉｃｓ．ＴｈｅＳｐｒ

ｉｉ＾ｅｒＰｒｅｓｓ

，Ｆｏｒｔｈｃｏｍｉｎｇ．

基金项目：教育部人文社科青年基金项目“

基于使用的转喻变异统计建模及可视化研究”

（１５ＹＪＣ７４０１３６）、上

海市浦江人才计划“

基于多语种语料库的转喻变异多变量研究＂

（１４ＰＪＣ０９５）、上海市教育委员会与上海

市教育发展基金会晨光计划“ ‘

一形多义

’

与‘一义多形

’

视角下的转喻变异定量研究”

（１３ＣＧ３２）、上海

外国语大学校级一般科研项目（ＫＸ１７１３１８）的阶段性成果。

收稿日期：２０１４

－

１０－

２８

作者简介：张炜炜（１９８３－

），女，

乐山人，博士，

助理研究员。研究方向：认知语言学、语料库语言学和词汇语

义学。

刘念（ＮｉａｎＬｈｉ，

１９８２－

），女，宜昌人，博士，助理教授。研究方向：认知语言学和心理语言学。

７９

认知语言学定量研究的几种新方法（advanced quantitative methods in cognitive...

Documents