认知语言学定量研究的几种新方法(advanced quantitative methods in cognitive...

9
our06 献标识 言学 0 00大学 对近期 沿 元统 验证统计分 辑斯建模 如随 个方 据统 计分 rcan ve veUS itcead vaceu an itexes lt vaex nalianss ecdeeang and ve oveces ti ka es vati 的整 体研 3b ve 论文 了明 使 文更 超过 关注 nn nn 语言 多个 认知 广泛 形之 认知 初期 统地 究方 究之 常用 探索 谢许余龙教 匿名 稿 稿提 宝贵建

Upload: shisu

Post on 27-Nov-2023

0 views

Category:

Documents


0 download

TRANSCRIPT

20 16年1月外 国 语January201 6

第39▲第1期Journal of

Pore^nLanguages\〇139 饮〇 . 1

文章编 号 :1004

5 139(201 6 ) 01

- 007 1-

09中 图分 类号 :HO

06文献标识 码 : A

认知语言学定量研究的几种新方法^

张炜炜、刘 念2

(1 . 上海外 国语大学 语 言研 究院 ,上海 200083

2 . 俄克拉荷马 大学 现代语 言及语言学 系 , 美 国 )

摘 要 :本文针对近期认知语 言学研究 中 出现的 定量转向 ,

用 具体案例 介绍 了一 系列 国际认知语言学研究 中

前沿的 多元统计方法 ,主要涉及探索性统计分析 (如聚类分析 、 多维尺度分析 ) 、验证性统计分析 ( 如逻辑斯蒂

回 归建模 、混合效应回 归建模 ) 以及机器学 习模型 ( 如随机森林 、朴素判 别 学 习 ) 三个方面 。 最后 ,本文还简要

介绍 了在这些数据统计分析 中可资利 用 的统计软件 包 ( R 环境 ) 。

关键词:认知语言 学 ;定量研究方法 ; 多元统计

AdvancedQuant itativeMethodsinCognitiveLin

guisticsResearch

ZHANGWeiwei

,UU Nian

(1 . InstituteofL ingu ist

icStud ies,ShanghaiI nte rnat iona lStud iesUn ive rs i

ty ,

Shangha i200083

,Ch ina;2

. TheUn ivers ityofOklahoma

,USA )

Abstract *In linevri ththequant

itat

iveturni

nCogn iti veLi n

guis t

ics

,th

ispaperi ntroduces aseriesofadvanced

quan?

titativemethod swith ampleexam

ples . It illustratesmul t ivariatemethodsof explorat or

yanal

ys is (

e .

g. clus teranal

ys is

multidimensi onals caling ana

lysis )

,confirmator

yanal

ys is( e .

g.logi

s ticre

gress ionmodel

,mixed

effect sregressi on

model )and machi nelearning model ( e

g.rand omfores t

,na iVedi scriminat ive learnin

g ). Moreover

,this

pape rbriefl

introducesstat is ticalpackagesofthosemethodsi

nthestat i sticalenvi ronment R .

Keywords:Co

gn

itiveLin

gui st ics

;quan ti tativemethods;multi variate sta ti st ics

i . 引言

近年来 ,认知语言学的整体研究以及其代表性刊物 CogntoeLinguist 都展现 出显著的“

量”

转向趋势。 Janda (201 3b

)分析了Cogni tivelinguist ics 历年收录的论文 ,发现 自 2008 年之后 ,该

期刊论文的研究方法出现了明显的转变——半数以上的论文都采用 了定量的分析方法 ,而 20 1 0 年

使用定量方法的论文更是超过 80% 。 同时 ,认知语言学界 也出现了大量关注定量方法的研究成

果 ,如Gl

ynn&Fi scher (

20 1 0 ) ,Janda (

20 1 3a ),

G l

ynn&Robinson (

20 14 ) 。 认知语言学认为语言现象

不是独立存在 ,而是受到众多因素影响 的 ,语言研究也相应地涉及多个变量 , 因此 , 多元统计的方

法在国际认知语言学领域得到了广泛应用 。 相形之下,国内认知语言学研究还处于由定性向定量

的转型初期 ,有待系统地引进国外最新定量研究方法 ,

应用 到针对汉语的研究之中 。 本文 旨在介

绍认知语言学中常用的多元统计方法 ,主要着眼于探索性统计分析 、验证性统计分析 以及机器学

* 感谢许余龙教授 、 《外国语 》编辑部及匿名审稿专家对本文初稿提出的宝贵建议 。

7 1

习模型三个方面 。 这三类方法可有效地保证对语言描写的客观性 , 以顺应认知语言学方法论的“

实证定量”

转向 ,从而推进认知语言学研究方法的改进 。

2? 探索性统计分析 (

exploratoryana

lys is

一般而言 ,统计显著性检验方法 (如卡方检验 、F

i she i

精确检验 、T 检验 、二项检验等 )是从某种

假定出发 ,再根据计算所得的 P 值对零假设进行拒绝或接受 ,

这类统计方法 中数据总体的分布形式

是给定的或假定的 。 然而 ,语言研究中 ,有时我们无法从某种假定出发 ,而是需要从原始数据出发 ,

进而探索数据的内在规律 ,这时就需要借助探索性统计分析方法 。 认知语言学研究 中 比较常用

的 、针对多元数据形式的探索性统计分析主要有 : 聚类分析 ( clus teranalys is ) ( 如 Divjak&Gries

2006;Gries&Hilper t2008

;Div

jak20 1 0 ) , 多维 尺度分 析 ( mult idimens ionalscalinganaly

si s ) ( 如

Levshina 20 1 1;

Hilper t20 1 1

Ruette20 12;

Zhang

efaZ.20 15

) ,多重对应分析 (

MCA) (如

Lev shinaefaZ.

20 1 3a )等 。 总体而言 ,探索性统计分析的方法强调数据的直观性和可视化 ,

以便研究者一 目 了然地

发现数据中的重要信息 。

2 . 1 聚类分析

聚类分析可将看似无序的对象按相似特征进行分类并归纳成不 同 的组别 ,使得在 同一

组别 中

的对象都具有相似属性 ,从而达到组 内对象相似性高 , 组 间对象相似性低 。 例如 ,

LevShina

( 20 1 2 )

利用层次聚类分析 ( hie rarchica lclusteranalys i s )考察了荷兰语 中含有 Ajcti 的致使构式在荷兰荷兰

语和比利时荷兰语中的异同 。 该研究借助计算机自动标注和人工标注相结合的方式 ,从 35 个特征

方面对含有 目标构式的例句进行标注 ,如致使者 、受使者的语义类别 、词性 、数 、有定性 ,受使者的 自

愿性 ,结果事件谓词的及物性等 。 接着 , 利用距离算法将例句的频数和语言特征转换为距离矩阵

(d

istancematrix ) ,作为层次聚类分析的输人值 。 该研究采用 了 可置换 自 助法 ( boots trappingwith

replacement )分别从两个地区的语料中随机抽样了66 个例句来进行聚类 , 分析 的结果是以树状图

(dendro

gram) 的形式呈现 。 通过对比主要组别 ,就可得 出 dom 构式在荷兰 、 比利 时地区的使用差

异 。

另外 ,聚类分析在近义词 (或近义构式 ) 的辨析研究 中也得到了广泛应用 。 如 Janda&Solov

yev

(2009

)利用聚类分析考察了俄语中表示 SADNESS 含义 的六个近义名词 ,作者根据各个名 词在特

定构式中出 现的相对频率进行聚类 ,不同名词在树状图中的距离可以直观地反映 出其语义的相似

性或差异性 。 Di vjak ( 20 1 0 )辨析了俄语中 TRY 类动词 ,聚类分析将近义动词分组于树状图 中的不

同节点 ,从而反映出 动词之间 的差异性 。 类似地 ,

Desagulier (

20 14)根据英语近义程度副词 racier

和 pretty在 [程度副词 +形容词 ] 构式中的使用频率 , 利用聚类分析将其语义特征进行 了

可视化处理 。

简言之,聚类分析能将语言对象按照其间特征的临近性进行组合和分类 。 但如果涉及时间变

量的聚类 ,我们则不得不考虑到时间序列的问题 , 即对时间点 的聚类不仅要考虑到特征距离的远

近 ,还要考虑到聚类结果不可违背时间的先后顺序 。Grie s &H

il

pert (2008

)利用基于差异 的近邻聚

类 (variab il i t

y-basedne ig

hbor clus tering ,缩写为 VNC )方法来确定历时语料中的历时时段 。 例如

,作

者研究了英语中情态词 s/ ia ZZ 后面搭配的动词不定式 ( 6e 、/iai? 和 come )在 1 500

1900 四百

年间的历时变化 。 这类历时研究中非常重要的一个环节就是如何将四百年的时间跨度进行分段 。

在无已知信息可作为分类标准的时候 , 作者提出 的 VNC 方法就可用于历时时段的划分 。

2 . 2 多 维尺度分析

另一常用 的探索性分析方法是多维尺度分析 ,

用 以分析观察对象之间 的相似性 (或差异性 )。

72

多维尺度分析体现了降维的思想 ,可将多个特征维度借助算法去构建合适的低维空 间 ,通常为二

维或三维空间 。 这样高维空间 中 的样本间相似性 ( 或差异性 ) 可通过样本在低维空间 中 的距离反

映出来 , 即距离越大 ,相似性越小 。 此类方法在认知语言学研究 中得到 了大力推广 ,尤其是涉及语

言历时变异的研究 。

例如 ,Hi l

pert (20 1 1

)基于美国英语历史语料库 ( COHA )考察了美语中 tope 、办说 这类既可作名

词又可作动词的词汇 的 历史演变 , 以 及 expect 、 remem6er 这类谓词 所带补语的 历 时结构变化 。

Hi lper t借助多维尺度分析将多变量数据 ( mul tivariat eda ta ) 降维为双变量数据 (

bivariatedat a )从而

以动态图 (mo

ti onchar t )的形式将所关注 的语言现象的历时演变过程直观 、 形象地呈现 出 来 。 又

如 ,

Zhang(20 1 5

)关注表达“

女性”

范畴的转喻类型在汉语历史发展过程 中的历时差异 。 作者

计算出不同的“

女性”

概念在每个时段各类转喻类型的频数 ,并将“

某一时段中的某一

女性概念”

为观察样本 ,然后根据距离算法计算 出不 同样本在转喻类型分布上的距离 , 再通过多维尺度分析

降维得到一个三维空间 。 空 间中每个点代表

一个样本 ,

S卩

某一时段中 的某一女性概念

, 点 间距

离则反应了样本在转喻类型选择中 的差异性 (距离越大 ,其转喻类型分布的差异就越大 ) 。

语言研究中涉及“

降维”

思想 ,并用于可视化处理的多元探索性方法还有主成分分析 、 因子分

析 、多重对应分析等 , 由于篇幅关系 ,在此不一一介绍 。 但我们需补充一点 ,探索性统计分析可与统

计显著性检验结合使用 ,前者侧重于发现数据中 的结构 、特征 以及数据间 的关联

,而后者侧重对统

计假设的检验 。 在实际数据分析 中 ,我们可以先利用探索性统计方法对整体数据进行初步分析来

发现数据中存在的规律 ,从而在进

步选择统计分析方法之前对数据结构有所了解 。 然而, 由 于

此类方法不涉及假设验证 ,无法得知数据规律是否具有统计学意义上的显著性 , 因此更多地用于

数据的可视化处理 。

3 ? 验证性统计分析(confirmator

yanal

ysi s

聚类分析 、多维尺度分析等探索性统计方法可初步揭示多变量情况下数据的主要特征 ,但想

要进一步准确量化语言中存在的差异 ,确定影响变异的语内或语外因素 ,

就需要借助验证性统计

方法 , 比如回归建模。 回归建模的主要 目 标是通过确立 因变量和 自变量之间 的定量关系来判 断 自

变量是否对因变量产生影响 ,从而利用所求得的 回归方程进行控制和预测 。

根据因变量的分布特 征 ,认知语言学研究 中常用 的 回 归模型 可分 为三类 : 线性 回 归 (

linear

regressi on ) 、逻辑斯蒂 回归 ( log

i s ti cre

gress i on )

? 以及泊松 回归 (Po issonregres si on ) 。 当 因变量为连

续性数值变量 ( numericvariable )时 , 如反应时等 ,我们选用线性 回 归模型 ;

泊松回归则适用于 因变

量是泊松分布 的情况 ,如某语言现象出现的频率 (参见 Zhang ,Forthcoming ) ;当因变量为二元分布 ,

如两类语言形式的选择时 ,应选择逻辑斯蒂 回归 。

认知语言学研究的对象很多时候并不是数值或频率 ,而是分类变量 ( ca tego

ric alvariable ) ,其变

量值是定性的 、互不相容的类别或属性。 同时 ,认知语言学涉及很多

二选一”

的交替研究 , 比如荷

兰语中 doe/! 和 致使构式②之间的选择 (Spee

lman&Geeraerts 2009) ,英语母语和二语习得者情

态动词 may和 的选择 (

Grie s & Deshors20 14) 等 。 因此

,逻辑斯蒂 回归分析尤为重要 。 鉴于篇

幅 ,以下只简略介绍逻辑斯蒂回 归在认知语言学中 的应用 。

① 标准的逻辑斯蒂分析其因变量必须是二分类 , 当因 变量为多分类 的时候 , 我 们则需要采用多元逻辑斯蒂回归 分析

(mu lt i variate lo

gistic re

gressionan alys is ) ( 如Ar

ppe

2 008

)〇

② 荷兰语中致使构式存在两个致使助动词可供选择 ,即 和 前者类似英语中4 的致使用法 ,后者类似 k

73

3 . 1 逻辑斯蒂回归

逻辑斯蒂回归属于广义线性模型 ( general izedl inearmodel ) 的一种 ,其因变量为两分类变量 , 即

是”

或“

否”

,其 自变量既可以是数值变量 ,也可以是分类变量 。 比如 ,2 以

(201 1

)从“一形

多义"

( semasiological ) 的角度建立逻辑斯蒂回归模型 ,用以找出影响首都地名语义分布的 因素 。 作

者从不同方面对 目 标句进行标注 ,如首都地名的语法位置 ,谓语对主语生命度的要求 ,语料地域来

源 ,首都地名类别 ,前文出现该首都地名转喻的次数 ,

目标句在新闻中的位置等 。 用首都地名 的语

义 ( 本义 VS .转喻义 )作为 回归模型的 因变量 ,上述不同因素作为 自 变量建立逻辑斯蒂回 归模型 。

统计结果表明 :首都地名的转喻义趋于出现在主语位置 、新闻标题;前文出现该首都地名转喻义次

数越多 ,该 目标句 中首都地名就越趋于表达转喻义 ; 当然 ,不同国家的首都在本义 、转喻义分布上

也表现出差异 。 该模型的复相关系数平方 圮 值为 〇.刀

,表明数据中大约 77% 的变异可被该模型

自 变量解释 ,同时也说明以上多个自 变量对首都地名 的语义分布具有很好的预测力 。

多元回归建模的魅力不仅在于可准确计算出不同因素 ( 即主因素 )对语言现象的影响 ,同时还

可将不同因素的交互关系对于因变量的影响考虑进去 。 此外,不少研究者提倡将随机因素也加人

到回归模型之中 ,以便更好的计算各因 素对于语言现象的影响 ,这样 的模型称为混合效应模型

( mixed-

effectsmode l) (参见 Baa

yenefaZ- 2008 ) 。 目 則 ,混合效应模型也被广泛运用于认知语 曰学

研究 (如Zenneref〇/ ?20 12,2013

;&Gries20 1 2

Levsh ina〇/?20 1 4;

Gries20 1 3;Nyc

z20 1 3;

Speelmanef〇/

.Forthcoming)〇

其中 ,Levshina et(

201 3b )为考察影响荷兰语中近义致使构式(办饥 vs ./aiera 构式 )选择的语

内 、语外因素 ,将构式选择作为因变量 ,将致使者的语义分类 ,致使对象的语义分类 、句法特征 ,

语言

变体等作为固定变量 ,将结果谓语 ( effec tedpre

dic ate ) 作为随机变量 ,

建立了混合效应逻辑斯蒂 回

归模型 。 计算结果表明 ,构式选择是多种形式 、语境 、概念因素交互作用的结果 。 又如 ,2 ‘

(Forthcoming) 从

“一

■义多形”

( onomas iolog

i ca l)的角度 ,

探讨概念“

政府”

在何时 由字面形式 ( 美国

政府 、法国政府”

等 ) 表达 ,何时由地名转喻形式 (

华盛顿 、 白宫”

等 )表达 。 作者将语义 、句法 、语

篇 、地域等多个因素作为 回归模型 中的 固定变量 ,称名形式的选择 (字面形式 vs? 地名转喻 )则作为

因变量 。 同时 ,考虑到谓语动词 自 身可能对于两类表达的选择有所偏好 , 因此 ,

为了控制谓语动词

对于称名选择的影响 ,作者将谓语动词 (如“

是 、宣布 、采取 、制定”

等 )作为随机变量 ,建立了混合效

应逻辑斯蒂回 归模型 。 结果表明 ,除 了一些主因素 ( 如 目 标句在语篇中的位置 )对于称名选择有所

影响 以外 ,更为复杂的是 ,政府类别 因素和体裁因素 ( 即网络论坛 vs

? 新闻报纸 ) 之间也存在交互关

系 。

在一般回 归模型中 引入随机变量这一方法 ,可消 除变量本身具有的异质性对整体模型的影

响,从而提高模型的精度 。 但 由于加人了随机变量 ,混合效应模型的复相关系数平方 R

值解读意

义不大 ,不可误读为 自变量可解释的差异比例 。 目 前而言 ,尚未有统一 的算法可计算出模型所解

释的差异有多大比例是由 固定变量解释 ,多大比例是由 随机变量解释 。 因此 , 在汇报混合效应模

型的统计量时 ,我们应该选择汇报模型的 C 值和 Somers

D 值 ,这两个统计量的值 (最大值为 1 )越

高 ,表明模型的预测能力越强 。

3 . 2 多元回 归 与探索性分析的 结合

此外 ,多元回 归可用来验证探索性分析所得出 的结论 。 例如 ,Gl

yim (

201 0) 首先利用对应分析

将 动词制约的句法类型分为施事构式和谓语构式 ,之后借助逻辑斯蒂 回 归模型确认影响两

类构式选择的诸多因素 ,并对两类构式选择做 出预测 。 Desho rs&Gries ( 20 14 ) 则研究了英语母语

者 、英语学习者使用 c<wl 和 may ,以及法语 pouw ir 的差异 。 该研究首先从形态 、语义 、句法方面对 目

74

标句进行标注 ,再利用层次聚类分析对 目标句进行探索性分析 ,得 出初步结论。 然后 ,作者建立了

逻辑斯蒂回归模型用以进一步验证聚类分析的结果 ,并找 出影响母语者和二语者 和 _选词

差异的具体形态 、句法 、语义因素 。

综上所述 ,在定量研究中 ,理想状态便是像上述研究一样

,将探索性分析的可视化结果再用回

归建模的统计方法加以验证 。 换言之 ,探索性方法有助于研究者发现语言变异 ,其可视化功能使

语言变异一 目 了然 ;验证性统计方法则可指出所发现的变异多大程度上具有统计学显著意义 , 以

及受到哪些因素的影响 。

回归建模是一个复杂的过程 ,

研究者必须按照建模步骤 ,谨慎对待模型的选择 、诊断 、验证 ,才能

建立相对理想的模型。 比如 ,线性回归模型建立后需要诊断模型的残差 ( residual )是否满足独立性 、等

方差性 ( equalvariance ) 、正态性

;泊松回归模型则需要诊断是否存在偏大离差 ( overdispereion )问题 ,等

等 。 此外 ,在建模过程中 ,

对于缺失值 ( 111188〗 11§ (1313 ) 、多重共线性 ( 11 1

1110 -

〇〇111116311 1)0 、过度拟合现象

( overfitting) 、极端值( outlier) 的识别和处理也须多加注意 。

4 . 机器学习模型 ( machinelearni

ngmode l

在此,我们简要谈及两类 常用 的机器学 习模型在认知语言学研究 中 的应用

,即 随机森林

( randomforest )模型和朴素判别学习 ( naivediscrimina tivelearning )模型 。 这两类方法十分强大 ,可

作为多元回归 的替代 。

4 . 1 随机森林

随机森林是包含多个决策树 (decisiontree ) 的分类器 ,可处理大量的输入变量 ,

给出精确的预

测 ,并在分类的时候评估变量的重要性 。 与多元 回归相 比 ,随机森林对多重共线性问题容忍性较

大,也可稳健地处理稀疏数据 ( spa

rse data ) 。

例如 ,

Tagliamon te &Baa

yen (

201 2) 以 iww/were在使用中的差异为例 ,

对比了混合效应模型和随

机森林在统计实践中的优劣性 。 文章指 出两类方法各有优势 :混合效应模型可以控制随机变量

(如语言使用 者个体等因 素 ) 对模 型 的影 响 ; 随机森林可更好地评估 因子 预测变量 ( factorial

predictor) 、连续预测变量 (

continuouspre

d ictor ) 的重要性 ,可用于具有高度多重共线性 、不平衡的数

据 。 又如 BemaischetaZ.(

20 14) 分别采用条件推断决策树 ( condi tional

inference tree )和随机森林研

究 了南亚英语和英国英语中 GIVE 与格构式交替现象 ,即双宾语构式 (九 A/

twyatooA )和介

词与格构式 atooAtoMa/

y ),结果显示条件推断决策树的分类准确率为 63 . 7%

, 而随机

森林将分类预测的准确率提高到了 64 .7% ? 。

4 . 2 朴素判别 学 习

近年来 ,朴素判别学习 也被应用到认知语言学研究之中 ( 如 Baaye

n201 1;Baayen

aZ .20 1 1;

Baayen efaZ .20 1 3 ) 。 Baa

yen

(20 1 1

) 运 用 朴 素 判别 学 习模 型 研究 了 英语与 格 交替 ( dative

a l ternat i on ) 。 该研究还 比较了朴素判别学习模型与另 外三类模型——广义线性混合效应模型 ( 即

逻辑斯蒂混合效 应模型 〉 、 基于记忆学 习 模型 (memory

basedlearn ing ) 以及支持 向量机器模型

( supportvec to rmach ines ) 。 比较结果显示 ,在分类准确性方面 ,

朴素判别学 习模型与另三类模型表

现相似 ,但朴素判别学习模型可为学习 (learn in

g ) 、分类 ( classification ) 以及语料库语言学 中的显著

共现词素分析法 (d is tinc tivec ol lexemeana l

ysis )提供一个统一的框架。 此外 ,朴素判别学习可更精

确地测量各变量的重要性 , 以及用于探索非正态分布数据中的差异 。

③ 该研究的分类基准率为 48 . 4% , 即不运用任何分类算法 , 总是选择最高频的一类或随机分类 的准确率 。

75

总体而言 , 随机森林和朴素判别学习 的应用在认知语言学研究中具有很好的前景 。 这两类方

法在已知样本中就地取材 ,抽 出训练集 ( train ing se t ) ,将余下部分作为验证集 ( val idation se t )用以预

测 。 这样就能在不涉及新样本 的情况下解决了模型验证 (mode lval ida tion

) 问题 。 值得一提的是 ,

这两类方法在提供分类精准性的 同时 ,运算量并不会显著增加 ,非常适合大数据分析 。 不过 ,随机

森林以及朴素判别学习都是非常前沿的方法 ,其技术应用还处于发展阶段 ,实际操作也还尚 未有

统一的模式,因此

,研究者在使用上述方法时更需谨慎 。

5 . 统计软件 R 简介

最后,我们对 目前认知语言学定量研究中常用的统计软件 R 做一简单介绍 。 前文提及的所有

个案研究的数据分析都是在 R 环境下完成的 。R 是一种开源 的编程语言和操作环境 , 内嵌了 多种

统计 、数据分析功能 ,也可进行 自 然语言处理 。 R

两源代码可从其网站 (http

: //www. r-

F〇ject .〇rg/

免费获得 ,也可 自 由下载多种软件包以增强其功能 。 比如 ,本文提及的 聚类分析可使用 pvd us t ( )

函数 (来 自 软件包 Ipvclus t

丨 ) 、 MDS分析可利用 i soMDS ( ) 函数 (来 自 软件包 |MASS 1)来进行操作 ;

对于多元 回 归建模 ,

R 也提供了各种 函数供选择 ,比如线性 回归 函数 lm ()Jogi s i tc 回归函数 glm

( )

(都来 自 软件包 Utats 丨 ),以及用于混合效应模型的 lme r ( ) 函数 (来 自软件包 丨

lme4 1) ;随机森林分

析可利用来 自软件包 IrandomForest

l 的随机森林函数 randomFore st ( ) 等 。 此外,

R 语言也是一款十

分强大的数据可视化软件 , 比如 , 利用其数据可视化包 l ggpl〇 t2

| 可直观地展现出数据结构 。 关于

统计软件的选择 ,尽管可说是个人偏好问题 , 但在当前认知语言学定量研究中 ,

R 语言以其开源特

征 、强大的数据分析和可视化功能 以及 良好的可扩展性受到越来越多的学者的青睐 。

6 . 结语

由于受到社会语言学对“

语言社会变异性”

的重视,以及心理语言学实证方法的影响 ,

认知语

言学的研究核心 已从论证语言 、认知机制 的普遍性 、概念性转为对“

基于使用”

的语言变异的实证

研究,其方法论也从 内省法转 向

实证 、定量

, 比如新兴的“

认知社会语言学”

研究范式 (参见

Geeraerts扣a Z. 20 1 0

Kri s tiansen&Di

rven2008; Kr

ist iansen &Geeraerts20 1 3

Putz eiaZ. 20 1 2)〇同时

语言现象通常受到多个 因 素的制约 , 简单的描述性一元统计方法在多变量数据分析上难有突破。

因此,掌握多元统计方法对于进行认知语言学研究具有十分重要的意义 。

鉴于篇幅关系 ,本文只是以例举的方法精要介绍 了几类多元统计方法适用的语言问题 ( 见表

) ,对于方法的具体操作步骤则做了省略 。 文中提及的研究在语言问题的提出和统计方法的应

用等方面都具有一定的典型性 ,感兴趣的读者可做进一步 阅读 , 以借鉴其研究方法 。 定量分析的

研究方法方兴未艾 ,希望本文能引起语言学界对它的关注

,从而在方法论上丰富认知语言学的研

究 。

表一 认知语言学 中 常 用 的 多 元统计方 法概要

类别方法适用范围/原理

im

注意事项

聚类可发现数据中的结构 、不涉及假设验证 ,

探索性倾特征以及数据间的关联 ; 无法得知数据规律

统计分析 麵尺 === 强__直观_

度分析可视化教上的显著性

76

类别方法适用范围/原理^注意事项

线性因变量为反应时 、

模型词长等测量值 T 可计算主因素 、交互因 素 缺失值 、多重共线性 、

验证性泊松对因变量的影响 ;过度拟合现象 、极端

统计分析模型可引人随机变量 ;值等都可能

逻辑斯蒂 目变量 为“

二选-

”并可对语言现紐簡测 影 响翻的效度

模型的分类变量

随机 含多个决策树的可处理大量的输人变量 ;

机器雜 分類奸展阶段 ,

学习模型 _未有统一的操作模式彳 卜系

统计分类器模型验证可不涉及新样本 ;

判别'

预测精度高 ,且运算量小

当然 ,我们在强调“

实证” “

定量”

转 向 的 同时 , 不能脱离 语言研究者 的 内 省作用 。 Gee raerts

(20 1 0 : 75 )指出在语言研究设计中 ,合理提出 研究假设 、将假设具体转化为可操作的预测条件 、对

实验分析结果的 阐释都离不开研究者 的内省 。 此外,在理论构建阶段 , 内省法提供的数据可起到

佐证作用 ;具体分析过程 中 ,语感得 出 的语料也可 对语料库语料进行补充 。 正如 Bnkr

-Szal^&

Brdar (

20 1 2:

744 )所强调的, 内 省在理论的构建和假设的提 出阶段发挥了 巨大作用 ,而理论的验证

阶段则离不开实证定量研究 。 将内省的思辨指导和定量的严格检验有机结合在一起 ,才能更好地

帮助我们进行认知语言学研究 。

参考文献 :

[ 1]A r

ppe ,A .U ni vari ate,b i varia te

,andmu

lti variatem e thod s incorpus

basedlexi cography :A studyof

syno n

ymy

[D ]

,Pub li ca tionsof theDepartmentofGe neralLi ngu i st

ics

,Un ivers

ity

of Helsi nk i,2008 .

[2

]Baayen

,R . H.Corpu sli ngu

is t icsandnaived iscrim inati vel earn ing[

J]

.Brazil ianJourna lof

AppliedLingu

is?

tic s,20 1 1

,( 1 1 ) :295

328 .

[ 3 ]Baayen

,R . H .

,Davidson

,D . J

.&D .Bates . M .M ix ed

effec ts modelingw

ithc rossedrandomeffectsforsub

jec t s

and items[

J].Journalof

MemoryandLanguage^ 2008

,(

59):390

- 4 12 .

[4 ]Baayen , R . H .

,Mi lin

,P.

,F i

l ipov i dDurdev

ic

,D .,Hendrix

,P .&M .Marell i .Anamorphous model formorpho

log

icalprocess in

ginvi sualcomp

rehens ionbasedonnaived isc riminativelearni n

g [J ]

.Psychologica lRev iew,

20 1 1, ( 1 1 8 ) :43 8 - 482 .

[ 5 ]Baayen ,R . H .

,Endresen

,A”Janda ,L”Mak arova,A . 、 &T .Ne sset .Maki n

gch oices inRuss ia n

:Prosand

consofst ati sticalmethodsforri valfo rmsLingu ist

ics

y20 1 3

,( 3 ) :25 3

- 29 1 .

[ 6 ]Brdar-Szab6

,R .&M . Brdar .Thep

roblemofd ata in thecogn

iti ve lin

gu is t

i cresearch onme

ton

ymy :A cross

li n?

gu

is tic

perspe ctive .LanguageSciences

t20 1 2

,( 34 ) :72 8

745 .

[ 7]Bemai sch

,T .

,Gries ,S .Th .&J .M ukh eijee. Thedat ivealt ernationinSouthAsi anEn

glish ( es ) :Model l in

predicto rsand

predict ingp

rototypes[ J ]

.Eng

lishWor

ld-Wide,20 14

,35 ( 1 ) :7-

3 1.

[8

]Desagu li er

,D .V

is ua l iz

ing

dis tan cesina setof nears

ynon

yms

:rath er,qu i

te,fa irl

y ,andpret t

y[C

]//

Glynn

,D . & J . Robinson .CorpusMe thods

forSeman t ics:Quant ita tive Stud

ies inPol

ysemy

andSyno nymy , Am?

sterdam&Ph iladelphia :J

ohn Benjamins

,20 1 4 . 145-

178 .

7 7

[ 9 ]Deshors,S .

&S . Th . Gries .Acase forthemultifactorialassessmentof learnerlang

uage :The usesofmayand

caninFrench-English interlanguage[ C ]//Gly

nn,D .

&J -Robinson . Corpu sMethodsforSemantics \Quanl i

tatweStudies inPolysemyandSynonymy

.Ams terdam /Philadelphia :JohnBenjamins

,20 14 . 1 78

204 .

[ 10 ]Divjak

,D .St ructuring

theLexicon :AClusteredModelforNear-

synonymy[M ]

. Berlin/NewYork

:Mou ton de

Gruyter

,20 10 .

[ 1 1]Div

jak

,D.& S .

H i .Gries .Ways of try

ing inRussian :Clustering

behavioralprof iles[

J]

. Corp us Lingids ties and

LinguisticTheory ,2006 ,2 ( 1 ): 23-

60 .

[ 12 ]Dogruftz

,A .S .

,&S .Th . Gries . Spreadof on

goi ng

changes in an imm igrant lan

guage [

J]

.Review o

Cognitive

Linguist ics ,20 12

,10 ( 2 ) :

40 1- 426 .

[ 1 3 ]Geeraerts

,D .Thedoctor andthesemant

ician

[ C ]//Gl

ynn

,D.&K . Fi scher . QuantitativeMetfwds inCogn i?

tiveSemantics:Corpus

-DrivenApproaches

.Berlin/NewYork :Mou tondeGruj

rter

,201 0 . 63

78 .

[ 14]Geeraert

s,D .

,Krist

iansen

,G .&Y. Pei rsman. AdvancesinCogni tiveSocwlinguis t

ies

[M

. Berlin/New York:

MoutondeGruyter

,20 10 .

[15 ]Gly

nn,D.Tes tin

gtheh

ypothesis .Objectivityandverificat ioninusage

-basedcogni tivesemantics [ C ]//

Glynn

,D .&K. Fischer .

QuantitativeMethods inCognitiveSemantics :Corpus-drivenApproaches.Berlin/New

Yoric;Mouton deGru

yter

, 20 10 . 239—

270 .

[ 1 6 ]Glynn

,D . &K.

Fischer .

QuantitativeMethods inCognitive Semantics :Corpus-

drivenApproaches[M

].Berl in /

NewYork :MoutondeGruyter

,201 0 .

[ 1 7 ]Gly

nn,D .& J .Robinson.Corpu

sMethodsfor

Semantics :Quant itativeStudies in PolysemyandSynonymy[

M ]

Amsterdam/Ph iladelphia:JohnBenj

amins,20 14 .

[ 1 8 ]Gries

,S . Th .

Sourcesofvariab ili ty

relevan t tothe (co

gnitive )

sociolingu

ist

,and

quantitativecorpusmethodsto

handlethem[

J]

.Journalof

Pragmaticsf201 3

,52 ( 6 ) :5

1 6 .

[1 9 ]Gries ,S

.Th .

&S . Deshors .U si ng

regressionstoex

ploredeviationsbetweencorpu sdataandastandard/tar

get

Two su^estionsCorpora ,2014

9(

1 ) :109

1 36 .

[ 20 ]Gries,S

.Th .

&M .HUpe rt .Theiden tificat ionofs ta

ges in d iachroni

cdata;Variab il it

y-basednei

^ibor clus tering

[ J ]. Corpora ,2008 ,( 3 ) ;59

8 1.

[ 2 1]Hilpert ,M . Dynami

cvisualizat ionsof l

angua

gechang

e:Mot i

onchar tsonthebas is of b i varia teandmu lt ivanate

data fromd iachroniccorpora [

J ]. Internat

ionalJournalof

CorpusLinguistics

,201 1,1 6 ( 4 ):43 5

46 1 .

[22

]Janda,L. Cogn itiveLinguistics '

,TheQuantitat

iveTurn.TheEssentialReader[ M ].Berlin ;Mou tondeGru

yter

20 1 3a.

[ 23 ] Janda,L. Quanti t

ati vemethod si ncogn

it ivel

ingui st ics . An i

n troduct ion[ C ]//Janda

,L.

Cognit ive lingu

ist ics?

TheQuantitativeTurn :TheEssentialReader .Berl in:MoutondeG ru

yter

,20 13b . 1-

32 .

[ 24 ]Janda

,L. &V .

Solovyev .

What constru ctionalp

rofi lesreveal aboutsynon

ymy

:AcasestudyofRuss ian word sfor

SADNESSandHAPPINESS[ J ]. Cogni tiveUnguistws

,2009 ,(2 ) :367

393 .

[ 25 ]Krist iansen,G.

,&R . Dirven.Cogn i

ti vesocio linguis ti

cs:Rati onale

,methodsand s cope[C

]//Knst iansen

G . &R.Dirven.Cogn

it iveSociolinguist ics \LanguageVariation

tCultura lModels,SocialSystems .Berlin

:De

GruyterMouton

,2008 .1-

17 .

[ 26 ]Kris ti an sen,G.&D . Geeraerts . Con textsof

useinco

gni tivesociol in

gu is ti

cs[ } ]

.Jourrudof

Pragmatws,201 3

( 52 ).

[27

]Levsh ina

,N . DoeWat JeNietLaten Kan :Ausage-based analy

sisofDutchcausativeconst

ructions[D ]

. Uni

versityof Leuven ,20 1 1 .

[28 ]Levsh ina

,N . Comparing c ons truct

io ns:Au sa

ge-basedanal

ys isof thecausa tiveconstructionwi th doenin Neth -

erland i

candBelgianDu tch

[J

]. Construct

ionsandFrames,20 1

2,4 ( 1

) :76

- 101 .

78

[29

]Levshina, N .

,Geeraerts

,D. &D . Speelman.Mapp i

ngcons

truct

ionalspaces :Acont ras t

iveanal

ysisof Eng lish

andDutchanalyticcausatives.

Linguistics ,20 13a,5 1 ( 4 )

;825

854.

[ 30 ]Levsh ina,N .

,Geeraerts

,D .&D .

Spee lman.Towardsa3D-

grammar :Interaction of linguis ticand extralin

guis

ticfactorsi

ntheuseof Dutchcausati ve constructions[

J ] . Journalof Pragmatics y20 13b

,( 52 ) :34

48 .

[ 3 1 ]Levsh ina,N .

,Geeraerts ,D.&D .Speelman.Dutchcausativecons tructions:Quant

ification of meaning

and

meaningof

quant

ification[

C ]//Gl

ynn

,D .& J .Robinson . CorpusMethods

forSemantics ?

.QuantUatieStudies

in PolysemyandSynonymy.Amstardam/Ph iladelphi

a:J

ohnBenjamins,20 14. 205

22 1 .

[ 32 ]Nycz ,J

.Chang ingwordsorchangingrules?Seconddialectacquis itionand

phono

log

icalrepresen tation[

J]

Journalof

Pragmatics ,201 3,(52 ):

49— 62 .

[33 ]PUtz

,M .

,Robinson

,J

.A .&M .Reif. Co

gnitivesoci ol

inguist ics

:Variat ionincogni tionandlanguage use [ J ]

Reviewof

Cognitive linguistics .

,10 ( 2 ),20 1 2 .

[ 34 ]Ruet te,T .

A^ regadng

lexical variation:Towardslarge

-scalelexical lectometr

y [D ]

.PhDdisserta tion .Uni

ver?

si t

yofLe uven

, 20 1 2 .

[35

]Speelman,D .&D.Geeraerts . Causesfo rcausatives

: HiecaseofDutch4

doen*

and*

laten

C]//Sanders

T . &E. Swee lser .CausalCatego ries inDiscourseandCognition.Berlin/NewYoik:MoutondeGruy ter

,2009 .

173-

204 .

[36

]Speelman

,D .

,Heylen

,K .&D .Geeraerts .Mixed Modelsand ModemMultivariateMethodsinLinguistics [C

].

The Springer Press,Forthcom ing.

[ 37 ]Tagliamon te

,S .&H . Baa

yen

. Models,f

orestsand tree si nYorkEnglish :Was/werevariat

ionasa case stud

forstatisticalp

ractice[ J ]

.LanguageVar

iation and Change

9201 2,24 ( 2 ) :

1 35-

178.

[38

]Zenner

,E .

,Sp

ee lman,D . &D. Geerae rts .Co

gnit iveSoci olinguisticsmeetsloanword research :

Measuring vari?

ationinthesuccessof anglicismsi

nDu tch[ J ].Cognit

iveLinguistics ,20 1 2

,23 ( 4 ) :749

792 .

[39 ]Zenner

,E .

,Speelman

,D .&D .Geeraerts.Macroandmicroper

spectivesonthed istributionofEnglishin

Dutch .Aquant itativeusage-basedanal

ysisof

job ads

J]

.Linguistics ,

20 13, 5 1 (5 ) :101 9

1064 .

[ 40 ]Zhang ,W.VariationinMetonymy-

,Cross-

linguistic,His toricalandSocud

lectal Perspectives [ M].Berl in/New

York :MoutondeGruyter

,Forthcoming .

[4 1

]Zhang ,W.

,Geeraerts

,D .&D .Speelman .V

isual

iz

ing

onoma siolog

icalchange :

Diachron i

cvariationinmet

onym

icp

atterns forWOMANinChinese[ J ]. Cogni tive Ling

uist ics,20 15

, 26 ( 2 ) :289-

330 .

[ 42 ]Zhang , W.

f Speelman

, D .&D . Geeraerts .Variatio nin the(

non)meton

ymiccapi ta

lnames inMainl

andChi?

neseand TaiwanChinese [

J].Metaphorand theSocialWo rld

,20 1 1,1 ( 1 ) ;90

1 12 .

[43

]Zhan

g ,W.

,Speelman

,D .&D .Geeraerts .(Non )me ton

ymicexpressionsforGOVERNMENTinChinese

:A

mixed-

effectslogist ic reg

ressionanaly

sis[ C ]//Speelman

,D .

,Heylen ,K .&Geeraer ts . MixedModelsand

Modem MidtivaricUeMethods inLinguist ics .TheSpr

ii^er Press

,For thcoming.

基金项 目 : 教育 部人 文社科青年基金项 目“

基于使用 的 转喻变 异统计建 模及可视化研 究”

( 1 5YJC740 136 )、上

海市浦江人才计 划“

基于 多语种语料库的 转喻 变异 多变 量研 究"

( 14PJC095 ) 、上 海市 教育 委 员会 与 上海

市教 育发展基金会晨光计划“ ‘

一形 多 义

与‘一 义 多形

视角 下 的 转喻 变异定 量研 究”

( 13CG32 ) 、上海

外 国语 大学校级一般科研项 目 (KX 17 1 3 18 ) 的 阶 段 性成果 。

收稿 日期 :2014

1 0-

28

作者简介 : 张炜 炜 ( 1 983 -

),女 ,

乐 山人, 博 士 ,

助 理研究 员 。 研 究方 向 :认 知语言 学 、 语料 库语 言学 和词 汇语

义学 。

刘念 ( Nian Lhi,

1982 -

) , 女 , 宜 昌人 , 博士 ,助理教授 。 研究 方 向 : 认知语 言学和心 理语言 学 。

79