基于美国当代英语语料库同义词辨析

更新时间:2024-02-22 作者:用户投稿原创标记本站原创 点赞:5572 浏览:17800

摘 要:英语中有大量同义词,对英语学习者来说,区分有难度,而对区分同义词的研究涉及较少.利用语料库中的语料来自真实语境以及其数据可客观反映语言现象等特点,本研究拟通过美国当代英语语料库,基于数据,从词语使用语域,共现搭配两个方面对同义词进一步区分.以一组同义词gloomy和sad为例,发现这组同义词在不同的语域中分布频率不同,具有各自的语域分布倾向;在共现搭配中,该组同义词的常用搭配不同,呈现出不同的语义,从而丰富了同义词语的含义.研究还发现基于语料库对于同义词辨析非常有效.

关 键 词:同义词;美国当代语料库;语域;共现搭配

一、引言

同义词的英语为synonym,源自希腊语,是指意思相同但形式不同的两个或以上的词语.英语中包含了许多同义词.据统计,“英语语言中同义词、近义词的数量约占总词汇量的60%以上”.(贺晓东,2003)然而,尽管英语中同义词众多,意义完全一致的词却十分少,绝大多数的同义词是“彼此又有细微的语义差别或具有不同文体色彩的词”.(蒋磊,1998)而同义词辨析是英语学习的难点,亟待解决.

目前,对同义词的辨析主要通过语义学视角,语体学视角和语料库语言学视角.(王家义,2011)“语料库突出特点是所包含的语言真实,数据量庞大.”(梁茂成,李文中,许家金,2011)语料库中的例句均来自真实语境,并且数量多,涵盖面广,并通过一定的统计手段,可以真实客观的反映语言现象.而语料库语言学随着计算机技术的发展和应用而兴起,以实证和数据为基础,为同义词的辨析提供了新的研究思路.本文将沿着语言库语言学的研究方法,以同义词组gloomy和sad为例,辨析其语义差别.

本研究采用的是美国当代英语语料库(以下简称COCA),其词汇量高达3.6亿.它是美国最新当代英语语料库,也是当今世界最大的英语平衡语料库,为使用者提供充足的自然语言文本,保证了本研究的真实可靠.

二、研究方法

“语言中的概率信息是其最本质的重要信息.”(卫乃兴,2011)本研究是基于语料库对同义词进行辨析的研究,将着重分析同义词的概率等所蕴含的信息.结合梁茂成等在《语料库应用教程》中对语料库词语辨析方法的概括,“对语料库进行分析,得到各种词语搭配和结构在语料库中的出现频率、使用场合、语体等等信息”.(梁茂成,李文中,许家金,2011)综合本研究的研究重点及语料库的研究方法,将从语域,搭配这两个方面对同义词进行辨析.

(一)语域分析

1.理论基础.“以韩礼德为代表的系统――功能学派特别强调语境,即语言发生的环境.他们认为语言在一定的语境中发生,并在一定的语境中被理解或得到解释.”(张德禄,1987)语境是指词语的情境使用范围,即语域.不同的语域具有不同的特点.分析同义词不同语域分布情况,可以得出词语的语域倾向.2.COCA语料分析.在COCA语料库中,由五个子语料库组成,他们分别是口语、小说、杂志、报纸、学术期刊.口语中的语料主要来自于美国的广播公司和有线电视,广播和电视作为公共媒体,其语言有既大众化又有一定的规范性.小说的语言一般由于其体裁的多样性,其使用的语境较为复杂.杂志作为公开发行物,其语言一般较为正式,同时又通俗易懂.学术期刊因为其专业性,一般要求语言精确,客观,简明.3.具体分析方法.在分析目标词的使用语境时,通过COCA语料库检索,可以得到目标词在不同语域的分布情况.例如,在语料库出输入outraged一词,用图表(chart)功能显示,可以得到其在不同语域的分布情况,如图1所示.Section表示不同语域,All表示所有领域,SpokenFictionMagazineNewspaperAcademic分别表示口语,小说,流行杂志,报纸,学术期刊.FREQ是frequency的缩写,代表出现的次数,为实际频数,PERMIL代表permillion,即表示目标词在该语料库每一百万词中出现的次数,即标准化的频数.实际频数因为来自于不同的语料库,直接比较其大小没有多少意义,一般比较标准化的频数,在此项研究中,主要比较PERMIL这行的数据.Seeallsub-sectionsatonce是该语料库的一个功能,表示可以同时看到所有的子语料库.


图1outraged在COCA中不同语域分布情况

(二)共现搭配词分析

1.理论依据.“语料库的研究表明,词项的搭配行为显示出一定的语义趋向:一定的词项会习惯性地吸引某一类具有相同语义特点的词项,构成搭配.”(卫乃兴,2002)同义词不同的搭配,可以看出同义词不同的语义趋向,呈现出某种特征.运用语料库进行检索,需要考虑的问题包括选取多大范围作为词语的语境,以何标准筛选出具有代表性的搭配行为.参考卫乃兴的阐述“跨距长度界定要视所研究文本题材领域(topicfield)等诸多影响词语使用特点的因素而定.一般来说,将跨距界定为一4/十4或一5/+5是适宜”.(卫乃兴,2002)“MI值(MutualInformationScore,共现信息值)是指在一个语料库现的两个单词,一个单词出现的频数能够预测或提供另一个单词出现的概率.MI值越大,说明两个词的搭配强度也越高.语料库的词语搭配研究中通常把MI值等于或大于3的词作为显著搭配词.”(金朋荪,李京徽,2011)MI值用来计算两个词之间,当一个词出现,另一个词出现的概率.如果概率越大,则说明两个词共同出现的概率也越大,当MI值大于3时,可将这两个词定义为显著搭配词.

由此可以看出,以节点词选取跨距为4,即选取节点词左边和右边4个词语作为该节点词的语境,以MI值(共现信息值)大于3来选取节点词的共现搭配词较为合适.2.具体研究方法.在分析节点词的共现搭配词时,通过检索COCA语料库,以目标词为节点词,左右跨距为4,共现频率大于10,得到检索结果.按MI值从大到小排列,并选出MI值大于3的词语作为常用搭配词,拟通过分析常用搭配词的特点,旨在分析其语义特征.具体操作为在词语(word)处输入节点词,搭配栏(Collocate)左右为四,分类(Sorting)选择相关性(relevance).三、基于COCA语料库对gloomy和sad语义差异分析

词典释义

在《柯林斯高阶英汉双解词典》中,gloomy,sad的解释分别如下:Gloomy:Ifpeoplearegloomy,theyareunhappyandhenohope;Sad:Ifyouaresad,youfeelunhappy,usuallybecausesomethinghashappenedthatyoudonotlike.根据以上解释,这两个词都含有“unhappy”的意思;而他们的细微差别是gloomy强调没有希望而使人不高兴,sad则侧重于因与人意愿不一致而引起的不高兴.词典上对词语的解释侧重在对词义的区分,而对词语的使用语境,搭配行为涉及较少.卫乃兴在其《词语学》中讲到“词汇有其规约性的搭配行为,每个词都有其典型的或最频繁共现的组合伙伴”[11](卫乃兴,2011).可见词语的搭配行为可以丰富词语意义,并且呈现出某种特征.来看该词典给出的例句:MillersgloomyaboutthefateoftheseriousplaywrychitinAmerica.I’msadthatJulie’arriageisonthevergeofsplittingup.这两个例句对词义进行了一定的阐述,但是由于词典的篇幅等原因,没有对其使用语境,搭配行为等做出区分,故对词义的解释较为模糊.针对这些问题,本研究将按照上述研究方法,对gloomy和sad语义差异进一步辨析.

结果呈现

1.gloomy和sad语域分布.从COCA中对gloomy和sad不同语域分布的检索结果(图1,图2)来看,两者语域分布有差异.

图1gloomy在COCA语料库中每百万词中的分布情况

图2sad在COCA语料库中每百万词中的分布情况

对于gloomy来说,在fiction(小说)中分布频率最高,随后依次为magazine(杂志),newspaper(报纸)

academic(学术),spoken(口语).对于sad来说,在fiction(小说)中最常见,后依次是spoken(口语),newspaper(报刊),magazine(杂志),academic(学术)中.在每百万词中,gloomy出现1617次,sad出现17674次,证明sad比gloomy使用更加广泛.在小说领域中,sad出现了6697次,而gloomy出现了677次,可以看出sad比gloomy在小说中更常用.同理,可以看出sad更加口语化,而gloomy较为正式.通过对同义词在不同语域分布情况的分析,可以作为辨析同义词的细微差别的方法之一.

2.gloomy和sad的共现搭配.由于检索结果较多,现呈现按MI值从大到小排列前10位搭配词,见图3,图4.

图3gloomy在COCA语料库中部分搭配词以及MI值

图4sad在COCA语料库中部分搭配词以及MI值

图3图4:ALL[]行表示该词语在节点词左右4个跨距内出现的总次数,ALL行表示该词在该语料库中出现的总次数,%行表示与节点词搭配占总数的百分比,MI行则表示MI值通过检索,得到gloomy的常用搭配词(MIprognosis,outlook,prediction,forecast,prospect,mood,thoughts,assesent,weather,afternoon,picture,silence,dark,despite,winter,economic,future,dark,room,共18个.其中表可变的抽象名词有9个,这9个词中间有7个单词prognosis,outlook,prediction,forecast,prospect,future,assesent,prognosis,outlook,prediction,forecast,prospect排在MI值前5位,由此可见gloomy一般与对未来的预测期望相搭配,含有未来不太明朗的意思,与词典的解释henohope相呼应.而与表具体名词picture,room,weather,winter,afternoon等搭配时,表现出这些名词被主观附上了情感色彩.

通过检索,得到sad的常用搭配词(MI值大于3)有73个,其中名词有26个,形容词34个,副词9个,动词4个.在名词中,除专业名词NoviSad(诺维萨德)表示地名外,表人文艺术具体名词有7个,包括ballad,saga,tale,song,story,chapter,mentary,表指代意义sack,clown,statistic,affairs,reminder,sounder等可以看出sad所修饰的名词多为作品或者能引发人产生这种情感的物体.其他还包括行为抽象名词:realization,ending,品质抽象名词irony,truth,fate,感情倾向名词sadness,ile,sigh.而对形容词,表悲伤的有13个,表恐怖的有4个,表孤独的2个,表疲惫的2个,可见sad周围的情感色彩为消极的.在与sad搭配的副词中,表程度7个,其中带有负面程度的副词包括unbearably,terribly,profoundly,awfully,incredibly,可见修饰sad的副词多为表程度并带有一定的负面色彩的词.就其语域分布而言,sad总体来说比gloomy使用更加广泛,相同之处是两者在fiction这一语境中的出现的频率最高,而区别是sad更加口语化;就其典型搭配而言,gloomy倾向于和表不确定性的预测性的名词搭配,而sad搭配更加多元化,涵盖具体和抽象名词,并且常和其他消极意义的形容词,副词共同出现,使整个语境带有负面色彩.

四、结语

本研究以语料库语言学辨析同义词的方法为指导,从语域和共现搭配这两个角度,以gloomy和sad为例,发现该同义词组存在细微差别,说明了以语料库语言学视角辨析同义词在实际运用中非常有效,是解决同义词辨析困难的好方法,可以运用到英语学习和英语教学之中.语料库语言学的研究方法具有较强的实践意义.在计算机技术普及和语料库不断发展的时代,可以预见语料库语言学辨析同义词的研究方法必将不断发展,推广到日常的英语学习和英语教学中,切实解决英语同义词辨析的困难.

相关论文范文