Heaps定律在中英文文本中的统计验证与

更新时间:2024-02-24 作者:用户投稿原创标记本站原创 点赞:14013 浏览:58978

一、Heaps定律

Heaps定律(Heaps’ Law)是一个语言学中词汇增长的经验法则,它描述的是一个由各种词汇组成的,不断生成的文本或文本集合中词汇所占的比例.Heaps定律可以用公式表示为,其中,表示文本长度为s时,文本中的词汇量.c和θ是经验系数.在英语语言环境下,c通常在10到100的范围内,θ一般在0.4到0.6的范围内.Heaps定律描绘的是,随着文本长度的增加,文本不断地生成,文本词汇量的增加率随之边际递减.Heaps定律已广泛地应用到了语言学、经济学、社会学、计算机科学、生物学、地理学乃至整个生产应用中.

我们在某种语言的背景中来讨论,随着文本逐渐的加入这种语言的“词汇库”,该词汇库中的词汇量应该随之增加.但由于新加入的文本有很多是词汇的重复使用,所以词汇库中词汇的增加速度是低于文本长度的增加速度的.一种情况是被创造出来的新词汇.例如,随着互联网络越来越多的被我们所使用,就由网络生成了许多语言,被别人接纳和使用,诸如“杯具”和“给力”等词汇.这种词汇会被人们接受和使用,但其生存周期往往相对较短.

二、Heaps定律在中英文文本中的验证

本文使用C语言和R语言来对文本进行处理和统计.考察文本中词汇量随着文本长度的增加的变化规律.具体地说,就是用C语言对统计文本进行分析处理并输出统计结果到文本文件,用R语言来读取该文本文件从而对分析结果统计并作图.

下面我们对英文文本《Relativity the especial and general theory》和中文文本《江南小镇》中Heaps定律的经验法则成立的情况进行统计验证.

中文语言与英文语言就很大的不同.中文语言文本在统计验证时会遇到的一个最大的问题就是:中文语言词汇的切分.一方面,英文文本的词汇由空格来区分,每个空格就是一个单独的词.而中文文本只有句子之间用标点符号分割.另一方面,中文文本中有字和词的区别.例如,“是”、“的”和“我”就是单独的字,而“学校”、“运动”属于词,甚至还有四字成语,英文语言则没有这种区别.虽然目前也有诸如中科院计算所ICTCLAS汉语词法分析系统等软件,但其智能度不高,实际使用起来往往还需要进行大量的人工复查工作,对中文文本的处理耗时较高.所以在借助计算机对文本进行统计分析的情况下,多数研究者都会使用英文来进行处理,而避开中文.

为了对我们常用的中文语言也进行一番Heaps定律的验证,本文特别选取了一篇余秋雨的散文《江南小镇》作为中文样本.经过统计这篇文章共9,334个字,5,515个词,2,272个词汇.使用的是人工分词的方法,分词准确度较高.统计结果如表格1所示:

可以看出,对Heaps定律统计验证的结果还是成功的,各文本的词汇量在图上不同程度的呈现出随文本长度的增加,其增长速度边际递减.从《江南小镇》样本的统计结果图上看去,曲线有明显的弯曲,但弯曲程度相对较小,似乎Heaps定律对中文的适用性不如英文,为此我们对这两个文本进一步运用最小二乘法回归分析来进行定量分析.

三、中文和英文文本Heaps定律最小二乘法回归分析

本节运用统计学中回归分析的方法对Heaps定律文本长度 与词汇量 的关系进行定量的分析.我们以上一章中的英文文本《广义狭义相对论》和《江南小镇》为分析对象,分别进行最小二乘法线性回归拟合.

由Heaps定律,对其两边去对数,转化为线性回归模型:

,

其中,,θ是未知参数,θ是回归系数,是不可控制的随机误差.取置信水平,回归分析结果如图表1和图表2所示,并且都能够通过检测设检验.

四、中文文本与英文文本回归分析结果的比较

在上一节的结果中,我们对中文《江南小镇》的统计结果进行了直观上的解释,认为:(1)相对英文文本长度比较而言,我们5515的中文文本长度有可能不足以体现出Heaps定律;(2)似乎Heaps定律对中文的适用性不如英文;(3)中文样本的平均新词进入率高于英样本.


但从本节的回归分析结果来看,中文文本对Heaps定律的拟合程度之优超出我们的想象,针对本章统计的两篇中英文样本,对比列表如下.

通过对比可知,本文涉及的两个样本,虽然英文样本的拟合程度很好,而中文样本在各统计值上的拟合都显得更加完美.对于上一节结尾的直观分析,我们可以看出:(1)我们选取的较短的中文样本对Heaps定律的拟合程度比英文文本更加好;(2)Heaps定律对中文同样适用;(3)所检验的中文文本的 值确实大于英文样本.

注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文