网络传播中汉字功能的探析

更新时间:2024-02-06 作者:用户投稿原创标记本站原创 点赞:20472 浏览:93076

网络传媒中的符号主要有两类:内容类符号和管理类符号.一般来说,内容类符号用来表达互联网传播的信息内容,包括各种文字、代码、声音、图片等;而管理类符号用来控制、识别、管理网络中的信息流转,主要由英文字母和英文键盘符号来承担.原因,当然是发明计算机的是有拼音字母文明背景的美国人.汉字在互联网的历史上主要作为内容类符号指事、状物,基本不参加网络管理.

网络身份认证与验证码

近两年来,情况有所变化,互联网上广泛使用的怎么写作:论坛、留言板(BBS)、博客(Blog)等,大量存在网络机器人(Robots,网络自动注册登录的软件)恶意注册,注册登录后发一些广告、、欺骗、语言暴力信息的现象.垃圾信息已成为令人头痛的世界性问题.例如,如果网络机器人连续在博客论坛中发表同一个内容的帖子,不久论坛的整个板块就全是单一发表的信息了,其他信息全被挤在了后面.检测设恶意发表的信息足够多,版主都删不完时,那么这个论坛基本就报废了!这在网络中被称为:恶意“灌水”.其他的商业论坛也意识到了防止恶意“灌水”的重要性,纷纷使用了一些防止恶意自动登录发帖的措施:有发帖间隔时间的限制、同一IP(网络地址)地址的发帖数限制、内容不能重复等,但是这些都不是当前的重点.由于论坛使用的是一个公用发帖表单,对发帖的客户身份进行监督、鉴定成为重点,即用“验证码”进行网络身份认证,鉴别和区分登录者是自然人还是自动登录的机器.当然,自然人也可能手工发布垃圾信息,但毕竟耗时费力,数量有限.网络机器人可以一天24小时向全世界网络自动发布信息,是公共论坛的主要敌手和防范对象.

简而言之,验证码(Captcha Decoder)就是通过符号代码把人类与计算机进行自动区分、判别的一种手段.

早期的验证码比较简单,主要是数字和字母组成的用户名和.用在BBS、论坛和网站中,用户在注册、发帖时,通过验证码验证成功后方可使用这些功能.目的是防止有人利用自动登录的机器,如专业发帖机、自动机、自动充值机等,在网站上乱发垃圾帖、广告帖.可是,道高一尺,魔高一丈,后来的网络机器人程序经过改进,可以相对简单的原形数字和字母验证码.

目前各类网站对安全问题都提出了较高的要求,传统的“用户名+”的方案难以满足复杂的外部环境需求.因此,各类网站大量采用图片“验证码”来防止有不良用心的人对网站进行“暴力”(自动反复猜测)登录,把随机生成字符信息放入图片中,防止计算机自动登录软件直接识别.具体做法是:登录采用图片验证码,它是包含无规律字符信息的图片.普通用户用肉眼就可以辨认其中的字符信息,系统在执行其它操作之前,先验证用户输入的“验证码”是否和图片上的一致.如果不一致,则直接返回到客户端,不进行余下操作.这样,通过使用恶意软件自动登录的行为(用意不善的用户用行为不合法的软件登录系统或网站,而不用人工输入和)就会被有效阻止.

但是事情的另一方面也在发生变化,为了对付验证码,“敌人”在自动登录软件中采用了文字识别技术(文字识别技术是指电脑自动识别图片中的文字,不用人的肉眼辨认.它可以被盗号者用来挂号,与验证码是矛与盾的关系.)因此“我们”必须不断改进才能防止这些软件的自动识别,改进的验证码加入了一些杂点、线条,所以较以前更加难以辨认.“我们”正在努力改进,期望在不太影响用户体验的前提下,提高安全性能.

“战争”还在继续,当前大多数网站采用的“字母+数字”图片的方法来进行验证,由于“字母+数字”数据量较少且笔形相对比较简单,还是容易被OCR(光学字符识别)软件.无奈之下,国内的网络管理者祭出了中国人看家的法宝――汉字,由于汉字数量众多且笔画复杂,再加上其它防范措施,就使汉字验证码具有较高的防能力.用汉字可以筑起一道国际互联网上的“长城”,有效抵御、过滤自动登录恶意信息.通过使用户名、和位图汉字验证码的混合认证方式,除了要求用户输入用户名和之外,还要求手工输入随机生成的随机码(动态生成图片汉字验证码),基本上防止了自动化的程序填写登录;同时限制错误登录次数和使用“扩展动态”,错误超过限制次数,即封堵欲登录者IP(网络地址)或ID(用户登录号),以降低恶意程序访问怎么写作器的频率.页面中的随机码为汉字字符,用图形显示,每个随机码对应的图形不止一种,使用文字变形, 非固定大小, 背景噪声等,以防止非法程序的分析.①

常见的字符图片验证码种类及其强度

字符图片验证码主要由数字、汉字、英文字母组成.不考虑顺序,三者能产生7种组合.即:纯数字、纯汉字、纯字母;数字+汉字、数字+字母、字母+汉字;数字+汉字+字母.

考虑到自然人用户的体验等因素,常用的字符图片验证码种类及其强度见下表②:

可以看出,随机的原形数字字符串图片验证码,验证作用几乎为零.目前常用的随机数字图片验证码,如果图片上的字符比较中规中矩,验证作用也很弱,因为数字和字母加起来一共30多个,很容易被用穷举的方法.有的网站用图片式的“随机数字+随机大写英文字母(变形)+随机干扰像素+随机位置”,整个构图有点夸张,每刷新一次,字符还会变位置,有时候出来的图片,虽然阻挡了计算机自动识别,可人眼都不易识别了,比如数字“1”和字母“l”就很难区分,有的字母大写和小写也很难区分,有些字母大幅度变形,以提高机器的识别难度.可是,人的识别难度在增加,破坏了用户体验.相比之下,汉字图片验证码就不同了,由于汉字数量众多且笔画复杂,再加上其它防范措施,就使汉字验证码天然处在防能力的高端,虽然经过旋转、缩放、干扰等处理,中国人用肉眼识别其中的验证码信息,再输入表单提交网站验证,应该没有太大的问题.

验证码的效果

现在越来越多的网站为了安全性或是防止“垃圾邮件”(spam)的侵害,采用了验证码的校验技术.验证码可以有效防止对口令的刺探和所谓的网络推广软件带来的大量的“垃圾信息”内容,目前已经被许多互联网应用接受为标准的实现方式.

一位饱受垃圾信息困扰的论坛版主写道:“一直被群发搞得我一天删除几千条评论,我这懒人也被逼急了,给论坛加装了验证码,世界终于清静了.”

另一博客的作者写道:“今天上午遭受机器人‘灌水’攻击,评论一下激增200多条,其特点是留言为全英文,其中夹杂两至三个链接.想着去论坛汇报一下的,谁知道遭遇此事的不止我一个,并且网站已经给出方案:加装新验证码,在验证码框中输入正确答案即为通过.评论或留言的内容有两个或以上链接,不给通过.日期: 2007-06-14 17:31.”


国内最大的专业论坛软件制造商:康盛创想科技于2007年7月推出了专业论坛管理软件新版本Discuz!6.0 .该版本提供强大验证码(中文、英文、Flash动画),强化了防“灌水”机制.他们表示:越来越多的论坛被“灌水机”困扰!许多论坛都成了“灌水机”软件较量的演兵场!有的站长自我解嘲:新站刚建好就日发帖(被灌水的广告帖)上百了!这正是很多站长的真实感受,论坛的人气常常会因为“灌水机”肆虐而陷入低谷!为了方便站长们对付各种“灌水机”和恶意“灌水”,Discuz!开发团队在Discuz!6.0新版本中进一步增强了验证码功能,增强的验证码功能将有三种验证方式:英文图片验证码、中文图片验证码、Flash动画验证码.其中中文图片验证码,允许站长根据自己网站的具体情况来设置验证码的复杂度.③

汉字图片验证码的发展

随着现代信息技术的蓬勃发展,拼音字母符号在某些方面已有些力不从心.汉字符号承载了中华五千年的悠久文明,汉字所蕴藏的丰富信息和科学内涵,与拼音文字相较而言,有其独特的优势.汉字的意象思维功能、图形功能等,在互联网管理中的作用已逐渐显现.汉字不是线性的,而是平面的、二维的(Two-dimensional),一个“字形”是一个二维的方块图形.一个汉字包含了比单个拼音字母更复杂的信息.英国语言学家帕默尔认为:“在中国,一如在埃及,文字不过是一种程式化了的、简化了的图画的系统.就是说,视觉符号直接表示概念,而不是通过口头的词再去表示概念这就意味着书面语言是独立于口头语言的各种变化之外的,它意味着,一个学生学了4000个左右的视觉符号(据说足够日常应用了)之后,四千年的文献就立刻展现在他面前了.汉字是中国通用的唯一交际工具,它是中国文化的脊梁.如果中国人屈从西方国家的再三要求,引进一种字母文字,充其量不过为小学生(和欧洲人)省出一两年学习时间.但是为了这点微小的收获,中国人就会失掉他们对持续了四千年的丰富的文化典籍的继承权.”④

汉字传播价值的独特性就在于它的表意性,即能够通过字形来显示它的意义.具体模式为:以具有象形特征的汉字字根为核心,通过字根的繁衍造字,通过把这些字根作为构字部件造成新字的方式,将象形示意的功能扩散到所有的汉字之中.汉字字根的最主要特征就是它的象形性,即能够从一个字的字形上直观形象地辨知到这个字的意义,传统说法称汉字为象形文字也就是从这个意义而言的.⑤

汉字的表意性使得汉字包含了比拼音字母更复杂的结构和更多的意义信息.中国人通过学习汉字,已经对常用汉字的结构和意义了然于胸.对汉字的一些变化处理,如旋转、字体变化等,基本上不会影响人工识别,而计算机识别变化过的汉字,由于计算机程序表意分析能力弱,自动识别就比较困难.正如徐德江先生所言:“低水平的工业化时代歪曲了汉字,只有高水平的信息化时代,才能揭示出蕴藏在汉字中的人类高度智慧的科学奥秘.”⑥

1.安全性问题

进一步提高提高安全性,可以采取下列办法:增加文字旋转角度;增加随机汉字字体;增加随机汉字大小;增加汉字数量;增加彩色背景等.

目前的汉字验证码只是利用了汉字的字形,以后可以进一步利用字义验证.例如,可提供汉语成语、古诗词来实现验证.图片显示“政通人□”,空格由用户来填;显示“白日依山□”,空格由用户来填.

有的网站提出了“汉字语音验证码”:显示的汉字图片带有干扰码,基本上是看不大清楚,网页附带语音模块,需要语音朗读才能准确辨认!目前速度不是很理想,有延迟,有待进一步完善.⑦

2.用户体验问题

对用于互联网信息传播管理的汉字字符进行筛选,国标字符集GB2312中的汉字不是全都要用.可以集中选择一些平时大家都认识的汉字.如果生成中文汉字验证码中有很多不认识的汉字让我们输入,对于使用拼音输入法的客户来说可不是件好事,五笔输入使用者还能勉强根据汉字的长相打出来.这方面王玉菊、鲁川先生提出的《“汉语一千字”作为通用语义符号系统的设想》可以作为一种解决方案.⑧

一些网站的验证码过多,出现了“滥用”的现象.应该给用户一个机会,超过某个次数再使用验证码,使它更趋人性化.例如,只有当垃圾评论较多的时候才启用它.

3. 使用范围问题

汉字验证码目前主要用在面向汉语网民的网站认证上,防止有人利用软件自动批量注册.汉字目前的国际化程度不高,面向英文的网站就不能用了.不过有些事情的缺点可能正是它的优点,汉字验证码在阻挡外来非汉语国家的垃圾信息应该有奇效.一些主要面向国内的论坛、社区,甚至是机关、管理部门网站都可以优先选用汉字据调查验证码.据调查,美国仍然是垃圾邮件发送大国, 2007年第三季度,超过四分之一的垃圾邮件来自美国.南韩是全球第二大垃圾邮件生产国,但只占所有垃圾邮件的

5.2%,而美国占比例的28.4%,英国排名第十,所占比例为2.4%,可见阻挡外来非汉语垃圾信息的重要性.⑨

总之,汉字在现代网络信息传媒中已从“被”表现的内容符号,进入到信息管理符号的行列.虽然只是汉字应用的一小步,对将来汉字在信息时代的发展提供了一种现实的可能性.

注释:

①褚建立等《基于Web的多重身份认证的设计与实现》, 《电脑知识与技术(学术交流)》2007年第1期

②六安网络省略/captcha/

③社区动力Discuz!省略/index.省略/demo/yuyin/

⑧鲁川《汉字在信息时代和知识经济社会中的地位》,《汉字文化》2007年第4期

⑨中国互联网协会反垃圾邮件工作委员会.省略/