对构建智能答疑系统中信息检索模式的

更新时间:2024-01-11 作者:用户投稿原创标记本站原创 点赞:31545 浏览:144927

在当前远程教育教学中,对于网络学习来说,由于学习者和教师在地理位置上的分离,缺少了教师面对面的解释和演绎,学习者必须进行自主学习.这便要求学习者从听众变成索求者,要进行深入的思考,但有时在百思不得其解时,及时有效的网络答疑模式则成了答疑解惑的重要途径.这就要求网上教学系统能够及时解答学生的疑难问题,消除学生的学习障碍.智能答疑系统的出现及普及就能从根本上解决求学者的需求,它突破了传统答疑方式的时间、空间局限,提供了高效、快速的学生与教育资源的交互,不但能支持网络教育的顺利进行,还是传统教育的有益补充.

但是如今在我们国内网上教育平台或教育网站中真正具有智能性的网上答疑系统还是比较少,大多数教育类网站的答疑系统仍然采用电子邮件、留言板、BBS、聊天室等基于网络的人际交互方式实现答疑.甚至有些教育网站根本就没有答疑系统.可见,国内大部分教育人员对网上答疑的认识还局限在传统教学中的人际交互的模式中,而没有充分的认识到当前在计算机领域中的网络技术、人工智能等先进技术能够提供给网络教学中智能答疑的强大支持.

本文主要通过以电大开放教育的电大在线学习系统为依托,对国内外智能答疑模式的研究现状进行分析,对远程教育的学习方式中智能答疑系统的重要性进行调研,构建适应开放教育网络教学中个人学习资源共享模块的初步构建.


1.学习答疑室

在学习者最初遇到学习难题的时候,便可以直接的与教授教师进行联系,在学习答疑室模式中通过给教师发动电子邮件、进入BBS和聊天室等.E-mail方式,在系统没有搜索到问题答案时,可使用“mail to<电子邮件地址>”语句实现,用户点击“发送到教师信箱”按钮,就可以完成邮件的发送,等待教师的回信解答;BBS为学生和教师、学生和学生之间提供了一个自由发言、相互学习、相互探讨、共同提高的平台.学生进入BBS页面,可以同时看到其他学生所提出的问题以及教师的解答,能够及时的更新,获取有用与自己的信息;聊天室提供了实时在线解答的功能,在聊天室里,学生与学生之间,学生与教师之间可以随意的交流.

2.自动检索答案

在不能与教授取得有效的情况下,学习者想通过自主寻求答案的方式来解决问题时,自动检索答案模块将会是一个不错的选择,它涵盖了人工智能的一些理论技术,主要有两部分来实现:问题预处理和问题答案相匹配.

1)问题预处理

对学习者以自然语言的形式提出的问题进行预处理,主要采用分词技术对问题语句进行切分处理,提出匹配所需要的关 键 词 .

答案材料是以HTML文件的格式存储的.因此首先要先把文档中的文本抽取出来,包括HTML文件的BODY中的TITLE标记的标题文本、HTML文件的头部中的以META标记的Keywords属性指定的关 键 词 序列和正文文本.对于前面两者的文本还要做特殊标记,作为在加权时的一个权值确定依据.

接下来对得到的文本序列进行初始的子串切分.也就是利用显式的切分标记将文本切分成汉字短串的序列,其中包括标点、数字、西文以及其它非汉字符号.串频统计的目的在于利用统计的方法来获得系统中的一些新词,这些词被称为临时词库,它们将与系统本身的常用词词库一起作为切分时的依据.临时词库中的词的优先级高于系统本身的常用词库的词的优先级.

统计的标准是计算各汉字短字符串的所有子串长度大于1的在全文中出现的次数,并根据子串和串频的长度对每个子串进行加权进行计算.加权函数为W等于L×F(L为子串的长度;F为子串在全文中出现的次数).权值超过给定的阈值的子串作为系统自动识别出来的词条存入临时词库中.为了快速的计算出汉字短串中各个子串在全文中出现的次数,需要将文本转换成汉字的Hash表的形式.由于微软公司自Windows 95简体中文版始,系统采用的是GBK(《汉字内码扩展规范》)代码.而在GBK代码中,采用双字节编码,总体编码范围为8140-FEFE,首字节在81-FE之间,尾字节在40-FE之间.剔除xx7F一条线,总计23940个码位.共包括21886个汉字和图形符号,其中汉字(包括部首和构件)21003个,图形符号883个.所以选择的Hash函数值就是汉字的内码的首字节.对于可能引起的Hash冲突(也就是出现了在同一区的汉字),采取链地址的方法来解决.可以定义Hash表的数据结构如下所示:

TYPE postp等于RECORD

seqno:integer,//当前的字所在的字符串排在第几个字符串

charno : integer,//当前的字在所在的字符串中的位置

next : ^postp,//当前字的下一个位置

END,

TYPE tailtp 等于 RECORD

tailbyte : 0x40..0xFE, //当前的字的内码的尾字节的值

pos : ^postp, //当前的字在全文中出现的位置列表

next : ^tailtp //指向在本文中出现的内码在同一区的汉字的有关信息

END,

TYPE hashtable 等于 RECORD

Elem : ARRAY[0x81..0xFE] OF tailtp

//全文所有的汉字的Hash表,索引值就是汉字内码的首字节.

END,

2)答案搜索匹配

根据预先建立的基于关 键 词 的索引结构,将答案快速定位,找出问题匹配度最高的答案.

搜索技术最关键的一点就是将原始文档中所有的基本元素的位置信息记录在索引库中.在汉语中,关 键 词 可选择的基本元素可以是字,也可以是词.这便形成了两种索引库结构,一种是基于字表的索引库,另一种是基于词表的索引库.字表法是将原始文档中的每个字的位置信息记录在索引库中;而词表法则是以词为单位将其位置信息记录在索引库中.词表法的全文索引库的主要部分是每个关 键 词 的词表,索引库中的词表结构如下表所示: