专题:作为社会科学方法的文本挖掘[范并思教授组织]

更新时间:2024-02-13 作者:用户投稿原创标记本站原创 点赞:5275 浏览:12182

组织者的话

在近年信息处理与分析相关技术领域的进展中,文本挖掘是最引人注目的领域之一.文本挖掘是一个方法群,涉及统计学、自然语言处理、信息抽取、可视化等多项信息技术.同很多新兴领域一样,文本挖掘目前并没有统一的定义,没有完全一致的方法与模型,但是,Feldman和sanger那个很笼统的定义:“可将文本挖掘大致定义为一个知识密集的过程,在此过程中用户与文档集合通过分析工具进行交互”,清晰表明了这种方法与信息分析的内在联系.

信息分析方法可广泛用于决策支持和科学研究,在社会科学问题的研究中,它也具有一般社会科学研究方法所不具备的某些方法论优势.但情报学产生至今的数十年时间里,信息分析方法一直没有成为社会科学研究的主流方法,造成这一现象的原因,除了情报学对本领域的理论与方法缺乏有效的宣传之外,信息分析方法本身的效率问题是一个关键因素.由于社会科学所需要的信息分析方法的效率不高,制约了它们大规模进入社会科学研究的应用领域.值得庆幸的是,随着计算机技术的日渐成熟,高效率的文本挖掘方法出现了.尽管文本挖掘方法本身尚未完全成熟,仍在发展过程中,它在专门领域的应用也需要情报学家根据信息分析的特点加以完善,但它作为一种优秀的社会科学研究方法的前景已经展示无疑了.


2010年,笔者承担了国家社会科学重点项目“我国图书馆核心价值体系构建研究”.考虑到我国图书馆核心价值会受到我国社会主流价值的制约,我们需要判断国际上通行的图书馆核心价值是否为我国社会主流价值体系所认同.这就需要从国际上所有已经产生的图书馆核心价值中提取核心价值文本,并将其置入我国社会核心价值体系中进行考察.由于我国社会并没有形成“社会核心价值”,我们检测定代表我国社会主流价值体系的文本,比如《人民日报》全文库或新华网,包含了我国社会的核心价值体系,而这类代表我国主流价值体系的文本必定是海量的、非结构化的,除非采用专门的方法与工具,否则无法发现这些文本中所包含的社会主流价值,也无法判断它们与图书馆核心价值的联系.

在本课题中,我们拟选择文本挖掘方法作为解决上述问题的主体方法.用文本挖掘方法从人文社会科学海量文本中挖掘其对于某些价值类命题的“认同”程度,涉及用计算机自动地从非结构文本中寻找表达情感的语义甚至微语义,这对我们而言是一个充满挑战的课题.完成本课题的前提之一,是要调研现有文本挖掘的方法和工具,研究人文社会科学领域应用文本挖掘的具体做法和成功经验,判断问题的难点并选择合适的研究路线.本组论文即是上述研究的成果.《社会科学信息分析中的文本挖掘》探讨了文本挖掘作为信息分析方法的优势所在;《人文社会科学研究中文本挖掘技术应用进展》和《文本挖掘在人文社会科学研究中的典型应用述评》调研了文本挖掘在社会科学中的应用进展,目的在于论证本课题技术路线的可行性;《文本挖掘工具述评》是为本课题选择具体工具与方法所进行的调研.希望本组论文的问世,有功于业界更好地利用包括文本挖掘在内的新的工具与方法,推动信息分析方法的进步.

华东师范大学商学院信息学系教授 范并思