美国大数据专业硕士生教育的背景、现状、特色与

更新时间:2024-01-29 作者:用户投稿原创标记本站原创 点赞:19988 浏览:85418

摘 要:围绕大数据的开发和应用,美国政府在政策上积极鼓励各大学开展跨学科的大数据专业硕士研究生教育,以培养下一代数据科学家和工程师,企业和研究机构也在积极配合推动.美国目前有超过四十多所大学开设了大数据专业硕士研究生课程,其中有二十多所知名大学的课程内容值得仔细研究,经过深入分析这些课程网站信息,总结出美国大数据专业硕士研究生课程的一些特点.文章还介绍了美国专家学者关于大数据的最新观点,以及美国各大学大数据专业硕士研究生课程设置内容,结合中国大数据专业硕士研究生教育现状等几个方面的问题进行研究,从而为中国的大数据专业硕士教育提供非常有价值的参考.

关 键 词:美国大数据硕士研究生课程数据分析商业数据分析研究生教育

中图分类号:G250.252文献标识码:A文章编号:1003-6938(2014)02-0048-09

AbstractAsthedevelopmentandapplicationofbigdataincreases,theU.S.governmenthasactivelyencourageduniversitiesinpolicytocarryoninterdisciplinarygraduateprogramstotrainthenextgenerationofdatascientistsandengineers.Companiesandresearchinstitutionsarealsoactivelycooperatingtopromotesuchprograms.IntheUnitedStates,morethanfortyuniversitieshestartedtheirMaster'sProgramsinBigDataAnalytics;therearecurrentlyovertwentygreatProgramsailableattheseuniversities,allofwhichdeservecarefulresearching.Afterin-depthanalysisofthesePrograms'websites,sharingtheviewofAmericanexpertsonbigdatawillprovidealuablereferencefortheChineseMaster'sProgramsinBigDataAnalytic

KeywordsTheUnitedStates;BigData;Master'sPrograms;datascience;businessanalytics;graduateprogram

1背景

2009年IBM首次提出“智慧星球”概念,大数据的开发和应用受到人们关注,为了弥补大数据相关人才的缺口与技能的缺乏,IBM目前已经与世界超过一千所大学在大数据和分析方面开展合作[1],IBM赋予大数据“Datasvy.Insightdriven.”的内涵,中文可以意译为“领悟数据,提升见识,洞察秋毫,驱动优化”,这四个英文单词已成为各美国大学大数据与分析专业的课程描述中使用频率非常高的词汇.目前,在大数据开发与应用方面企业是主力军,几家著名互联网公司成功地将其产品和怎么写作与大数据和数据分析结合,成为业界典范和研究对象.伴随着企业对大数据的开发和应用的深入,对相关人才产生需求,一批知名企业开设了自己的大数据研究中心,与大学开展合作,催生了大学大数据专业教育.

1.1美国政府的“大数据研究与开发计划”直接推动

2012年3月29日,美国总统奥巴马宣布启动“大数据研究与开发计划”(BigDataResearchandDevelopmentInitiative)[2],旨在提高从海量数字数据中获取知识和观点的能力,从而加快科学与工程发现的步伐,加强美国的国家安全,实现教育与学习的变革.对于未来大数据人才的缺乏,美国国家科学基金会正在实施一项全面的长期战略,包括从数据中获取知识的新方法、管理数据的基础设施、教育和队伍建设的新途径,尤其是:(1)鼓励科研院校开展跨学科的研究生课程,以培养下一代数据科学家和工程师;(2)向加州大学伯克利分校提供1,000万美元的资助,将机器学习、云计算、众包三种方法整合起来,用于将数据转变为信息等与教育行业有关的六条措施.在此计划背景下,美国有数十所大学纷纷开办了大数据及其分析等相关专业的硕士研究生课程.

1.2政府部门和研究机构对未来大数据人才缺口的预测

2011年麦肯锡全球研究所(MGI)发布的《大数据:下一个创新,竞争和生产力前沿》(后简称为《大数据》)[3]非常具有影响力,该报告讨论了大数据给商业和经济发展带来的新的可能性,并预测,至2018年美国需要44至49万大数据深入分析人才,存在14万至19万缺口;需要400万名具备基于大数据分析而且能熟练并进行决策的经理和分析师,这一类人才缺口在2018年将达到150万人,《大数据》报告建议要解决未来人才缺口,需要加快扩大专业教育和职业培训,以及引进海外人才.根据美国劳工局2014年1月最新的统计数据,2012年市场雇用了718,700名具有管理分析技能的专业人员,平均年薪是78,600美元,2022年市场将需要852,500名这方面的专业技术人员,未来八年将有19%的需求增长[4].这些报告中提及的未来大数据相关人才缺口的数据,在美国各大学大数据相关专业的硕士研究生课程描述中被频频引用.

1.3对大数据人才知识结构与综合能力的讨论在大数据分析和应用中的各种数据与决策模型需要被不断地测试和优化,同时,更需要相应人员高质量的计划和执行力,因此,对大数据人才的知识结构与综合能力提出了很高的要求.除了大数据相关书籍外,几位知名学者和专家在美国主流媒体上发表的文章对大数据相关专业的开设和发展起了推波助澜的作用.例如:2012年10月托马斯达文波特[5](ThomasDenport)和帕蒂尔(D.J.Patil)在《哈佛商业评论(HarvardBusinessReview)》杂志上发表的《数据科学家:21世纪最受欢迎的职业(DataScientist:TheSexiestJobofthe21stCentury)》[6]文章,指出大数据科学家应该具备的基本知识结构与综合能力:沉浸在大数据中时能有价值发现;会编写程序代码;充满好奇心;具备数据分析和交流沟通能力等.还有文章对数据科学家的知识结构与综合能力提出看法[7]:要成为大数据科学家,学生仅具备良好的数学、统计学和计算机科学等专业知识还不够,还要具备其他专业领域较深的知识背景,例如:生物或物理专业领域知识,最重要的是要有创造故事的能力(abilitytocreatenarrative-tocreatestorytelling),数据是冰冷的,强调只有专业人才能使数据有生命有利用价值.对大数据及相关人才应具备知识结构与综合能力的广泛研究讨论,给美国大数据相关专业的开设提供了非常有价值的参考.

2美国大数据相关专业硕士研究生课程的开设情况

据不完全统计全世界有近170所大学开设了大数据相关专业[8],其中约150所大学开设了硕士研究生以上的学位课程.还有资料显示,美国有超过60所大学开设了大数据相关专业[9],在欧洲有30多所大学,其中英国有13所,占了近一半,中国境内有2所,分别是香港中文大学的数据科学与商业统计(DataScience&BusinessStatistics)硕士课程和纽约大学上海分校的商业数据分析科学(MasterofScienceinBusinessAnalytics)硕士课程.

美国大学开设大数据与数据分析相关专业的硕士研究生课程的确切数字我们没有查到的正式统计,但一些研究机构或学者在自己的研究网站上进行收集统计并予以公布,例如:北卡罗莱纳州立大学(NorthCarolinaStateUniversity)高级数据分析研究院(InstituteforAdvancedAnalytics)[10]的统计资料较为全面可靠,他们将全美的大数据分析硕士学位课程按三个类型进行统计,即:数据分析科学硕士学位课程(MSA,MasterofScienceinAnalytics)有14所大学,共性是属新开发的跨学科课程,将应用数学、统计学、计算机科学,以及各种商业学科诸如营销、财务等融合在一起,即使一些学位使用预测分析(PredictiveAnalytics)或数据分析(DataAnalytics)冠名其课程内容也大致相同;商业数据分析硕士学位课程(MSBA,MasterofScienceinBusinessAnalytics)有17所大学,其特点基本上是由各大学商学院新开设或改名而来的,也会有与其他学院联合办学的情况,和MSA类似面向技术的课程稍少一些,但也并不意味着MSBA就完全偏向商科;属其他学科的硕士学位但主修方向是数据分析(OtherM.S.Programs,AnalyticsTracksandConcentrations)的有14所,常冠以数据科学(DataScience)这个名称,一般开设在商学院以外的学院,将数据分析课程与其他学科结合的硕士学位,还有的情况是将原有的旧专业改为数据分析专业,有时还可能沿用原有的专业名称,目标是从庞大数量与种类的数据中去获得能有效沟通的可执行见解.这45所大学相对集中在美国的东部与北部区域[11].

2.1本文分析研究对象

在广泛收集相关资料全面分析后发现,一些较少数量、较窄范围的统计分析名录受到各大学的普遍关注和认可.2013年1月7日道格汉斯肯(DougHenschen)在《大数据分析硕士学位课程之排名前20(BigDataAnalyticsMastersDegrees:20TopPrograms)》[12]文章中详细介绍了北美地区20所大学的大数据分析专业的情况,虽然作者强调只是收录不涉及排名,但因为有一定影响力,许多大学以被列入此名录为荣.同样重要的一个排行名录发表在一个叫DegreeProspects,LLC团队开办的名为mastersindatascience的网站上,这个网站专门帮助大数据专业的学生解决各种专业知识和学习问题,该教育怎么写作科研团队最新收集的《全美23所知名大学数据科学硕士课程(23GreatSchoolswithMaster’sProgramsinDataScience)》[13](见表1)名录,较有代表性地罗列了全美大学中重要的数据科学硕士研究生学位课程.本文就以这23所大学的数据科学专业为主要研究对象,综合其他信息源展开分析.

2.2美国23所大学大数据专业硕士课程概况(详情见表一)

美国最早开办数据分析专业的是北卡罗莱纳州立大学.2005年6月北卡罗莱纳州立大学首次提出申请,由北卡理事会授权在2007年2月成立高级数据分析研究院(InstituteforAdvancedAnalytics,后简称为IAA),成为美国正式的第一个数据分析硕士研究生(M.S.inAnalytics)学位授予单位.著名的决策支持大型集成信息系统SAS(StatisticsAnalysisSystem)早期时段(1966~1976年)就是由北卡罗来纳大学开发的,IAA与SAS保持的密切合作成为其办学的特色优势.在这23个知名的数据分析科学专业中,有11个开设在商学院,绝大多数称为商业数据分析硕士(MasterofScienceinBusinessAnalytics);有6个开设在工学院,以计算机或工程学院为主,多数是计算机科学硕士学位主修(Concentration)数据分析方向;设在管理学院的有4个,多数为商业管理硕士学位主修数据分析方向;其余2个分别由专设的数据分析研究所和研究生院开办.除了专业课程外,许多大学还成立有专门的大数据研究所配合教研活动,例如:哥伦比亚大学的数据科学研究所(InstituteforDataSciences)、哈佛的应用计算科学研究所(InstituteforAppliedComputationalScience)、加州大学伯克利分校的算法机器与人实验室(AMPLab)等等.2.3美国23所大学数据科学专业硕士课程设置特点

2.3.1入学要求、学制、课程持续时间、学分和学费方面的情况

各大学对报考学生的数学和计算机知识结构都有较为统一的明确要求,诸如工程、计算机科学、数学、信息技术等专业的学士,最理想的是商业知识和数据分析技能都具备的学生.例如:田纳西大学(UniversityofTennessee)要求学生具备数学和计算机背景知识;不具备相关知识的会被要求补齐相关课程学分,宾利大学(BentleyUniversity)要求学生在进入核心阶段前要完成经济学、统计学和市场营销的学分.德雷塞尔大学(DrexelUniversity)的课程是针对那些有兴趣于定量方法、通过数据分析探索和揭示内在关系、利用数据来解决商业问题,希望提升能力或从事商业分析的职业人,所以提出有工作经验的学生会有较强的入学竞争力.普杜大学(PurdueUniversity)将传统商业咨询与数据分析结合,即利用集成的分析方法和现代信息技术来生成商业情报和解决特定行业的问题,因此要求入学学生具有很强的分析、量化、团队领导、组织和沟通能力.西北大学(NorthwesternUniversity)则明确提出将班级人数控制在23人,并集中个人指导,有机会形成良好的同学关系,有助于将这种关系超越学术带到工作关系中去.纽约大学(NewYorkUniversity)在6国家的9个城市有分校,要求学生有两个学习单元可以在纽约以外分校完成,其他的三个须在纽约大学本部完成.加州大学伯克利分校开设在线网络教学,但也要求学生在校园有4-5天的体验.学制有全日制(FullTime)、在职教育(PartTime)和网络教育(Online)三种,所有23所大学都提供全日制课程,其中有12所大学同时提供在职教育,8所大学同时提供网络教育.学制时长为1至2年,最短的为期9个月有3所大学,近11所大学须时2年.需要修满的学分多数在30个以上,最高的德保罗大学(DePaulUniversity)需要52个学分.学费普遍在4万以上,最贵是麻省理工的92,827万美元.

2.3.2各大学充分利用校内的资源优势来开展教学

北卡罗莱那州立大学是最早获得数据分析硕士授予权的大学,号称要培养世界上最好的数据分析专业人才,《哈佛商业评论》认定该校的专业与斯坦福大学、麻省理工学院、加州大学伯克利分校、哈佛大学和卡内基梅隆大学等名校的专业齐名,历届毕业生就业率都超过90%,与SAS结成合作伙伴关系,在SAS的帮助下结合实际项目对学生进行教学,提高学生毕业后求职的竞争力,学校还鼓励学生开展四五人的团队合作,许多毕业生获得SAS产品证书.例如:全球前25大医疗计划和生物制药公司以及医药研发外包组织都在使用SAS来获得医疗效果、利润、客户行为偏好方面的战略洞察,北卡罗莱那州立大学与SAS联手开展抗癌项目,由此带来的分析智能帮助这些公司组织实现业务转型和持续增长.

哥伦比亚大学(ColumbiaUniversity)的课程自称为“大杂烩”,目标是为那些希望扩大和深化理解计算机科学的学生,研究方向非常多,诸如:计算生物学、计算机安全、计算机应用基础、应用生物信息学、欺诈检测、智能系统、感知、金融、信息检索等领域的机器学习、自然语言处理、软件系统、视觉和图形,以及网络系统等研究方向.课程特色是强调个性化,学生可选择自己需要的主修方向.

卡耐基梅隆(CarnegieMellonUniversity)大学的学生可通过iLab的实验室系统开展应用研究,获得实践知识经验.

麻省理工学院斯隆(Sloan)管理学院的MBA项目包含了一个无与伦比的深度案例研究与实时案例讨论组合、令人振奋的合作项目;整合杰出的教师授课、提供与非凡业界领袖的接触机会,利用行动学习实验室(ActionLearningLab),提供引人入胜的课程.研究方向包括企业管理、金融、创业和创新.麻省理工还配备了许多研究中心,如:数字化商业中心(CenterforDigitalBusiness)、计算机科学与人工智能实验室(ComputerScienceandArtificialIntelligenceLaboratory),以及经济学和管理科学计算研究中心(CenterforComputationalResearchinEconomicsandManagementScience),组合广泛的学习机会让学员处于令人羡慕的地位和体验中,使学生在学术、人脉、专业方面获得巨大收益.

2.3.3各大学非常重视通过与校外合作来提高学生的实际应用能力

这23所大学中有9所仅提供全日制课程,其余的大学都在提供全日制课程的同时,还提供在职教育或网络教育,特别为在职人员提供学习机会,结合学生的工作经验,可以缩短人才培养的周期,纽约大学和罗格斯大学(RutgersUniversity)将数据分析与信息管理专业列为MBA课程.

麻省理工的课程以专业、多样、严谨出名,培养领导型人才,其特色是允许学生在导师的指导下订制自己的课程,特别安排众多实践课程,注重与世界各地的行业领袖交流,例如:提供斯隆创新期计划(SIP,TheSloaneInnovationPeriod),即一周密集的经验领导学习;行动学习实验室(ActionLearningLabs)计划,即结合课堂学习和真实的商业经验的实践机会,其中在中国实验室(ChinaLab)会安排与在MBA国际班学习的中国行业领袖级企业家合作共同应对挑战;以及四周时间的独立活动期(IAP,IndependentActivitiesPeriod).

路易斯安那州立大学(LouisianaStateUniversity)的课程受SAS的赞助,故其课程是模仿北卡罗莱纳州立大学(NorthCarolinaStateUniversity)高级数据分析研究院(InstituteforAdvancedAnalytics)的课程.斯坦福大学(StanfordUniversity)所处的地理位置在硅谷使它大获益处,该校的学生被允许使用Amazon的EC2云平台做大规模计算.

宾利大学(BentleyUniversity)地处美国128号公路高科技密集带,众多高科技公司对这个课程的需求,使得宾利大学的课程实现跨越式发展.

康涅狄格大学(UniversityofConnecticut)课程建立在与通用电器(GeneralElectric)的10年伙伴关系之上,与SAS和IBM也有技术合作,毕业生在商业分析和项目管理方面展现出与现实社会紧密结合的扎实基础.

2012年旧金山大学(UniversityofSanFrancisco)的MSA(MasterofScienceinAnalytics)开始招收学生,一直与众多知名公司保持着良好关系,例如:贝宝(Paypal)、汤森路透(ThomsonReuters)、“调查猴子”(SurveyMonkey)、思科(Cisco)和摩斯拉(Mozilla)等等.

2.3.4各大学将数据分析与原有特色专业结合,开设相关领域的大数据分析课程

这23所大学开办数据分析课程还有一个特征就是,许多学校将原有的特色专业与数据分析相结合,在各自领域的基础上关注数据分析.北卡罗莱纳州立大学、德雷克塞尔大学(DrexelUniversity)、路易斯安那州立大学(LouisianaStateUniversity)将目光聚焦商业与数据分析的结合;辛辛纳提大学(UniversityofCincinnati)、田纳西大学(UniversityofTennessee)的统计与运营管理系将应用学习课程打造成为面向商业与大数据的课程.

旧金山大学(UniversityofSanFrancisco)的MSA(MasterofScienceinAnalytics)专业是由文理学院和管理学院联合提供的一个创新的跨学科课程,为与大数据有关的各种数学、计算技能与方法进行严格的训练,让学生熟练地将数据分析与战略决策关联起来,以及将分析结果在商业场景中有效沟通.

辛辛纳提大学(UniversityofCincinnati)的商业数据分析专业硕士研究生课程(MasterofScienceinBusinessAnalytics)也颇有历史渊源,前身的定量分析专业(M.S.inQuantitativeAnalysis)从1970年代就已经开始由该校的运营、商业分析与信息系统系(DepartmentofOperations,BusinessAnalytics,andInformationSystems)开办,它将自己的数据分析学位的课程解释为运营研究和应用数据统计的结合(AMasterofSciencedegreeinoperationsresearchandappliedstatistics),在商业环境中开展应用数学和计算机的应用,这独特的专业课程已经帮助毕业生在专业工作中获得回报,并在商业世界的各个角落都表现出色.

田纳西大学(UniversityofTennessee)的课程强调对商业了解的重要性,学生要学习大型商业背景下的技术技能,采用数据分析方式优化商业流程.除了提升分析技能的核心课程外,学生须在数据分析与实用统计或过程优化两个领域的结合选择其一作为主修.2013年田纳西大学打算增加更多的研究方向,包括:供应链、客户分析、医疗和金融方面的数据分析.

普渡大学(PurdueUniversity)善长于咨询业与数据分析结合,培养商业分析咨询、金融咨询与市场营销咨询方面的人才.

密歇根州立大学(MichiganStateUniversity)商业数据分析专业(MSinBusinessAnalytics)的特色是由布罗德商学院(BroadCollegeofBusiness)、工程学院(CollegeofEngineering)和自然科学学院(CollegeofNaturalScience)三院合办.

德保罗大学(DePaulUniversity)应社会对大数据科学家的各种需求,课程强调技术能力和行业实践经验,为学生在数据挖掘高级技能、多元统计、机器学习和数据库处理方面提供培训.通过各行业赞助提供的数据分析项目,学生必须完成现实中的数据分析问题研究或参与数据分析领域的实习,专业研究方向涉及计算方法(ComputationalMethods)、医疗保健(HealthCare)、酒店管理(Hospitality)和市场营销(Marketing)等.

马里兰大学(UniversityofMaryland)的课程以市场营销为目的,让学生综合全面地理解所需的数学和统计模型,以及用于分析客户数据的工具,重点在于教授学生如何利用和处理大量的数据,设计强大的分析模型,有效地帮助客户解释并帮助他们设计产品,预测营销活动的影响,更好地了解客户,史密斯商学院(RobertH.SmithSchoolofBusiness)是十个研究中心的汇集地,其中包括著名的复杂商业研究中心(CenterforComplexityinBusiness).

康涅狄格大学(UniversityofConnecticut)的项目管理是其特色专业,所修的课程要求有四门商业分析、四门项目管理.

2.3.5关注不同层次人才的培养

各学校都有不同的人才培养目标,配备不同层次课程供学生选择.麻省理工斯隆管理学院MBA是培养领导型的专业人才,课程能赋予学生领导能力和信心,以及迎接各种挑战的能力,并推动学生实现职业目标和抱负.卡耐基梅隆大学(CarnegieMellonUniversity)则专注技术人才的培养,毕业生将成为掌握商业流程分析、预测建模技术、地理信息系统映射(GISmapping)、分析报告、市场细分分析和数据可视化的跨学科精英.

普渡大学(PurdueUniversity)的每个学生也将参与普渡推出的全球领导人计划(GlobalLeadersinitiative),项目致力于领导、沟通和职业发展培训.

罗格斯大学(RutgersUniversity)则培养结合型人才,将目光投向信息与数据发现科学(DiscoveryInformatics&DataSciences),目标是培养学生分析数据驱动决策的能力,课程汇集了数据管理、统计、机器学习和计算领域知识,学生将获得各种技能包括:分析大型数据集的能力,开发建模解决方案来支持决策和很好地理解数据分析驱动的业务决策,形成的特色是将数据分析、各种学科融合于商业,为学生在依靠数据驱动的行业(如:金融、医疗、生物科技等行业就业)打下基础,成为预测建模师,数据挖掘工程师或数据分析师等.


印第安纳大学(IndianaUniversity)课程关注培养学生的人文软件实力,安排有战略性思维这门课,内容涉及博弈论和商务策略内容.

2.3.6各大学都非常重视实践课程

几乎所有的大学都将毕业实践计划或实践提至很高的位置,课程中都将它列为必修课,有9所大学将毕业设计(Capstone)作为明确的要求写在课程安排中,Capstone(也称为顶点计划)是在毕业前为进一步培养学生研究能力与交流技能的一个必须环节,是美国大学教育的重要特色.有的大学则采用毕业实践(Practicum)或毕业实习(Internship)的方式去实现理论学习与实际操作的对接,例如:西北大学(NorthwesternUniversity)提供长达8个月的行业实践项目.但是,有两所大学却稍有不同,例如:宾利大学(BentleyUniversity)由于80%的学生是在职教育、50%是国际学生,都在晚上上课,所以无实习计划的强制要求;斯坦福大学(StanfordUniversity)建议学生要完成毕业研究计划和实习,但不是必须的条件.

3美国大数据硕士专业教育给我们的启示

3.1正视数据经济“分析3.0(Analytics3.0,DataEconomy)”时代的来临

如果我们比喻大数据是“智慧星球”中流动的血液和养分,围绕对大数据的分析、应用、人才培养的研究则是让“智慧星球”健康发展的基础工作.美国著名学者托马斯达文波特(ThomasDenport)集研究、教学和商业管理于一身,对数据分析研究有独特的见解,提出“分析3.0(DataAnalytics3.0)”的观点[14],他认为:传统(1950~2000年)的数据分析是对过去数据的回顾属于描述型,其类型95%属于报导和描述、5%属于预测和指导,称为“分析1.0(Analytics1.0,TraditionalAnalytics)”时代;当前(2000年至今)热门的大数据分析是运用模型根据过去的数据预测未来属于预测型,其类型95%属于报道和数据可视化描述、5%属于预测和指导,称为“分析2.0(Analytics2.0,BigData)”时代;而我们正在进入的“分析3.0(Analytics3.0,DataEconomy)”时代被定义为“数据经济快速影响(FastImpactfortheDataEconomy)”背景下使用模型来规范最优行为和行动,属于规范指导型,其类型90%属于预测和规范指导性质,是经过系统运算后自动生成的内容.“分析3.0”时代最重要的特征就是数据经济,不仅网络公司,任何行业任何类型的公司都可能参与到数据经济中来,将数据分析嵌入到公司的关键过程和员工行为中.托马斯作为有影响力、敏捷和多产的思想家,他的“分析3.0”的观点对美国大学的大数据专业教育有深刻影响.因此,我们应该看到数据分析与应用的发展趋势,以及其更深入和更广泛的未来,中国需要类似这样的专家,也需要这样的研究讨论氛围,这对中国的大数据人才培养极为重要.

3.2清晰了大数据科学家应具备的知识结构与综合能力

数据科学家应具备的知识与技能要求非常高,美国有许多学者进行了讨论,中国要培养自己的大数据人才需要参考美国的做法.从美国各大学的专业课程中的核心、必修、选修科目加上毕业设计(Capstone)的设置情况[15],我们可以获得一些启示,可将数据科学家应具备的知识与技能归纳为“技术硬指标”和“人文软实力”两个方面[16].

技术硬指标方面主要有以下要求:(1)数学.微积分和线性代数是大多数数据挖掘应用程序需要矩阵计算的基本算法.(2)统计学.掌握相关性分析、多元回归,揉合各种数据从不同角度进行预测性和指导规范性建模,会使用R、SAS、SPSS、SciPy、Stata等统计工具软件.(3)编程和写脚本.掌握编程语言可以更具竞争力,如:Python、C/C++、Ja、Ruby、Perl、MATLAB、Pig等.(4)数据库.熟练掌握SQL,关注NewSQL这类高扩展、高性能数据库,如:ClouderaImpala、Clustrix、VoltDB等.(5)分布式计算系统:熟悉Apache产品族,钻研NoSQL平台,了解ApacheCassandra和MongoDB的优缺点,动手实践Hadoop、HBase、Cassandra、MapReduce、Hive等不断出现的新系统.(6)数据挖掘.数据挖掘是跨学科的,借鉴人工智能和机器学习、统计数据和数据库系统等.(7)数据建模.从ERWin、AgileDataModeling、ORMDiagrams、UMLclassdiagrams、CRCcards、Conceptual/logical/physicalschema、DDL、Bachmandiagrams、ZachmanFramework等数据建模工具开始,掌握建模技术和方法.(8)预测建模.(9)机器学习.(10)数据可视化.选择掌握Flare、HighCharts、AmCharts、D3.js、Processing、GoogleVisualizationAPI、Raphael.js、Tableau等其中一些可视化工具.人文软实力方面主要有以下要求:(1)专业领域知识.对某行业及其数据非常了解,诸如医药、政府、零售、制造业等.(2)创造力和求知欲.有创造力的数据科学家都是充满好奇心的,需要出众的发现能力.(3)善于包装会编故事.将复杂的数据包装后像讲故事般娓娓叙述出来.(4)顺利执行项目、保证实现目标的项目管理能力.(5)保护数据隐私的道德.(6)通过简短的交流能达到目的的能力,称为电梯间交流(elevatorspeech)能力.

3.3为跨学科开设大数据硕士研究生课程提供参考

中国在2004年开始数据分析人才的考培工作,首批项目数据分析师(CPDA,CertificateofProjectsDataAnalysis)诞生.目前,国内数据分析师较为擅长的是处理已经发生的问题,找出问题源头,并且尽快排除问题,但是,相对缺乏发掘未知问题的能力[17].大数据的应用价值在于预测未来,这样的应用需求与国内数据科学家不匹配,这将成为国内发展大数据应用的最大挑战.2013年1月,国内首个“大数据技术与应用”软件工程硕士项目在北京航空航天大学正式启动.在国务院学位办正式批准设立的专业硕士学位中“应用统计学硕士”(MasterofAppliedStatistics)是与大数据最相关的专业,目前,统计专业在全国至少有五六个培养方向,例如:厦门大学侧重经济统计;财经大学、西南财经大学侧重金融统计;中国人民大学门类比较齐全,涉及经济、生物与卫生流行病、风险管理等多个方面;南开大学侧重工业统计;北京大学和北京师范大学侧重理论统计;复旦大学侧重管理统计;首都经贸大学侧重金融统计分析和市场调查与分析,实践比例占大部分.众多开办统计学专业的大学中,只有中国人民大学、南开大学、天津财经大学、西南财经大学、厦门大学五所大学的统计学属于国家重点学科[18].另外,一些知名大学还建立了大数据研究中心,如清华大学、北京大学、中国人民大学、北京航空航天大学、北京邮电大学、厦门大学等,背后支撑的是各校统计分析、计算机和经济管理专业,有研究生参与大数据研究与实践工作.中国大数据硕士专业教育刚刚起步,我们需要启动类似美国的“中国大数据科学与工程研究计划”纲领性文件,国家在大数据平台的构建、典型行业的应用以及研发人才的培养等方面应提供相应的财力、物力与人力支持[19],明确鼓励科研院校开展跨学科合作来培养下一代数据科学家.大数据专业课程跨学科非常明显,无论中国将来的大数据专业集中出现在商学院还是计算机学院,或是完全新设专业,在未来中国如何跨学科合作培养出足够数量的、有发现能力的大数据人才是值得我们认真思考的.

4结语

麦肯锡的《大数据》报告显示至2018年美国大数据资深分析专家存在14万至19万缺口,决策经理和分析师缺口将达到150万人.美国各大学的大数据硕士课程从2011、2012年开始大量招生,对于报考学生的教育背景和知识结构要求比较高,但要成为真正的数据科学家,如果没有数年的内在数学能力训练和行业实践磨练,难以成为合格的数据科学家,因此,报告也强调即使在加快开展专业教育和职业培训的前提下,未来仍然存在人才缺口,那么吸引海外技术人才就是一个必然,中国是赴美留学生最多的国家,这将会给中国的高端人才竞争形成压力,我们必须要高度重视.

data:Thenextfrontierforinnovation,petition,andproductivity.Deepanalyticaltalent:Wherearetheynow?[EB/OL].[2013-12-18].http://.mckinsey./features/big_data.

[4]ManagementAnalysts[EB/OL].[2014-1-18].http://.bls.gov/ooh/business-and-financial/management-analysts..

[5]AboutThomasDenport[EB/OL].[2014-12-18].http://.tomdenport./about/.

[6]ThomasH.Denport,D.J.Patil.DataScientist:TheSexiestJobofthe21stCentury[EB/OL].[2013-11-16].http://hbr./2012/10/data-scientist-the-sexiest-job-of-the-21st-century/ar/1.

[7]MaureenMackey.WhythisNerdHastheSexiestJobintheScience[EB/OL].[2013-10-01].http://.thefiscaltimes./Articles/2013/01/22/Why-This-Nerd-Has-the-Sexiest-Job-in-Science.[8]RyanSwanstrom.CollegeswithDataScienceDegrees[EB/OL].[2013-10-19].http://datascience101.wordpress./2012/04/09/colleges-with-data-science-degrees/.

[9]GregoryPiatetsky-Shapiro.EducationinAnalytics,DataMining,andDataScience[EB/OL].[2013-10-29].http://.kdnuggets./education/index..

[10]INSTITUTEFORADVANCEDANALYTICS.SurveyofGraduateDegreeProgramsinAnalytics[EB/OL].[2013-11-17].http://analytics.ncsu.edu/?page_id等于4184.

[11]MichaelGoldberg.DataInformed’sMapofUniversityProgramsinBigDataAnalytics[EB/OL].[2013-09-30].http://data-informed./bigdata_university_map/.

[12]DougHenschen.BigDataAnalyticsMaster'sDegrees:20TopPrograms[EB/OL].[2013-09-30].http://.informationweek./big-data/big-data-analytics/big-data-analytics-masters-degrees-20-top-programs/d/d-id/1108042?page_number等于1.

[13]DegreeProspects,LLC23GreatSchoolswithMaster’sProgramsinDataScience[EB/OL].[2013-12-30].http://.mastersindatascience./schools/23-great-schools-with-masters-programs-in-data-science/.

[14]ThomasDenport.THERISEOFANALYTICS3.0:HowtoCompeteintheDataEconomy[EB/OL].[2013-11-04].http://iianalytics./.

[15]SoumenChakrabarti,MartinEster,UsamaFayyad,JohannesGehrke,JiaweiHan,ShinichiMorishita,GregoryPiatetsky-Shapiro,WeiWang.DataMiningCurriculum:AProposal(Version1.0)[EB/OL].[2013-12-24].http://.kdnuggets./education/index..

[16]DSExaminer.DataScientistFoundations:TheHardandHumanSkillsYouNeed[EB/OL].[2013-12-25].http://.mastersindatascience./blog/data-scientist-foundations-the-hard-and-human-skills-you-need/.

[17]人民邮电报.韩国将建首个开放大数据中心中国应未雨绸[EB/OL].[2013-11-04].http://news.xinhua./fortune/2013-07/15/c_116544578..

[18]北京考试报.应用统计学专业硕士让数据“活”起来[EB/OL].[2014-01-03].http://yz.chsi../kyzx/kyzy/201312/20131209/676148831..

[19]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域――大数据的研究现状与科学思考[J].中国科学院院刊,2012,(6):647-657.

作者简介:何海地,男,电子科技大学中山学院副研究馆员.