北京大学中国语言文学系-亚博888

新闻公告

北大中文人

110系庆 • 中文学人 | 詹卫东：从感知智能跃升到认知智能——计算语言学的机遇与挑战

发布时间： 2023-05-18

中文学人系列专访 35

斯文鼎盛，世运新潮。今年是北京大学中文系建系110周年，为了回看北大中文系的发展变迁，重温几代学人的身姿与风采，共同探索和创造中文人的未来，我们策划了中文学人系列主题专访“我与中文系”。参与专访的学人中，既有白发满鬓仍心系学科的老先生，也有忙碌在讲台与书桌之间的中青年教师。他们讲述着人生道路上的岔路与选择，诠释着个人与世界之间具体而微的密切关联；他们梳理着治学过程中的难关与灵感，传递着朴素坚韧的中文传统。这是中文学人的一次回顾、总结和反思之旅，沿着先生们学术与理想的历史轨迹，我们得以触摸“活的历史”，感受“真的精神”。更多专访将陆续推出，敬请期待。

受访人：詹卫东

采访人：王佳骏

采访时间：2020年8月10日

图一：詹卫东旧照

受访人介绍：

詹卫东，1972年生，1999年从北京大学获得博士学位后留校任教。现为北京大学中文系教授、现代汉语教研室主任、中国语言学研究中心副主任、计算语言学教育部重点实验室副主任、计算语言学研究所副所长。2012年入选教育部“新世纪优秀人才”，2017年入选教育部“青年长江学者”。主要研究领域为现代汉语形式语法、语言知识工程与中文信息处理。著有《面向中文信息处理的现代汉语短语结构规则研究》，参编教材《现代汉语》《计算语言学概论》。

采访人介绍：

王佳骏，北京大学中文系博士在读，研究方向为中文信息处理，包括形式语法理论、语言知识工程与统计学习方法。

王佳骏：詹老师您好！非常荣幸能借北大中文系110周年系庆之际，得到这样一个对您进行专访的机会，期待您在今天的采访中与大家分享您的思索和心得。

您的求学经历非常独特，从您的简历上可以看到，从硕士入学到博士毕业，您同时接受来自中文系现代汉语教研室的陆俭明教授和来自信息科学与技术学院俞士汶教授的指导。陆俭明教授和俞士汶教授都是国内泰斗级的学者，他们培养的学生已经成为相关领域的中流砥柱。可否结合具体的事例，谈谈在您的求学历程中两位导师给您带来的影响？

詹卫东：我很有幸从硕士到博士的六年时间都是跟随两位导师学习。两位导师对我的影响是润物细无声的潜移默化，我印象中并没有经历过特别的经由耳提面命而至醍醐灌顶的“高光时刻”。陆老师和俞老师都是典型的老一辈知识分子，他们当然有各自的个性，但让我感受更多的好像还是他们身上的共性。我对他们最主要的印象就是严谨低调、一丝不苟、实事求是，这种气质既体现在课堂教学，也蕴藏在科研中各种形式的交流讨论和为人处世的一言一行，固化为一个学者做学问的品格，有一种浓郁的“北大味”——就是要力求表达经过自己思考的见解，绝不甘于人云亦云。陆老师给研究生上“语法分析”课，第一堂课就提出了三个要求：第一是基本概念要理解准确；第二是研究方法要合理；第三是要面对语言事实。1993年（也就是我研究生入学那一年）陆老师的《八十年代中国语法研究》刚在商务印书馆出版，是一本比较薄的小册子。“语法分析”课的基本框架跟这本书基本一样，但陆老师上课时用了大量的实例分析，来讲解不同的语法分析方法，骨架简明扼要，展开又是内容丰富，别有洞天，非常立体地展示了现代汉语语法研究所面对的问题以及不同分析方法的魅力。陆老师对研究方法持很开放的态度，他用不同的交通工具打比方：汽车、轮船、飞机等交通工具，从正面说各有自己的特点和优势，从反面说也各有一定的局限性，而在小弄堂里老式的交通工具自行车才是最合适的。所以说，研究学术问题，要思考研究的目的是什么，根据研究的需要，选择适合的方法，已有的分析方法不能解决问题的时候，要创新，探索新的方法来解决问题。这些观念在我初窥学术殿堂之门时就深深影响了我并持续至今。

图二：1999年6月，詹卫东博士论文答辩结束后与两位导师合影

（左起依次为：俞士汶、詹卫东、陆俭明）

詹卫东：我读研期间大部分的课余时间都在参加计算语言学研究所的课题工作。记得当时计算语言所人员规模不大，办公空间也很小。有很长时间是几位老师挤在北大南阁的两间小屋里，另外有两间稍大一些的房间用作机房，供学生上机用，最多的时候硕士生和博士生加在一起好像也不到十个人。但就在这样比较局促的硬件条件下，俞老师带着计算语言学研究所的师生们开展了多项课题研究，其中有的课题是跟外单位、外校乃至境外的一些研究机构合作进行的。给我的印象是研究所的科研发展势头很好，而且研究的进展情况经常是研究所每周例行讨论班里讨论的主题。当时讨论班活动的氛围很好，老师和学生都一起参加，平等地自由发表观点。记得俞老师不止一次说过，晚上在研究生宿舍的走廊里听年轻人聊天，收获可能比听教授讲课还大。俞老师早年在北大学的是数学专业，后来转入计算机领域，研究过操作系统，再后来调入计算语言学研究所从事计算语言学领域的研究，差不多可以说是年近半百，从头学起。他总是很谦虚地说自己是语言学门外汉，要多向语言学家学习。俞老师经常把自己做的研究比作是汇入中文信息处理发展大河中的一朵小小的浪花。他在选择研究课题时的敏锐，组织课题开展工作时的细致和周到，跟合作单位沟通时的耐心和亲和力，在学习新知时的谦逊态度和务实精神，都在每天跟学生的相处当中如涓涓细流般深入到大家的心田，影响着他周围的每个人。现在北大计算语言学研究所的领导和骨干教师有好几位都是跟我同期研究生毕业后留在计算机系工作的，他们的工作方式、治学风格，也都明显受到俞老师的影响，形成了计算语言学研究所现在的一种低调务实而又勤奋进取的科研文化。

图三：1997年，北大计算语言学研究所在北京植物园集体活动

（后排右起第四为詹卫东）

王佳骏：北大从80年代开始就在计算语言学领域产生了良好的跨学科研究氛围，可否请您以一个亲历者的身份，简单介绍一下北大计算语言学的跨学科建设在将近四十年中的发展概况，北大中文系在其中扮演的角色，以及这种跨学科氛围对在其中工作和学习的老师和同学们带来的影响？

詹卫东：跟中文系的文学、语言学、古典文献学这三大传统专业和基础学科相比，北大的计算语言学研究应该说历史不算长。不过，从全国高校的范围来看，北大计算语言学的研究可以说是走在前面，开风气之先的。特别是在语言学和计算机科学跨文理大学科结合这个角度，北大的计算语言学研究有很鲜明的特色。1986年北大组建成立了计算语言学研究所。主导这项工作的一位是来自中文系的语言学大家朱德熙先生，一位是来自数学系的有“数学神童”美誉的马希文先生。实际上，在计算语言学研究所成立之前，马希文先生就在北大开设了“计算语言学”课程。朱先生和马先生共同组织了一个长期持续活动的语法讨论班，吸引了不少北大校内外对语言学、计算语言学和人工智能感兴趣的中青年学者参与，为中国计算语言学的早期发展做出了奠基性的贡献。像现在已经是中文信息处理学界资深学者的白硕教授、宋柔教授等，中文系语言学科带头人郭锐教授、袁毓林教授等，当时都参加过这个研讨班的活动。在我读研的时候，讨论班的活动由陆俭明先生和俞士汶先生两位接棒主持，仍然保持着语言学与计算机跨学科结合的形式，充满了学术活力。这种跨学科的学术共同体在北大似乎有着很强的生命力，而且跨的学科范围有扩大的势头。

图四：2002年5月，詹卫东在台北中研院参加汉语词汇语义学会议期间合影留念

（前排左起依次为：曹右琦、朱学锋、俞士汶；

后排左起依次为：周强、刘群、张化瑞、詹卫东）

詹卫东：北大计算语言学研究的这种浓郁的跨学科氛围，我感觉是北大崇尚学术思想自由的传统的自然体现。用现在时髦的话说，北大可能有盛产学术“斜杠青年”的土壤。上面说到的朱德熙先生和马希文先生在80年代中期创建计算语言学研究所，固然是大师高屋建瓴推动计算语言学跨学科建设的大事件，但其实还有一些个体性的事例，也能反映北大中文系长期以来就深蕴其中的跨学科活性，不同年代从北大中文系语言专业走出去的跨学科人才，毕业后在其他高校和科研单位从事计算语言学研究，对中国计算语言学的发展做着持续性的贡献。比如五十年代末从北大地球化学专业本科转入中文系的冯志伟老师；六十年代毕业于北大中文系本科，八十年代任教于北京语言学院的张普老师；八十年代末师从朱德熙先生研究汉语方言语法，博士毕业后在北京语言大学从事计算语言学研究和教学的陈小荷老师等等。可以说北大中文系的这种跨学科视野和传统由来已久，为中国计算语言学研究领域培养了一批先行者。

王佳骏：可否谈谈您所在的北大中文系现代汉语教研室在学生培养方面所继承和形成的理念与主张？

詹卫东：北大校长蔡元培先生说过：“大学者，研究高深学问者也”。我的体会是，要研究高深学问（当然也包括研究跟语言学有关的高深学问），有三样事情要特别重视，一是基础，二是事实，三是方法。这三个方面，是中文系现代汉语教研室在培养现代汉语专业研究人才的过程中特别看重的。我读研究生的时候，现代汉语教研室的老先生们就经常强调基础知识的重要性，要求从外校考到北大现代汉语专业的研究生要在一、二年级的时候，在开始做毕业论文的研究之前，补上一些北大中文系本科生的语言专业课程，其中包括大一的基础课“现代汉语”，高年级的专题课比如“现代汉语虚词研究”“汉语方言调查”，此外还包括一些汉语史专业的课程比如“汉语音韵学”。这个传统一直延续到现在。只有基础夯实，今后的专业研究才能打开局面。这个观念其实不仅是现代汉语教研室的传统，应该说，也是北大中文系整个语言专业的传统，是王力先生、魏建功先生、朱德熙先生、林焘先生等一批语言学大师们为北大语言学专业奠定的学风根基。

在研究中重视语言事实，是陆俭明老师在上课和指导我做毕业论文研究时最常提到的。陆老师在课上经常能举出富有启发性的现代汉语用例，通过实例的分析引导学生去思考语法问题。这种教学方式的特点也很鲜明地体现在老一辈学者的学术论文风格上。像朱德熙先生的《说“的”》、陆老师分析“父亲的父亲的父亲”的层次结构的经典文章，都是从具体的语言实例切入，以小见大，引出问题，再展开理论分析，解决问题的过程，给人抽丝剥笋之感，充满着层层深入的逻辑力量。这种做学问的风格在教学和研究中都一以贯之，而且作为一种学术传承，成为现代汉语教研室师生们的共识。当然，这里也值得强调一下，重视语言事实，并不是说理论不重要，而是要弄清楚语言研究的根本目的——是要去解决语言事实中存在的实际问题。理论可以提供我们观察事实的独特视角，理论也只有在为解决实际的语言问题服务时，方彰显其价值。如果脱离了语言事实，仅仅是从理论到理论，不是我们提倡的研究路子。

总体来说，北大中文系的语言学专业课程很丰富，其中语言学核心课程模块中的语音学、音系学、词汇学、句法学、语义学、语用学等，跟国际通行的主流语言学专业课程设置是一致的。在此基础上，还有一大批展现语言学分支、子领域和不同流派的专题课程，涉及到认知语言学、形式语言学、语言类型学、方言学、计算语言学、配价语法研究等等，这样的课程体系，可以让学生在当代语言学研究的学术海洋中畅游，在学习采用不同视角不同方法处理和分析语言学问题的系统的学术训练中，感受和品味学术研究的魅力。

图五：2006年6月，北京大学中文系应用语言学本科专业第一届学生毕业

（左起依次为：邓高、姜巍、曾石铭、詹卫东、曲丹、丁伟伟、胡曼妮、孙薇薇）

王佳骏：作为一个具有上千年悠久历史的学科，语言学有其自身的发展脉络和追求，这种追求有时与计算语言学“通过数学模型去刻画和模拟人类的语言行为”这一追求并不完全一致。作为一位同时涉足语言学和计算语言学的学者，您认为理想的“面向计算的语言学研究”应该是什么样的，应当如何处理好语言学和计算语言学之间的关系？

詹卫东：正是在现代电子计算机这一新事物问世的条件下，人们看待语言的视角从人拓展到了计算机。语言的计算性质，语言的无限生成性，语言符号的形式规则系统，这些关于语言的新问题，都是在计算机背景下提出的新的语言学基础问题。

在我看来，所谓“面向计算的语言学研究”，必然涉及到两个方面的研究内容：首先是语言学研究，纯粹出于对各种语言现象的好奇而产生的语言学研究问题；二是计算任务，这是出于应用的目的，要让计算机能模拟人的语言行为，让计算机看上去能跟人一样，运用自然语言来完成各类具体的信息处理，比如机器翻译、人机对话、信息挖掘等等。这就要求前面所说的语言学研究的成果，要能算法化，过程化，而不能仅停留在静态描写和理论解释的层面。从这点上说，计算语言学也可以说是在传统面向人的语言学研究基础上，又增加了一个要求。从语言学发展出计算语言学，是递进的关系。

王佳骏：北大中文系在全国范围内较早以“应用语言学”为名开出了专门培养计算语言学人才的本科专业，并从2002年开始招生。作为北大中文系应用语言学专业的主要负责人，可否请您谈谈您心目中计算语言学从业人士具有的理想的知识结构应当是什么样的，北大中文系在培养计算语言学人才中可以发挥什么样的独特优势？

詹卫东：我借这个机会简单介绍一下北京大学中文系应用语言学本科专业的情况。应用语言学专业是中文系文学、语言、古典文献三大传统专业之后设立的第四个本科专业。实际上，上世纪80年代朱德熙先生就提出了成立语言学系和计算语言学专业的建议，但由于当时条件的限制，这个建议没有完全按朱先生的设想实现，折中的结果是成立了北大计算语言学研究所。计算语言所自成立以来，跟中文系在学术研究、科研项目、人才培养等方面一直保持密切合作，逐渐积累起了一定的资源和经验。2001年北大中文系正式向学校提出申请成立新的应用语言学本科专业，后上报到教育部，得到批准，自2002年夏季学期开始招生运行。头几年课程体系经历了探索磨合，逐渐从“以文为主，以理为辅”的思路，过渡到“文理并重，融会贯通”的轨道上。北大对于本科生的培养，向来强调厚基础、宽口径，着眼于学生的综合能力得到更全面的提高，鼓励培养跨学科复合型人才。在这样的大环境下，中文系应用语言学专业的建设应该说是比较充分地利用了北大文理基础学科的综合优势。

詹卫东：作为交叉型学科，虽然理想目标是平衡兼顾，但学生在学习过程中，实际上很可能会自然而然地出现侧重上的不同。如果本科阶段更侧重理科类课程的学习，可以发展为有汉语语言学理论素养的信息技术人才；如果本科阶段更侧重语言学类课程的学习，可以发展为有信息科技素养的语言学研究人才。如果文理两方面的基础知识在本科阶段就系统学习并达到一定程度的融会贯通，将来就更有可能在计算语言学的开拓性研究中做出领先的成果。去年从中文系毕业的本科生林子，就是在语言学和计算机两方面结合比较好的一个例子。她从大二开始就在课余时间参与到计算语言所的一些科研工作中，其中有两项工作分别发表在自然语言处理领域很有影响力的两个国际会议上：2018年的emnlp和2019年的aaai。一个工作是探索了汉语中介语语料库的语义角色自动标注；另一个工作是提出一种新的方法，将人工构建的关于汉语语素的语言学知识库跟深度神经网络中的词向量表示结合起来，改进了词向量表示在词义相似度计算任务上的效果。她以中文系学生的身份，凭借这些研究成果参加了前年的第六届北京大学信息学科本科生科研成果展示会，获评一等奖。

google科学家吴军博士在《数学之美》一书中提到过一个在业界广为流传的八卦，美国自然语言处理领域的大师frederick jelinek曾经很刻薄地说过：“我每开除一名语言学家,我的语音识别系统错误率就降低一个百分点。”这种失之偏颇的评价当然不能用在所有的语言学者身上。不过，就计算语言学领域而言，这句话却有着耐人寻味的意义。从积极的角度讲，或者可以“重新解读”为是对面向计算机的语言学研究提出了更高的要求。冯志伟老师写过一篇题为《语言学家在自然语言处理研究中大有可为》的文章，提倡语言学者要更新知识，适应信息时代语言学研究的发展，为自然语言处理贡献语言学的真知灼见。我想，北大中文系应用语言学专业的建设目标，正是要培养这样的新型语言学人才。

王佳骏：计算语言学与人工智能经历了相似的发展阶段，走过了知识推理期、经典机器学习期和深度学习期。作为具有丰富的语言学知识的业内专家，可否请您介绍一下中文系过去几十年为计算语言学领域做出的贡献，以及中文系未来几年在计算语言学领域的研究规划与布局？

詹卫东：北大中文系的计算语言学研究，可以说一直以来就是在追问一个问题的答案：形式跟意义之间的映射关系，到底是如何建立起来的？从语言学者的角度看，过去给出的答案是设计语法知识范畴（比如词类、短语结构类等等）和语义知识范畴（比如动词的论元语义角色，词语之间的各种语义关系等等）来构建语言知识体系，并进一步落实到对成千上万的词语的语法语义特征的描写上。以词汇知识库存储的静态知识作为基础，以组合的方式来驱动句子语义的动态分析，这可以概括为是“向内求义”的路线。建立形式和意义关联的另一条路线是“向外求义”，即从语境特征的角度去探求语言单位的意义解析。这方面的工作以前做的相对少一些，今后可能需要在这方面做更多的探索。近年来我们在词语语法信息库、配价语义信息库、句法结构树库等语言知识资源基础上，进一步开展了汉语谓词论元角色标注语料库、汉语构式知识库、构式语义标注语料库等新的语言数据建设项目，也是希望从更多角度去探求语言形式和意义之间的对应关系的表示方法。我个人的认识是，在现在这个时代，语言知识要大规模数据化，成为计算机可用资源，才能发挥更大作用。这是在已往的语言学研究结构化和形式化的基础上，对语言学研究提出的更高要求。

责任编辑：蔡翔宇

排版：李岚

图片来源：图一、二、三、四、五、六由受访者提供。