荀恩东

发布日期: 2012-07-03 浏览次数: 信息来源:人事处

荀恩东,博士,教授,博士生导师,北京语言大学信息科学学院院长,语言智能研究院院长,教育部新世纪优秀人才,中国计算机学会名词专委会副主任,中国标准化研究院特聘研究员,主要从事自然语言语言处理、计算机辅助语言学习技术研究和开发工作。2001年~2003年通过'香港引入优秀人才计划',在香港科技大学工作。发表研究论文数十篇,主持多项国家863计划和国家自然科学基金项目,承担多项部委和公司合作的项目。


教育经历

博士 | 1999.7 | 哈尔滨工业大学

硕士 | 1996.7 | 哈尔滨工业大学

学士 | 1993.7 | 哈尔滨工业大学

工作经历

助理工程师 | 沈阳飞机设计研究所 | 1990.07-1993.03

工程师 | 黑龙江省水利勘测设计院 | 1993.07-1994.09

副研究员 | 微软亚洲研究院 | 1999.07-2001.11

资深研究员 | 香港科技大学创业公司 | 2001.11-2003.11

教授 | 北京语言大学信息科学学院 | 2003.11至今

研究方向

自然语言处理、基于汉语大数据语言知识抽取、汉语句法语义分析、语言资源建设。

承担项目

1.国家社科基金重点项目(16AYY007)“大数据背景下汉语语块数据库建设与应用研究”(2016);


2.国家自然科学基金面上项目(61170162) “汉字书写规范性表征与评判”(2012-2015);


3.国家自然科学基金面上项目(60973062 ) “基于生成树库分析与生成一体化机器翻译模型研究”(2010-2012)


4.国家自然科学基金面上项目(60573184 )“非母语写作水平计算机自动评测技术研究”(2006)


5.国家自然科学基金面上项目(62076038 )“中文意合图的表征与生成方法研究”(2020) 59万 2021.01 - 2024.12


6.国家语委2019年重点项目(ZDI35-114)面向汉语语义计算的意合图语法研究与资源建设  (2020.1-2012.12) 15万


7.工信部重大人工智能揭榜任务  2019年




科研项目成果

1.中文句法语义分析系统


研发面向人工智能应用的自然语言理解解决方案,基于汉语的意合性,搭建具有高鲁棒性、高正确率和线速计算复杂度的中文句法语义分析系统。该系统针对汉语句法结构特点,首次提出以“意合图”为基础融合多源知识的图结构语义-知识表示框架;确定采用块依存语法与语义分析核心算法框架,实现了以符号计算制导的机器学习和深度神经网络多策略融合计算模型自动生成意合图;本系统获取语言知识建立在TB级别以上的汉语分析大数据,可基于现有系统快速搭建适用于领域需求的示范应用平台。


2.BCC汉语语料库


该语料库被评为“教育部改革开放40周年高校科技进步重大成就奖”。BCC语料库总字数约 150 亿字,包括:报刊(20 亿)、文学(30 亿)、微博(30 亿)、科技(30 亿)、综合(10 亿)和古汉语(20 亿)等多领域语料,是可以全面反映当今社会语言生活的大规模语料库。BCC汉语语料库,总字数约 150 亿字,包括:报刊(20 亿)、文学(30 亿)、微博(30 亿)、科技(30 亿)、综合(10 亿)和古汉语(20 亿)等多领域语料,是可以全面反映当今社会语言生活的大规模语料库。http://bcc.blcu.edu.cn/


3.卡片汉语网站


该网站支持汉语老师快速地制作生动活泼的教学课件,每个课件由多张交互式的多媒体卡片组成。


4.汉字字形计算系统


该系统以学习汉字书写的学生为研究对象,采用数字媒体处理、模式识别、机器学习等信息技术,对汉字书写正确性和规范性的自动评测进行基础理论和应用技术方面的研究。其目标是实现计算机辅助的、无人值守的汉字书写教学和评测。


8.非母语写作水平计算机自动评测技术


研究非母语学生作文的计算机评测系统的技术,以非母语教学中中介语语料库为训练语料, 建立写作水平计算机自动评测数学统计模型和基于Internet网络的写作水平自动评测原型系统。


8.专利云服务


为专利审查和专利服务,建立基于互联网的云服务,可以对中文专利全数据进行检索,知识挖掘,专利分类等。


获奖

1.北语BCC在线语料库系统 “改革开放40周年高校科技创新重大成就 2018年12月


专利

1.脱机手写汉字的笔画还原方法及装置  授权公告日:2017.06.06




报告

1.基于意合图的深度语义理解与落地应用   CNCC2020 技术论坛


2.采用组块依存文法生成汉语意合图    CNCC2019 技术论坛


3.语言智能的核心是语义理解 CCF-GAIR 2020,主旨报告


4.语言智能应用技术与人才培养  2020全球智博会,AI+教育论坛


5.面向人工智能的语言资源研发的理论和方法 人工智能产品应用会议


社会服务项目

1.面向新闻生产的语言智能(新华社)


针对新闻领域行业痛点,项目组与新华社成为战略合作伙伴,利用句法语义分析系统开展面向新闻生产的语义资源加工工作,满足新华社新闻大数据管理、热点发现、事件链、信息流构建、辅助写作、智能检校等需求。


2.面向知识产权保护的智能服务系统(中国专利信息中心)


基于句法语义分析系统,利用人工智能核心语言智能技术,打造“面向知识产权保护的智能服务系统”,对专利智能检索、自动分类、申请书撰写、形式审查、分级管理、智能检测知识产权侵权风险等方面展开合作研究。


3.北京语言文化数字博物馆


是国内第一个面向语言文化而研发的开放式数字博物馆。作为社会公共文化资源,内容涉及北京方言、北京口传文化、北京话土语图典、北京话诗文吟诵、北京地名文化、北京名园楹联匾额、北京三山五园御制诗、北京话研究历史文献等北京语言文化资源,不仅是人们了解认识北京语言文化的重要窗口,也是抢救、整理、保护正在迅速变化的北京语言类非物质文化遗产的重要平台,在非遗保护、文化宣传、社会教育、学术研究等方面都具有重要作用。


论文

1.Chengwen Wang, Endong Xun. Research on the Recognition of Chinese Autonomous,Verbs Based on Semantic Selection Restriction and Natural Annotation Information. CLSW 2017


2.Gao Jianfeng, Xun Endong , TREC-9 CLIR experiments at MSRCN 2001 the 9 Text Retrieval Conference


3.Gaoqi Rao, Meng Dai, Endong Xun. Study on the Effectiveness of the Regulations for Chinese Words with Variant Forms Based on a Long-Span Diachronic Corpus. CLSW 2016


4.Gongbo Tang, Gaoqi Rao, Dong Yu, Endong Xun. Can We Neglect Function Words in Word Embedding? NLPCC/ICCPOL 2016


5.Xun Endong ,Extract Chinese Term definition from database and Internet 2003 the 6th East Asia Forum on Terminology


6.Xun Endong ,Huang hangning, A unified statistical model for identification of English baseNP,ACL,2000


7.Xun Endong, Decision Tree Based Rule Processing in Machine Translation,The Second International Conference on Multimodal Interface,1999


8.Xun Endong. A New Rule Processing Method Based on Decision Trees,高技术通讯(英文版),1999


9.黄志娥, 谢佳莉, 荀恩东. HSK自动作文评分的特征选取研究,计算机工程与应用 ,2014 (06)


10.蒋碧蓉, 程永红, 王海涛,荀恩东.国家标准文档结构化置标[J].标准科学,2014(04)


11.刘颖滨, 孙燕南, 荀恩东. 一种基于三维空间信息的字形匹配方法[J].北京大学学报(自然科学版),2016,52(01)


12.钱揖丽, 荀恩东, 宋柔. 基于SLM的二叉树在语音停顿预测中的应用[J].计算机工程,2006(19)


13.钱揖丽, 荀恩东. 基于标点信息和统计语言模型的语音停顿预测模式识别与人工智能 ,2008 (04)


14.钱揖丽, 荀恩东. 基于分类回归树CART的汉语韵律短语边界识别,计算机工程与应用 ,2008 (06)


15.钱揖丽, 荀恩东. 基于最大熵模型的汉语短语间停顿识别[J].计算机工程与应用,2008(17)


16.饶高琦, 修驰, 荀恩东. 语料库自然标注信息与中文分词应用研究(英文),北京大学学报(自然科学版) ,2013 (01)


17.饶高琦, 于东, 荀恩东. 基于自然标注信息和隐含主题模型的无监督文本特征抽取[J].中文信息学报,2015,29(06)


18.唐共波, 于东, 荀恩东. 基于知网义原词向量表示的无监督词义消歧方法[J].中文信息学报,2015,29(06)


19.王海峰, 李生, 赵铁军, 杨彦, 荀恩东, 张民. 汉英双向机器翻译系统BT863的研究与实现[J].情报学报,1997(05)


20.王洁, 荀恩东. 兼类词排岐的一种方法 2004 第二届全国学生计算语言学研讨会论文集


21.许勇, 荀恩东, 贾爱平, 宋柔. 基于互连网的术语定义获取系统,中文信息学报 , 2004 (04)


22.颜伟, 荀恩东. 基于WordNet的英文词语相似度计算 2004 第二届全国学生计算语言学研讨会论文集


23.于东, 荀恩东. 基于Word Embedding语义相似度的字母缩略术语消歧,中文信息学报 ,2014 (05)


24.虞宁翌, 饶高琦, 荀恩东. 文言信息的自动抽取:基于统计和规则的尝试[J].中文信息学报,2015,29(06)


25.荀恩东, 蔡萌, 李生, 赵铁军. TDPSOLA文语转换技术和建立汉语音节单元库的研究[J].计算机科学,1998(06)


26.荀恩东, 李生, 赵铁军. 基于汉语二元同现的统计词义消歧方法研究[J].高技术通讯,1998(10)


27.荀恩东, 李晟. 采用术语定义模式和多特征的新术语及定义识别方法,计算机研究与发展 ,2009 (01)


28.荀恩东, 吕晓晨, 安维华, 孙燕南. 面向书写教学的手写汉字图像笔画还原[J].北京大学学报(自然科学版),2015,51(02)


29.荀恩东, 钱揖丽. 应用二叉树剪枝识别韵律短语边界,中文信息学报,2006(03)


30.荀恩东, 饶高琦,肖晓悦, 臧娇娇.大数据背景下BCC语料库的研制[J].语料库语言学,2016,3(01)


31.荀恩东, 宋柔. 非母语写作水平自动评测,2006, 哈佛大学汉语书面语研讨会


32.荀恩东, 颜伟. 基于语义网计算英语词语相似度,情报学报,2005(01)


33.荀恩东, 赵铁军, 李生. BT863-Ⅱ英汉机器翻译中译文选择方法[J].情报学报,1999(02)


34.荀恩东,李生,匹配树和决策树方法识别英语句子中的BaseNPs,计算机研究与发展,1999


35.荀恩东,李生,英汉机器翻译中基于目标语同现的词义消歧方法,情报学报,1999


36.臧娇娇, 荀恩东. 基于BCC的离合词离析形式自动识别研究[J].中文信息学报,2017,31(01)


37.张文静,张惠蒙,杨麟儿,荀恩东. 基于Lattice-LSTM的多粒度中文分词[J].中文信息学报,2019,33(01):18-24.


38.面向句法结构的文本检索方法研究,马路遥, 夏博, 肖叶, 荀恩东  电子学报  2020, Vol. 48  Issue (5): 833-839


39.三元搭配视角下的汉语动词语义角色知识库构建 王诚文、钱青青、邢丹、李梦、饶高琦、荀恩东    中文信息学报2020 


40. 基于大规模语料库的现代汉语动宾搭配知识库构建    王贵荣、饶高琦、荀恩东         中文信息学报2020  


41.基于篇章的汉语句法结构树库构建[J]. 卢露,矫红岩,李梦,荀恩东.  自动化学报,2020


42.一种基于三维空间信息的字形匹配方法[J]. 刘颖滨,孙燕南,荀恩东. 北京大学学报(自然科学版),2016,52(01):81-88.


43.数字人文视角下的金庸文本挖掘研究. 邰沁清,夏恩赏,饶高琦,荀恩东. 《数字人文[西1] 》


44.中文文本蕴含类型及语块识别方法研究, 于东, 软件学报,2020年12期


45.大数据背景下BCC语料库的研制[J]. 荀恩东,饶高琦,肖晓悦,臧娇娇. 语料库语言学,2016,3(01):93-109+118.


46.文言信息的自动抽取:基于统计和规则的尝试[J]. 虞宁翌,饶高琦,荀恩东. 中文信息学报,2015,29(06):127-134+140.


47.基于自然标注信息和隐含主题模型的无监督文本特征抽取[J]. 饶高琦,于东,荀恩东. 中文信息学报,2015,29(06):141-149.


48.面向书写教学的手写汉字图像笔画还原[J]. 荀恩东,吕晓晨,安维华,孙燕南. 北京大学学报(自然科学版),2015,51(02):241-248


49.HSK自动作文评分的特征选取研究[J]. 黄志娥,谢佳莉,荀恩东. 计算机工程与应用,2014,50(06):118-122+126.


50.基于Word Embedding语义相似度的字母缩略术语消歧[J]. 于东,荀恩东. 中文信息学报,2014,28(05):51-59