人工智能进入翻译领域:让计算机听懂人类语言

科技网编2022-05-30 19:315900

国内生产的智能翻译机器人“飞飞”。

在国际会议上,翻译人员是人们熟悉的,但翻译机器人就鲜见了?日前,在国际计算语言学联合会2015年年会(ACL-2015)的终身成就奖颁奖互动环节上,来自百度公司的机器人“小度”,就担任起了这样的角色。

“我们想进一步把人和计算机联系起来,就要对人的自然语言进行处理。”说这话的正是“小度”翻译的服务对象,来自哈尔滨工业大学的教授李生。作为第一位获得“ACL终身成就奖”的中国学者,李生长期致力于机器翻译、句法语义分析、信息检索等自然语言处理及相关方向的研究。

中国自然语言处理走过了哪些历程?发展如何?未来又将走向何方?为此,记者对李生及相关研究人员进行了专访。

中文自有“特殊性” 信息处理“特别难”

1947年,美国数学家、工程师沃伦·韦弗提出了以计算机进行翻译的设想,机器翻译从此步入历史舞台。上世纪50年代,机器翻译研究持续走俏,美、苏等国家均出现了研究热潮。

与此同时,机器翻译的研究工作在中国也逐步展开。据李生介绍,1959年中国演示了第一部机器翻译系统,可将9种俄文句型译成中文。1985年,李生团队研制出汉英机器翻译系统CEMT-I,成为我国第一个通过技术鉴定的汉英机器翻译系统。

自然语言相对于形式语言而言,后者是人类设计出来的、可为数学和计算机处理的标准化语言,而自然语言即人类所说的话语。机器翻译作为自然语言处理的重要领域,涉及数学、语言学、计算机科学等多个学科。“对自然语言的处理包括分析、理解及转换生成等任务。”李生介绍,“比如对语言词法、语法、语义、情感、主题的研究就属于分析和理解;而翻译、文摘等则属于语言的转换生成。”

让原本只认识“0”和“1”的计算机去理解和处理人类的语言有多难,作为中国中文信息学会理事长的李生对此深有体会,他举了两个例子:“别人对你说‘你可真行’,那么他是在夸奖你,还是在责怪你?这需要基于特定的语境才能分析出来;反过来,一种意思也会有多种表达方式,比如说‘我饿了’和‘我的肚子咕咕叫了’字面表达虽不同,意思却是一致的。”

“中文的传统文化积淀很深厚,使得话语往往有更深层的含义。如果不联系语境,很易产生歧义。”百度公司自然语言处理部高级研究员赵世奇对此表示认同。他表示,“英文是偏结构化的语言,而中文是自由的线性语言”,因此中文在信息处理上有一些“特有”的难题,比如自动分词、句法分析、歧义消解等。

词是表达语义的基本单元,分词就是将一句话或短语切分成一个一个单独的词语。李生以英文作比较,“英文中,单词以空格分开,而中文词语却没有形式上的分界符,也没有形态变化,这都增加了处理的难度。”此外,在语音层面,汉语中存在大量同音字词,又包含复杂的声调系统和变音变调现象,这都给语音识别带来了困难。

中国学人在努力 发展驶入“快车道”

近年来,自然语言处理研究持续走热。统计数据显示,本次年会收到的论文数量比上一届增长了17%,为史上之最。其中,来自中国的论文数量超过总量的20%,仅次于美国。

值得一提的是计算机语言翻译,在本届年会上,李生被授予“ACL终身成就奖”。而在此之前,百度技术副总裁王海峰于2013年1月正式出任ACL主席,成为该组织50年历史上第一位华人主席。

“自然语言处理每个方向上都有很多优秀的学者在努力,这也是该领域可以愈发繁荣的原因。”李生表示,这些年中国的自然语言处理发展很快,在中文处理上已经走在了世界前列。

据赵世奇介绍,10年前能在ACL这类顶级国际会议上发表论文的中国学者还屈指可数。“10年间,中国在自然语言处理的各个方向上都取得了非常显著的发展,无论是研究水平,还是研究人员和学生的能力,都是今非昔比。”

在此次年会上,记者就看到了很多中国年轻学人的成果:来自百度的研究员,将深度学习技术应用于机器翻译,使得译文质量得到了明显改善;清华大学的团队,通过统计词语出现的上下文环境,利用联合矩阵分解,实现跨语言的词向量学习;“中央研究院”和台湾大学的学生们,利用对新闻语料语言模式的自动学习,可预测读者情绪,辅助写作。

“近年来,随着深度学习技术的发展,研究者们基于深度学习模型来进行语义表示,同时也将深度学习模型用于提升信息检索、机器翻译等应用方向的效果,这些都取得了明显的收益。”李生介绍计算机语言翻译,“像自动问答、知识挖掘、情感分析等方向研究的人也很多,尤其是随着互联网大数据时代的到来,人们意识到这些技术对于提升用户获取信息的效率将发挥重要作用。”

深度学习成主流 人工智能大可为

20世纪60年代,美国语言学家乔姆斯基提出转换生成语法,此后基于规则的理性主义和基于统计的经验主义就成为自然语言处理方法论上的两大“阵营”。

“我在60、70年代做机器翻译是基于规则的,然后是基于实例的翻译方法。后来基于统计的机器翻译取代前两者,成为目前的主流。”李生表示,自然语言处理是与时俱进的,互联网大数据时代,人们的新需求、新理想都被从中挖掘出来,成为新的研究问题。

无论是搜索引擎中的意图分析、精准问答,还是电子商务中的自动客服,以及社交网络,自然语言处理技术几乎存在于大家熟悉的所有互联网服务中。近些年来,随着自然语言对话、多模态交互等新式人机交互的方式的兴起,对话交互、多模态自然语言处理等新的研究方向也开始为人们广泛关注。

对于未来研究走向何方?李生有自己的见解。“基于深度学习的、基于多层神经网络的机器翻译有可能会成为主流。但是各种方法都有利弊,我希望年轻学人博采众长,将基于深度学习的方法和基于规则、基于实例、基于统计的方法结合起来,发挥各自的长处。

美国发明家、作家、未来学家雷·科兹威尔曾预测,到2029年,机器翻译的译文质量将达到人工翻译的水准。“技术发展没有极限,如果说有,那也许就是人类想象力的上限。”李生相信,未来自然语言处理将是人工智能中非常重要的研究领域。(记者 蒋波)

评论区