技术动态 > 正文
自然语言处理技术助力人工智能落地金融应用
2019/9/27 09:14   中国安防行业网      关键字:自然语言 处理技术 人工智能 金融      浏览量:
自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。
    自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。
  一、自然语言处理的概念,针对金融领域的自然语言处理有何不同?
  NLP本身是人工智能中的一个重要的方向,简单来说,处理自然语言的过程就是让机器去理解人的文本或语言,其中如翻译、语音识别、语义理解、智能问答,知识图谱等都属于NLP的范畴。
  自计算机诞生伊始,人类就致力于让机器来理解我们语言。随着人工智能、计算机科学、信息工程、统计学、甚至语言学等学科知识的不断进步,目前NLP已经拥有了大量的商业应用,如机器翻译(Google翻译、有道翻译等)、知识图谱(以Google为代表的搜索引擎)、智能问答(Apple的Siri、亚马逊的Alexa以及各种智能机器人)等等。
  但是,金融领域的NLP目前仍处于探索阶段,金融本身是一个专业性很高的领域,很多词汇在金融语境下会产生特殊含义,所有的子问题都会有一个独特的理解方式,而且金融领域衡量处理结果的方式也与其他领域不同。比如针对舆情分析,金融领域要求对市场未来的走势有一定的预见性。
  因此,金融领域的NLP需要准备特殊的训练数据集,而目前NLP所有方法都是基于大量的数据集基础上,数据集的缺乏也是目前NLP在金融领域所面临的最大问题之一,这也是金融领域高度的专业性与深度导致的。
  二、自然语言处理的发展历程和技术挑战
  NLP的发展进程与人工智能发展的脚步大体相同,都经历了如下的发展阶段:
  20世纪50-80年代:简单的实现人类掌握的规则,基于人类的经验;
  20世纪90年代-2000年左右:主要基于统计学的原理与方法;
  2000年之后至今,由于数据的大幅增强、计算力的大幅提升,人们也逐渐开始将如日中天的深度学习方法引入到NLP领域中,在机器翻译、问答系统、自动摘要等方向取得了重大突破。
  但同时也应当注意到,NLP目前也仍然面临诸多的挑战。人类的语言非常简练,在很多对话中是省略背景知识的。人类自己是可以很容易地理解这种省略的背景知识,但在NLP的过程中却可能是很大的挑战。
  比如"司机,我在前门下车"这句话,当机器不了解具体语境的时候,就难以分清究竟在公交车前门,还是在北京前门站下车。
  三、面向中文与英文的NLP存在哪些不同?中文NLP,特别是在金融领域存在哪些难点,有没有某种算法是最佳的?
  从语言本身上来看,英文比中文更直接,利用名词就可以很大程度上判断出一句话的语义。作为表音文字,英文还可以通过语法、时态、词性、词根、词缀、单复数等形式来让机器判断真实意图。
  中文是象形文字,没有各种词性的转换,也无法对某个单字进行拆分,因此机器一定要通过上下文语境来判断具体语义。由于中文的特殊性,同一个任务、同一个模型在英文语境的表现一般要比中文好。
  中文分词是中文NLP的难点之一。如"结婚的和尚未结婚的",应该分词为"结婚/的/和/尚未/结婚/的",还是"结婚/的/和尚/未/结婚/的",不同的分词方法会产生一定的歧义。再比如,"美国会通过对台售武法案",我们既可以切分为"美国/会/通过对台售武法案",又可以切分成"美/国会/通过对台售武法案"。
  随着深度学习的普遍使用,中文与英文在语言上的差异也逐渐变成训练数据量上的差异,以往在NLP领域,可供使用的中文数据量比英文数据要少得多,这是目前中文NLP的难点之一。但是随着有越来越多的人投入到中文人工智能以及NLP领域的研究中来,中文数据集不足的问题正在逐年改善。
  在金融领域,针对基础性问题,中英文所处的阶段其实大体相同,但是针对如情感分析、市场预测等复杂问题,由于要结合具体的语境以及相应的应用场景,同时要考虑训练的数量级问题,无论是中文还是英文的NLP要走的路都还有很多。
  四、NLP系统在金融领域的实际作用
  全网舆情监控、产业链分析、让机器帮助金融机构阅读大量新闻。
  例如,商业银行希望使用更全面的数据进行企业的信贷风险管理,提前感知企业的潜在风险。目前常规的风险评估方法是根据企业公布的年报,并综合信贷员实地调查的结果进行判断,但是由于企业自身风险报出通常具有滞后性,公开信息覆盖度不高,看到的往往只是冰山一角,因此判断风险的手段十分单一。这也是NLP与人工智能可以发挥作用的地方。
  NLP可以对信息进行多维关系的挖掘,评估企业之间的关系,并通过知识图谱直观呈现企业之间的关联,提前设立预警信号,一旦企业关系网内的相关对象出现任意变动,便可根据关系权重,快速地评估对整个关系网的影响程度。
  五、未来中文NLP的发展趋势
  随着每天产生的数据越来越多,可供机器进行训练的数据集也会不断增多。同时,随着深度学习的发展,算法的不断进步,将不断降低对人类以往经验的依赖度,就像AlphaGo,摆脱人类经验后,它会表现更加出色。特别是在BERT模型出现后,刷新了很多传统NLP问题的准确程度,甚至在机器阅读理解上,有些模型的准确程度已经全面超越人类。
  从中文角度,NLP将向着深度学习的方向继续发展,随着数据集越来越丰富,针对复杂语义上的关系抽取将会更准确、针对情感识别也将逐渐进步。[文章参考:妙盈科技--金融领域中的自然语言处理,弄懂这五个问题就够了]

微信扫描二维码,关注公众号。