合肥新闻网

中文最佳,哈工大讯飞联合发布全词覆盖中文BERT模型

  近日,哈工大讯飞联合实验室发布了基于全词覆盖的中BERT预训练模型已经在多个中国数据集上达到了当前中国预训练模型的最佳水平,其中一些甚至超过了原来的中国预训练模型,如BERT和ERNIE。

这种新的模式资源极大地促进了中国自然语言处理的研究和发展,弥补了以往中国自然语言处理研究模式的空缺。在ERNIE使用更多百度百科全书,Post Bar等网络数据之前,它模仿了非正式文本(如微博等),而BERT-wwm则使用中文维基百科(包括简体和繁体)数据进行培训,因此这是正式文本建模有优点,BERT-wwm可以更好地处理中国传统数据,因为ERNIE的词汇几乎没有传统的中文。让业界有更多选择。

img_pic_1561366006_0.jpg

哈尔滨工业大学(HFL)是科技大学引进和布局的核心研发团队之一。它由人工智能研究所和哈尔滨工业大学社会计算与信息检索研究中心(HIT-SCIR)于2014年共同创办。

自哈尔滨工业大学和联合实验室成立以来,双方一直在深入合作,特别是在语言认知计算领域,取得了显着成效。该研究涉及阅读理解,自动评分,类似人类的答案,人机对话,语音识别和社会。舆论计算等前瞻性问题,相应的研究成果应用于司法和教育领域。哈尔滨工业大学近年来共同多次获得世界冠军,包括机读阅读理解SQUAD,SQuAD2.0,第五届中文语法错误自动诊断大赛CGED,会话阅读理解评价CoQA,QuAC等权威评价。

基于全文覆盖的中文BERT不仅表明科技大学在自然语言处理技术方面保持领先地位,而且还积极将最新技术转化应用于中国自然语言处理研究,并推广中国人与业界一起。自然语言处理的研究和开发为中文信息处理做出了更多贡献。

人工智能正在蓬勃发展,人工智能不仅需要“可以倾听和说话”,还需要“能够理解和思考”。这项技术跨越并需要大量的科研支持。认知智能的关键技术,如深层语义理解,逻辑推理决策和自主学习进化,是当前的研究重点。语音合成技术,语音识别技术,手写识别技术,自然语言处理技术,语音评估技术,声纹识别技术,这些技术都展现了迅飞的超强实力。

img_pic_1561366006_1.jpg

Keda Xunfei一直以“天下”为核心使命。技术最高层的“Top Sky”强调了技术对人工智能开发的重要性。科达迅飞长期以来一直保持着较高的科研投入。根据2018年的财务报告,2018年,公司增加相关研发费用4.52亿元,相关研发费用12.63亿元,比上年同期增长55.82%。科研投入可能相当大。难怪它的技术始终领先于行业。

科达迅飞仍是唯一以“以语音技术为工业化方向”,“国家高技术产业化示范工程”和“国家高技术产业化示范工程”的“国家863计划成果产业化基地”。国家科技进步奖和中国信息产业自主创新荣誉“信息产业重大技术发明奖”。科技部明确建立了基于科技大学的认知智能国家重点实验室。这是人工智能高级阶段认知智能领域的第一个国家重点实验室。

科技大学对整个人工智能生态产业的领先技术和综合控制展示了其长期愿景。它是国内首个基于智能语音和人机交互的人工智能开放平台。它以平台为基础,推出了迅飞输入法和迅飞听证会等示范应用,促进了与合作伙伴的合作。共同构建以迅飞为中心的人工智能产业生态系统。其在智能语音和人工智能核心研究和产业化方面的突出成就也得到了各界和国内外的认可,被称为“中国人工智能国家队”。

技术的不断追求,科研的不断完善,以及对用户的微妙关注,都是企业希望大力发展人工智能应该学习的。今天,科技新闻仍在继续前进,并在高速发展。我们希望在未来,我们可以看到科技新闻的技术突破之一已经引领中国人工智能技术的继续发展。

中文词汇涵盖BERT官方资源地址