第一句子大全,网罗天下好句子,好文章尽在本站!

36氪首发 | 人工智能大数据公司「新译科技」完成5000万元 Pre-A 轮融资 侧重人工

时间:2018-11-27

本轮融资中厦门市美亚梧桐投资管理有限公司,凯泰资本与博将资本合作投资,原天使轮投资机构清华力合继续跟进

友情提示:本文共有 2339 个字,阅读大概需要 5 分钟。

36氪近日获悉,人工智能大数据公司新译科技获得了5000万人民币 Pre-A 轮融资。本轮融资中厦门市美亚梧桐投资管理有限公司,凯泰资本与博将资本合作投资,原天使轮投资机构清华力合继续跟进。新译科技天使轮融资于2016年10月完成,截至目前 Pre-A 轮融资资金已全部到位。本轮融资引入的投资机构主要进行公司日后的资源整合和布局,资金主要用于市场拓展、高端人才引进、硬件资源的投入和研究院建设。

数据显示,2014年全球翻译行业市场规模大达到371.9亿美元,同比增长6.23%,预计2020年将达到530亿美元左右。2014年到2016年发生的大事,是以神经网络作为基础的神经网络机器翻译(NMT),开始在全面超越此前以统计模型为基础的统计机器翻译(SMT),并快速成为在线翻译系统的主流标配。

NMT 的基本思想,是以每一个句子作为独立的神经元,从而打破传统基于短语的翻译障碍。此外,NMT 跳过传统基于短语的机器翻译中间各种子 NLP 步骤(分词、词性标注、句法分析等),用深层的网络结构去直接学习拟合源语言到目标语言的概率,可以实现监督训练,不必完全依赖固定数据,这可以在专业领域等资料稀少的环节,获得更好的翻译结果 。

新译科技从事人工智能文本领域,侧重在机器翻译的研发和衍生品的开发。当前国际上主要有谷歌翻译、微软翻译,国内主要有有道和百度,最近也加入了阿里,腾讯等企业。做机翻的当前这些机构都是大品牌,具有大的流量,新译侧重 B 端和 G 端的落地和应用,产品定位不同,所以与这些大企业在产品定位和服务目标不同。

人工智能主要看三个方面,大数据、算力和算法。数据方面,新译科技投入资金完善数据量,另一方面协助 B 端用户构建内部数据,在部分客户允许的前提下,获取专有数据。算法上,新译采用 GPU/FPGA 等硬件,加之神经网络芯片和云计算。目前 GPU 训练速度接近1.5-2倍的速度快于开源框架 Theano、Tensorflow、Torch 的训练时间。在分布式集群训练环境下,3-5天的时间就可以训练一个千万句对的双语数据,翻译速度在836词/秒(GPU)。算法上则采用了深度学习等机器学习方式。

现在新译科技涵盖了包括爱沙尼亚语、保加利亚语、匈牙利语、土耳其语、意大利语、阿拉伯语、荷兰语、法语、越南语、日语、韩语、捷克语、葡语、德语、西班牙语、英文、俄语、中文等主流的37种语言,当前正在根据用户的需求不断更新上线。

据36氪了解到,新译科技自2015年起至今,从最初的规则统计混合模型,到现在的神经网络模型,主要更新了三版系统。为了检验公开线上的翻译效果(mt.newtranx.com),新译科技使用公开的联合国领域内数据(United Nations Parallel Corpus v1.0)(http://www.lrec-conf.org/proceedings/lrec2016/pdf/1195_Paper.pdf )以及 UM-Corpus(http://nlp2ct.cis.umac.mo/um-corpus/ )做了评测。其中公开的 United Nations Parallel Corpus v1.0 为1990年到2014年的数据,新译科技选择了所有的外语到中文的双语数据(英中、法中、西班牙中、阿拉伯语中、俄语中文),另外补充了2015-2016年的联合国双语数据每个语言对大约30万句以及 UM-Corpus 的210万句英中双语数据。测试集合选择 United Nations Parallel Corpus v1.0 中的公开测试集合开发集。下图给出了以 BELU 值(国际上常用的一个机器翻译评测标准)作为评测指标的对比图。从图中可看出最新版系统翻译质量较上一版本基本都达到了2个BLEU值的提升,最高提升9个百分点。

图:新译科技新老版本NMT引擎对比

当前有一个共识就是,在一定数量的双语数据中,垂直领域的机器翻译要比通用的效果好。新译科技现有37个语种共计103亿句对,对公司现存的5.7亿句中英双语数据进行归类整理,划分出了25个领域。最终选择了新闻媒体、IT通讯、专利产权、金融财经、生物医学、法律合同,工程制造、机械工程、石油化工、旅游口语作为上线的主要领域。

之所以优先选择这几类领域,是因为机器翻译擅长是叙述性文本的表述和传达,对于创作性内容(诗歌,散文)并不完美。而这几个领域正好符合表述相对固定,容易被机器“理解”。

当前新译侧重 B 和 G 端业务,解决的是公安,国安,部队,政府和互联网企业的内部需求,采取的是长期合作的模式,定制化的数据和专业化的引擎和系统是当前盈利的主要来源。

在合作过程中,将逐渐完善内部语言服务生态圈,利用自然语言处理解决各种实际中遇到的文本问题。长远来看,新译科技在引入资本投资的时候,也会侧重资源的整合,如清华力合具有很好的学院资源,美亚梧桐具有很好的公安和大数据资源,凯泰资本拥有的医学资源,博将资本拥有很多旅游和海内外金融资源等。

形态上,新译科技有机器翻译定制化、翻译浏览器、辅助翻译系统、翻译机器人,C 端当前主要是机器翻译的衍生品,如浏览器插件、文档翻译、office插件、智译APP等。

新译科技的核心优势之一就是技术资源,公司现有100多人的队伍中,2/3左右为技术人员,新译科技创始人团队来自清华大学、澳门大学、卡耐基梅陇和爱丁堡等国内和国际上从事自然语言处理的顶级实验室的硕士和博士研究人员。清华投资后,又引入海内外清华从事这方面的专业人员。

36氪首发 | 人工智能大数据公司「新译科技」完成5000万元 Pre-A 轮融资 侧重人工智能文本领域 B 端 G 端业务

本文如果对你有帮助,请点赞收藏《36氪首发 | 人工智能大数据公司「新译科技」完成5000万元 Pre-A 轮融资 侧重人工》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
2020高考作文热点:人工智能 科技创新!满分作文+最新时事+素材

2020高考作文热点:人工智能 科技创新!满分作文+最新时事+素材

...机器人拥有感情,而人失去灵魂。我们不得不承认,有些人工智能的服务比服务员更人性化,有些人的创造力可能还不如一个会写诗的程序。当站在人类智力金字塔的那群人不断创造出“机”智过人的机器人,普通人应该怎么做...

2023-06-28 #经典句子

《麻省理工科技评论》:百度AI亮出新招教会人工智能学习语言含义

《麻省理工科技评论》:百度AI亮出新招教会人工智能学习语言含义

...分。百度的成就能够表明多样化的贡献参与将有助于推动人工智能研究。通用语言理解评估基准GLUE是自然语言处理领域最权威的排行榜之一。此前,自然语言模型擅长预测即将出现的下一个单词,自动完成拼写,但却无法理解...

2009-07-30 #经典句子

从人文视角讲述科技话题 9月2日《你好 AI》带你感受科技魅力

从人文视角讲述科技话题 9月2日《你好 AI》带你感受科技魅力

随着人工智能技术地不断发展,AI已经逐渐渗入到了人类生活的方方面面,“AI+应用”也呈现出全面开花的状态,那么加载“人工智能程序”的生活究竟有何奇妙之处?由中国纪录片女性导演代表陈怡导演执导,中国首部全8K变...

2023-09-30 #经典句子

文化|关于科技 设计和未来的 10 本好书

文化|关于科技 设计和未来的 10 本好书

...的书单将为你介绍当今最好的十本非虚构类书籍,涵盖了人工智能、大数据、控制论和其他令人振奋的主题领域的进步,如何改变我们的生活方式,以及它们在未来可能的发展方向。这些书结合了对软件设计、数字行为以及推动...

2018-04-22 #经典句子

硬核黑科技再次亮相两会 被圈粉的金句收割机到底多厉害

硬核黑科技再次亮相两会 被圈粉的金句收割机到底多厉害

...置了指纹解锁等功能,为重要录音保驾护航。创新发展,人工智能让未来更精彩2017年,"人工智能"首次被写入《政府工作报告》;2018年,科技部公布国家级新一代人工智能开放创新平台;随着《新一代人工智能发展规划》提出...

2014-02-16 #经典句子

西媒文章:人工智能展示中国未来

西媒文章:人工智能展示中国未来

来源:参考消息原标题:西媒文章:人工智能展示中国未来参考消息网3月3日报道 西班牙《国家报》网站3月1日刊发了题为《深兰科技:中国规划未来的地方》的文章,记者西戈尔·阿尔达马走访了总部位于上海的深兰科技公司...

2014-05-17 #经典句子

语音翻译市场:未来已来 会是蓝海市场吗?

语音翻译市场:未来已来 会是蓝海市场吗?

...音塔科技有限公司(以下简称“分音塔”)推出了第二代人工智能翻译机新品——全球首款出境游综合服务产品准儿WiFi翻译一体机,也掀开了AI语音翻译市场的面纱。曾经被上帝打乱的语音能否通过科技再一次建造人类的巴别塔...

2019-05-15 #经典句子

同盾科技两篇论文入选人工智能顶级会议AAAI

同盾科技两篇论文入选人工智能顶级会议AAAI

...I Conference on Artificial Intelligence)在美国纽约召开。在这场人工智能领域的顶级会议中,同盾科技共有两篇论文《Improving Question Generation with Sentence-level Semantic Matching and Answer Position Inferring》和《Rethinking the Bottom-Up Framework for Query-ba...

2023-05-30 #经典句子