MOLAR NEWS
2020年第17期
MolarData人工智能每周见闻分享,每周一更新。
用AI实现C++、Java、Python代码互译,运行成功率最高达80.9%
因为新冠疫情的缘故,美国一些地区的失业救济系统不堪重负,而这些系统都是上古语言COBOL写的。
然而,现在早已经是C/C++、Java、Python的天下了,把COBOL程序换成Python,何其难也。
远的不说,Python 2刚刚淘汰,过去的老程序手工转成Python 3也是个很大的工程。
既然AI能翻译自然语言,那也应该能翻译编程语言。
Facebook也是这么想的,所以他们最近提出了TransCoder,一个翻译编程语言的AI,现在可以在C++、Java、Python语言之间互译。
经翻译后的程序,成功运行的通过率最高可以达到80.9%。
而且TransCoder是一种无监督学习算法,意味着不需要大量成对的、标记的编程代码数据集进行训练。
如果这项技术达到实用化程度,对广大程序员来说真是巨大福音啊!
难怪论文作者之一Guillaume Lample在Twitter上宣布了这篇论文后很快引起了热议。
TransCoder充分利用了编程语言的特点,比如像for、while、if这些关键词以及通用的数学运算符。
下图展示了C++、Java和Python关键字的嵌入。在相似的上下文中使用的不同编程语言的关键字在嵌入空间中非常接近。
例如,Python中的except和Java、C++中的catch都用于获取异常,它们被映射到非常相似的嵌入空间位置。
对于映射的实现(map和dict)、用于将字符串转换为字符数组(c_str和toCharArray)以及类似的变量类型(例如long、int和Integer),也可以观察到相同的现象。
那么以上这些关键词的嵌入是如何获得的?
Facebook提出了实现无监督编程语言机器翻译的三个原则。
首先,通过跨语言掩码语言模型(MLM)预处理来初始化模型,这有些类似于自然语言的填空题。结果是表达相同指令的代码片段被映射到与编程语言无关的相同表示。
其次是去噪自动编码,它能训练解码器始终生成有效序列,即使在输入有噪声的数据时也是如此,提高了编码器对输入噪声的鲁棒性。
最后是反向翻译,它允许模型生成可用于训练的并行数据。每当Python转C++模型变得更好时,它就会为C++转Python模型生成更精确的数据,反之亦然。
通过以上步骤,TransCoder在训练后获得了之前提到的跨语言嵌入。
我们观察到,TransCoder成功地理解了每种语言特有的语法、数据结构、函数库和方法。
在上面的图中,展示了Java和C++独有的三元运算符X ? A : B,翻译到Python中就变成了if X then A else B。
以下是一个从Python翻译到C++的实例。TransCoder推断变量和函数返回值的类型,将Python的deque()容器映射到C++中类似的实现deque<>,并使用C++的front、back、pop_back和push_back方法来检索和插入deque中的元素,而不是使用Python方括号、pop和append方法。
为了训练TransCoder,Facebook在GitHub上寻找了280万个开源代码库进行训练,其中包含数百亿个token。
然后去GeeksforGeeks平台去验证翻译成果,该平台是收集各类编码问题,并以多种编程语言提供解决方案。
和自然语言不同的是,代码翻译并不太要求逐字逐句的对照,因此翻译后的代码和参考代码的重合度其实很低,比如C++转Java的代码和Ground Truth仅有3.1%匹配。
另外NLP翻译中的BLEU也不宜作为代码翻译的衡量标准,因为这只能表示实际代码和参考代码之间的语法差异。
因此需要一个新的度量标准——计算正确率,它表示翻译后的代码测试后是否能与参考代码有相同的输出。
以此为标准,C++转Java的代码的计算正确率为60.9%,而Java转C++的计算正确率为80.9%。
Facebook不是唯一开发AI代码生成系统的公司。前不久微软Build大会上,OpenAI就演示了一个在GitHub数据上训练的模型,仅根据注释内容即可生成对应功能的代码。
TransCoder没那么智能,但是在计算机技术飞速发展的今天,谁知道下一个流行的语音是什么,有了TransCoder,至少让我们在移植代码的时候没那么难了。
也许美国社保系统的COBOL就靠它解决了。
来源:量子位
腾讯优图开源人脸识别底层技术:一款深度学习推理框架TNN
TNN是一款移动端推理框架,具有高性能、轻量级的特点,拥有跨平台、高性能、模型压缩、代码裁剪等众多优势。目前TNN已经在手机QQ、微视、P图等应用中落地。
TNN框架在原有Rapidnet、ncnn框架的基础上进一步加强了对移动端设备的支持,在性能方面也有所优化,同时借鉴了业界主流开源框架的优点,高性能和良好拓展性。
这次腾讯优图开源TNN,也是希望其推理框架能够进一步完善,共同为AI构建一个开放共进的生态环境,同时保持不断的迭代更新。
TNN对主流平台的适应性强,对CPU: ARMv7, ARMv8, GPU: Mali, Adreno, Apple) 深度调优。
同时优化了对移动端的适应性,轻量级,高算力。针对不同架构在硬件指令发射、吞吐、延迟、缓存带宽、缓存延迟、寄存器数量等特点,深度优化底层算子,极致利用硬件算力。
CNN 核心卷积运算通过 Winograd,Tile-GEMM, Direct Conv 等多种算法实现,保证不同参数、计算尺度下高效计算。
保证低精度优化,支持 INT8, FP16 低精度计算,减少模型大小、内存消耗,同时利用硬件低精度计算指令加速计算;支持 INT8 Winograd 算法,(输入6bit), 在精度满足要求的情况下,进一步降低模型计算复杂度;支持单模型多种精度混合计算,加速计算同时保证模型精度。
通过 DAG 网络计算图分析,实现无计算依赖的节点间复用内存,降低 90% 内存资源消耗。同时支持外部实时指定用于网络内存,实现「多个模型,单份内存」。
TNN上手容易,三个步骤就能完成模型在目标平台上的部署。训练好的模型可以用TNN提供的工具转换成TNN模型;然后编译目标平台的TNN引擎;最后在自己的应用程序中嵌入对TNN的调用,都有详细的模型来辅助完成。
腾讯优图不断对优质项目持续开源,促进构建友好开发者生态,为中国企业的科技力量添砖加瓦。
来源:新智元
中国10万亿元投资新基建!5G和AI双引擎,「制造大国」转型「科技大国」
据彭博社报道,中国将在到2025年投资约1.4万亿美元,折合人民币近10万亿,促进5G、AI、IoT、数据中心、移动通信等项目的发展。
这部分资金也将同时用来开发国产人工智能芯片、智能工厂、电动汽车充电桩和特高压电力设施,为自动驾驶、自动化工厂等大规模基础建设提供支持。
在大数据和云计算领域,国内科技巨头纷纷宣布投资计划。腾讯表示,将在未来五年内投资5000亿元用于云计算和网络安全等新基建项目。阿里巴巴则承诺,未来三年投入2000亿人民币推动数字新基建。
显然,5G成为了中美两国竞争的又一战场。去年11月,中国5G正式开始商用,美国更是对中国5G的海外市场极力打压。
美国政府一直在向欧洲各国施压,要求禁用中国的5G技术。如今,这一行列中又添加了新的成员。
6月7日,美国科技巨头惠普也公开向英国施压要求排除「不安全因素」。虽然并未明确提及华为的名字,但这个事情早就不言而喻了,除了华为,还能有谁?
但从另一个角度来讲,美国之所以没有从技术、产品角度赢得客户,而只能依赖自己的势力进行逼迫,原因无非就是在5G方面,美国无论从技术还是从基建,都落后于中国。根据中国信通院发布的《2020中国5G经济报告》,中国发展5G占据了「天时地利人和」。
来源:新智元
拍照即可完成损害检测,AI 公司Monk获 210 万欧元融资
据36kr报道,近日,「Monk」获得了 210 万欧元种子轮投资。此轮融资由 Iris Capital 领投,Plug and Play 以及一些天使投资人参投,包括 Eurazeo 的前 CEO Patrick Sayer、Adot 的创始人 Yannis Yahiaoui 以及 PriceMatch 和 Pennylane 的创始人 Arthur Waller。
据了解,在成立之初,「Monk」就与点对点汽车租赁市场的领头企业 Getaround 合作,向他们提供汽车损坏索赔方案,与当时业内可用的解决方案相比,这些方案更加便捷高效。「Monk」的解决方案是基于一种突破性的人工智能技术,可以根据用户、租车人或司机拍摄的照片,检测汽车的损坏情况,然而检测价格仅为传统解决方案的一小部分。
首先,用户需要拍摄损坏之处的视频或者照片,上传到「Monk」平台。之后,该公司会采用深度学习技术和计算机视觉模型,自动分析用户的图片。分析结束后,用户会获取自动分析报告、损害赔偿的综合清单以及其他相关信息,例如损害的严重性、修理或更换配件的成本等。
此外,「Monk」平台会帮助用户记录修理历史,用户只需打开仪表板,就可以访问过去的数据和相关分析结果。
据了解,「Monk」的方案已经受到了,汽车物流和租赁行业一些专业人士的认可,并且与一家欧洲一级汽车制造商,建立了合作关系,具体合作事项将于今年晚些时候公布。
Iris Capital 的执行合伙人 Julien David Nitlech 表示,「Monk」有潜力解决许多与汽车损坏相关的问题。保险业也在寻找,可以简化和优化承保和索赔评估流程的工具。如今,这是一个价值 2000 亿美元的市场,它需要更高效、更优化和更便捷的解决方案。而「Monk」的尖端技术有潜力解决这些问题,可以帮助保险公司节省资金,拥有更好的客户满意度。
来源:Ofweek
索尼微软联手优化智能摄像头,IMX500将被赋予Azure AI功能
不久之前,索尼半导体解决方案公司和微软宣布合作开发新产品,即让AI赋能的智能摄像头与视频分析系统能更为可及并轻松地部署到各行各业的终端用户。
索尼表示,对于很多从事不同行业的用户来说,视频分析已经成为他们创造新收入、简化运营模式及解决挑战的一种方式。例如,制造商可能会在伤害发生前使用智能摄像头实时检测出制造车间存在的危险。尽管这在目前的技术发展下已经成为可能,但这一过程的实现需要收集分布在许多智能摄像头中的数据,这就让用户不得不去思考该如何优化计算资源的分配。
为了帮助克服这一问题,微软Azure AI功能将被嵌入索尼的智能视觉传感器IMX500,使其能够从智能摄像头和其他设备的图像中提取有用信息。索尼和微软表示,这一整合不仅将为大众带来更智能、更先进的摄像头,同时也能够在边缘与云端之间更有效地分配资源,以提高效率,降低成本和能耗。
由Azure驱动的索尼智能摄像头管理应用,其目标客户是专门从事计算机视觉和视频分析的独立软件供应商(ISV),以及智能摄像头原始设备制造商(OEM)。这款应用会成为IMX500传感器的补充,以IMX500为基础,ISV和OEM可以训练AI模型,制定出专门面向自己客户或者行业的视频分析和电脑视觉系统,以满足终端用户的需求。另外,这款应用还将大大简化用户在视频分析场景中搜寻、训练以及部署AI模型的流程。
此外,为了促进与合作伙伴和用户的共同创新,两家公司还将在计算机视觉和视频分析领域展开合作,这原本也是微软AI与物联网内部实验室项目的一部分。该项目旨在为客户在创建、开发、构建原型及测试系统上提供设备与解决方案。
来源:Ofweek
能阻挡TikTok的,只剩了这一件事
内容审核是字节跳动绕不过去的一座大山。抖音在国内所面临的压力,TikTok在海外也没能幸免。
印度一位TikTok创作者上传了一段向女性泼酸性液体的视频,再次引发对于TikTok的广泛争议。大量印度用户表示将抵制TikTok,并在Google Play商店中对TikTok给了1星级评价,导致TikTok的评分一度从4.5星陡降至1.2星。
TikTok正高歌猛进海外市场,印度正是下载量最大的市场,迄今为止贡献了6.11亿次下载,占TikTok全球总下载量的30.3%。
字节跳动的出海梦想已照进现实,内容问题使TikTok深陷舆论漩涡,提升内容审核的精准度和速度,能为Tiktok的全球化进程减少一些阻力。
TikTok所面临的内容审核难题,是全球互联网公司共同心病。
亿欧智库研究院院长由天宇表示,在全球范围内,随着内容的数字化程度越来越高,数量越来越庞大,内容类型的复杂度不断增强,需要构建与之相匹配的内容管理机制。
近几年,Google、Facebook、Twitter都显著加强了内容审核的力度,激增的内容包括文字、图片、视频和音乐,审核技术正经受着新一轮的考验。
国内市场内容审核团队已成为大型互联网公司的标配。
以短视频业务为例,2019年1月出台的《网络短视频平台管理规范》显示,网络平台开展短视频服务,应当根据其业务规模,同步建立审核员队伍。审核员数量与上传和播出的短视频条数应当相匹配。原则上,审核员人数应当在本平台每天新增播出短视频条数的千分之一以上。
字节跳动为此早已组建了规模庞大的审核团队,同时也在研发人工智能审核技术。
2018年,字节跳动副总裁张辅评曾表示,字节跳动确保对所有推荐内容进行人工审核,字节跳动审核团队人员已超过1万人,其中大部分从事视频审核。
同一年,字节跳动副总裁、字节跳动人工智能实验室主任马维英透露,抖音一直使用人工智能辅助审核,构成人机交互的闭环:平台上有 600 多个机器学习模型,能够自动理解和识别内容;审核人员同时也是标注人员,用标注好的数据训练模型,再反过来帮助审核。
通过自主研发的AI技术,字节跳动节省超过十万的审核人力,人工审核团队却仍被保留。究其原因,除了管理规范的要求硬性要求外,AI审核的技术瓶颈也是原因之一。
人工智能的局限性在于,不能对所有的媒介形式进行精准识别。
对于图片和视频来说,人工智能介入审核非常有效,因为计算机视觉识别技术相对成熟。机器通过一定时间的训练,都能够识别出敏感类别的内容,比如裸体、枪支等。
在对语音、文字进行分析时,不能达到识别图片和视频的高准确率。不同的文字在不同的语境下,表达的含义可能有所不同,人工智能很难像人一样思考,理解语言的真正含义。背景音和噪音会对识别造成干扰,在方言识别上,AI也略显吃力。
图普科技创始人兼CEO李明强坦言,内容审核目前最大的障碍是语音,国内市场面临方言识别难题,出海企业要针对当地语言配置小语种识别,技术难度大于方言。
在由天宇看来,语音审核在研发阶段需要投入较高的成本,语音内容的精准识别难度较大,语义的复杂性也带来了诸多挑战。
李明强十分看好内容审核产品的未来:“随着5G和融媒体的发展,平台的内容量将会呈几何级数增长。内容审核技术是一个底层服务,市场需求会持续变大。”
来源:亿欧
AI资讯
掌握最新时事新闻
长按扫码关注我们

原创文章,作者:整数智能,如若转载,请注明出处:https://www.agent-universe.cn/2020/06/8516.html