24小时热线:0080-1257691

市北GMIS 2019:杨强用联邦学习打破数据孤岛,吴恩达谈企业转型

作者:欢乐飞艇     发布日期:2019-08-27 16:31     浏览次数:243

  7月20日,「市北·GMIS」第二天更加精彩,杨强、吴恩达、俞凯等重磅嘉宾继续带来了;1。2场主题演讲,内容涵盖联邦学习、认知智能、图表征;神!经网络等前沿技术,同时AI应用侧的探索也异彩纷呈、。

  在前沿技术方面,、杨强教授分享了;如何用联邦学习打破数据割裂,吴恩达谈到小数据、无监督学习对未来人工智能发展的重&#;要性,俞凯也抛出认知智能的技术演进路线。

  在AI应用方面,华为带来从工程视角审视人工智&#;能的新思路,阿里巴巴、美团展示了AI在大规&#;模场景数据中的应用,周涛教授则呈现AI社会治理与、监管方面的新研究。

  杨强:用联邦学习打破;「数据孤岛」

  作为今天大会的第一位开场&#;嘉宾,,微众银行首席人工智能官、国际人工智能学会理事长、香港科技大学教授杨强带来联邦学习的;最新发展与应用。

  AI发展到今天面临很大挑;战,尤其,是数据挑战。数据孤岛、小数据、用户隐私的保护等导致数据的割裂,让AI技术很难发挥出价值。为了解决这一问题,、杨强教授提出「联邦学习」的研究方向。

  所谓联邦学习,、是多、个数据方之间组成一个联盟,共同参与到全局建模的建设中,各方之间在保护数据隐私和模型参数基础上,仅共享模型加密后的参数,让共&#;享模型达到更优的效果;。

  杨强介,绍道,联邦学习可分为横。向联邦和纵向联邦,横向联邦是指企业各方数据维度相同、ID维度不同,更多存在!于消费者应用中;纵&#;向联邦是指企。业各方数据的ID维度相同(样本重叠)、数据维度不同,更多存。在于B端应用。

  在具体的使用场景中,杨强重点介绍了联邦学习在金融行业中的应用。比如针对保险行业的个性化保险定价问题、,一家互联网企业和一、家保险企业进行数据合作,这种、合作数据的ID重合度相当大。,数据特征维度大大增加,使模型的个。性化。定价效&#;果显著提升,、为保险企业带来8倍覆盖率提升和1.5倍利润率提升。

  在另外一个小;微企业信贷管理案例、中,使用联邦学习后,企业将风;控,区分度提升12%,使贷款不良率小于千分!之五。

  即使在双方既没有共同的ID,数据特征,也不同的情况下,也可以使用迁移学习结合联邦学习进;行共同建模。

  杨强&#;强调,联邦学习一定是多方共同协作组成一个联盟,生态的建设十分重要。它最大的优势是,保证数据不出户,通过生态在不同行业选取合作伙伴,&#;用群体智能不断提升模型&#;效果。

  未来,安全合规、防御攻击、算法、效率、联盟机制等都需要进一,步研究。比如联邦;学习中各方合作的一个基础就是加密技术,加密算法的效率显得尤为重要,算法&#;的改善还!有很长的路要走。

  吴恩达:利用、AI带来的动能

  深度学习先驱吴恩达(AndrewNg),是大家耳熟能详的名字,他!的演讲也获得了最多的掌声。今天,吴恩达在G&#;MIS大会上与人们探讨了企业的人工智能转型。

  「四年前!我提出了一个概念:AI是新的电力。现在我得说,AI带来的!动、能正在展现效果。」吴恩达&#;说道。「看看近年来有关AI的工作需求数量,每年都有35%。的增长,深度学习的发展正;在让人工智能领域变得繁荣。麦肯锡最近的预测认为到2030,年,全球的经济增长量中将有13万亿美元来自人工智能技术的贡献。」

  「以机器学习领域的论文数量为例,两个月前谷歌的JeffDean;曾展示了一个数字:arXiv上每天关于机器学习的论文数量!超过100篇。」吴恩达表!示;。「今天,我们也有了很多机器学习工&#;具,包括神经网络框架TensorFlow、PyTorch、M!XNet和百度飞桨,这些工具&#;正在让人们使用机器学习的门槛变得越来越低。」

  吴恩达表示,几个月前他曾在加州!参加了一个创业挑战:一支来自印度的团队展示了机器&#;人;应用方法,其可以自动拍摄农田的照片。有趣的是,、开发这一应用的人只有1,2岁——他使用开源的工具和算法完成了这一任务。现在的人工智能业务已经可以由任何,人来做了。

  通过足够的数据和算力、灵活的工具以及创新的想法,我们可以建立起属,于。自己的;AI项目。很多公司的CEO都在担心如何把AI技术加入企业&#;工作流程中。这个转型过程有时是1-2年,或是更长。他们!担心选择了错误的项目、设定了不切实际的、目标,如果转型失;败,公司会蒙受巨大损失。

  「看看今天的世界,有关,AI的应用越来越多了。但企业的AI转型!并不。是开发一个APP这么简单。」吴恩达表示。

  去年底,吴恩达发布了,《AI转型指南》,希望以教育;者的身份将「A&#;llinAI」的经验传授给众多公司管理者。作为AI领域的先驱者,吴恩达从谷歌大脑和百度A!I团队的;发展中收集洞见,它们对谷歌、百度的AI转型扮演着重要角色、。参照此指南,任何企业都有可能成!为!强大的AI公司。

  为了找到正确的方向,我们需要从简单的地方起步,自动化任务而非工作,。并把人工智能和人,类的专业知识进行结合,这样才能更好地帮助公司选!择正确的AI项目。「我,们发现,很多公司第一个落地的AI项、目通常并不是最有潜力的项目&#;。我给很多、公司的建议是做一次头脑风暴,至少看六个不同的项目,」吴恩达表示。「然后花费几个星期进行调研工作,确保这个,项目是有价值的。」

  吴恩达为企业AI转型给出了如下建议,,在《,AI转型指南》中也有详尽解释:

  1.实行试点项目获。得动力

  2.建立一、支内部AI团队

  3.提供广泛的AI培&#;训

  4.策,划合适的AI战略

  5.建立内部和外、部沟通

  在期待AI为企业带来的红利之前,我们还需要避免几个陷阱:不要期待AI立刻产生作用,&#;而是要多次、尝试,对AI发展的回报曲线进行合理,预算;不要使用传统的流程评估人工智能项、目,应该为AI项目团队设立合适的KPI和目。标;在团队建设时,我们不能仅依靠明星;工程师,而,是要建立一个完善的团队。

  「看。到AI崛起,我们需要&#;有正确的概念,首先AI是一个系统的工程。我们需要集中,很多人的团队才能完成一项具体任务。」吴恩达表示。

  对于未来的人工智能发展,吴恩达认为,我们应该期待能够利用小数据的新算法:「我们现在只能用人眼检测手机屏幕&#;的划痕,——如;果有大量图片,AI也可以做得很好,但没有任何;工厂会有几百万不同划痕的手机。这个时候,我们就需要fewshotlearning、无监督学习等新方法;,能从很少的例子中学习出正确的概念。」

  强化学。习和自我学&#;习可以在虚拟环境中进行训练,从而避免在真实世界的应用中遇险。而且这些模、拟可以并行化,同时进行大量的试验,很快学习出解决方案。

  AI正!在走向端侧、,区域计算中心也要承担部分计算,吴恩达对于5G有着很高的期待:「5G是非常重要的技术,这项技术在中国。的发展已经超过了美国。它能让网络延迟从4G的20毫秒降低到仅仅1毫秒;,并支持!更多设备的连接。5G可以支。持更多种类的应用,帮助AI&#;发展出更多新的形势。」

  认清人。工智能的极限

  在过去十年里,我们看到了人工智能的一些真正突破,机器翻译这!样20年前仅、存在于科幻小说里的东西。,现在已经成为全球数百万人每天都在使用的技术了。;同时我们还看到了很多令人兴奋的进展,如人脸识别技术。在2,012年时,吴恩达等人在谷歌的研究引领、了图像识别领域的重大突破。

  「现在的计算机在识别面部方面比人类做得更好。所有这些使得我们相信、:我们似乎拿到了、人工智&#;能魔法的配方,它就是深度学习。」牛津大学计算机系主任MichaelWooldridge在大会上说道。「看起来是这样的,但进一步的探索之后。我们就会看到目、前机器学习技。术的。尽头。人们都在问边界是什、么,我们现在已经看到了一些界限。」

  MichaelWooldri,dge向我们介绍了人工智能目&#;前的优势与限制。

  计算机在1940年被发、明出来的时候,被用来处理一些数!学问题——它比人类做得。好,可!以,24小时不停地工作,人类是做不到的。

  但一些人类每天都在使用的简单能力,机器学习却是做不到的——计算机无法,进行长期推理,无法做问题。的定义,难以,对周;遭环境形成认知,也难以完成可靠的判断。

  「你抽烟吗?如果你每天抽20支烟,得肺癌的几率会有很大提升。这是,一个简单的推。论、,但对于计算机来说是难以理解的。」Wooldridge表示。

  今天,AI最重要的问题在于!认知能力——理解周围的情况。「这个技术关乎无人驾驶的可行性,我们可能会、在;未来的5、10或!是30年后实现它,」Wooldridge说道。「自动驾驶归根结底就是让汽车知晓周遭情况&#;。深度学习在这方面已经形成了很大,的突破,但并未完全解决有关认知的问题。」

  历史上,想要!让AI进行推理,并展现认知能力,人们找到了两种;思路:

  ·自上而!下的方法:基于专家知识的AI——比如由人类教AI认识规则,从而让它学会如何开。车。但在规则太多的情况下,我,们仍然无法实现可靠的认知,深度学习这种方法效果反而很好。

  ·自下而上;的方法就是机器学习,通&#;过数据的输入和判断的输出,,通过大量已标注样本进行学习,不断!更新模型权重,最终让计算机学会概念,进而拥有判断的能力。神经网络和深度学习是目前流行的方法。

  由于算力限制等客观原&#;因,深度学习方法在很长一段时间内并不实用,而今天,深度学习已!经可,以学会很多能力了。Wooldridge举了DeepMind让AI、打Atari游戏的例子:在600;次迭代之后,强化学习算法在没有人类教学的情况下,通过自我训练。学、会了效率最高的得分方法&#;。

  但基。于数据驱动的方法也有其极限,以法&#;文诗歌的翻译为例,人类专家的翻译结果能够保持优美,但、谷&#;歌翻译&#;的机械结果显然不尽完美。机器不能理解语言背后的意义,不懂法国文化。如果需要好翻译,计算机需要看懂文字背后的深。层内容。截至目前,我们不管把多少英文-法文文本输入到神经网络中,也无法获得像人类;这样的理解。

  Woo;l。dridge举了个更有趣的例子,机器学习也不能理解这样的文字:

  -Bob:「Imleavingyo;u.」

  -Ann。:「Whoisshe?」

  如果把这六个单词输入谷歌翻译中,。翻译成任何语言,&#;我们都!能获得不错的直译结果,但机器是无法理解自&#;己在干什么的。「人类的学习方法和机器是不同的过程。机器如果要对语言有所理解,就要理解世界的一些常识知识。深度学习是一个很大的突破,但这不是真正的AI,。要想实现真正的智慧,我们还需要更多。」Wooldri;dge说道。

  周涛:,一张街景照片引发的城市安全感分析

  作为国内大数据行业!启蒙导师之一,电子科技大!学;教授。周涛呈现了在商业之外,AI、大数据在社会治理和监管中的真实应用。他抛出一个独到观点:「未来社会治理和监管会有四方面的变化,自动化+规模化+!定量化+客观化,AI、大数据将会发挥越!来越大的作用。」

  围绕这。一观点,他介绍了AI、大数据在城市治理、金融监管、环境治理等方面的真实应用。

  你很难想象、,一张城市街景照片可以跟社会治理产生关联。,周涛教授的学生在北美一个城市,通过谷歌在、十几万张照片中选择了2000张街景照片,然后在网上通过志愿者做。了一个简单的实验,看图回、答你觉得这个地方是否安全,大约经过60天采集到了五十多万数据。然后将这20、00;张图片排序,看哪些是安全的,哪些是不安全的,把排序,映,射!到0-1的空间中去。再通过计算机进行特征学习,对看到的图片进行打分,结果表,明计算机的打分和人类评分的关联性可达0.87,这意味着很。强的相关性。

  这一、打分背后可以反映大众对城,市;环境的安全认知。同样地,&#;计算机也可以对城市的;绿化水平、卫生条件、总体幸福感等,评分。周涛团队在成都也做了一些类似的事情,。通过计算机的评分,我们能够立刻知道一个城市哪里最安全、哪里幸福感最好、哪!里卫生条件最差等。

  另外,通过观察一个城市5年、10年的城市发展照片,计算机也能从数&#;据中呈现城市环境是否变。好、老百姓的幸福感有没;有变强。这可以大幅改变城市管理者对城市的认!知,从而指导政府的城市治理工,作。大数据、机器学习技术连接了人类判断和机器判断。。

  ;此外,周涛团队基于中小企业的行为数据为政府提供金融监管平台,,通过卫星遥感数据在四川进行水质污染的实时;监测。

  机器学习;的工程化视角

  在下午的「&#;数据思维与工程实践」板块,华为IT标准专利;部主任工程师黄之鹏另辟蹊径地分享了AI的&#;工程化视角,。

  「我们提到机器学习,经常会想到大欢乐飞艇数据应&#;用,但这次我希望介绍一下工&#;程&#;化视角(GAIA原则);的机器学习,」黄&#;之鹏表示。「华为希望以通用性技术来解决问题。在抽象的过程中,则希望有统&#;一的接口。我们希望所有的工作都能有很好的操作性、可解释性:写好一次代码,在其他任&#;务中都可以应用。另外,机器学习最终;的目的是自动化。」

  !在开源领域里,华为一直&#;在推动全栈视角,真正的AI需要打通全栈,实现端到端的人工智能工作流程,开发者不仅应该知道怎么用框架&#;完成任务,还要知道模型跑在不同。的环境里,需要如何简单地进行转换。

  黄之鹏着重介绍了近年来华为在开源社区ONNX中的贡献。在此、前推理侧的模型转换基础,上,机器学习社区正在;密集讨论、模型训练的新方向。华为在这方面的贡,献包括边缘设备的通用方法,以及对于Model,Zoo的算法贡献!与方法提升。

  华为今年开始尝试推动开放异构计算框架(OHCF),实现端到端的开源全栈概念。对于厂商来说,新的框架。是一个基准,对于客户来说;它也可以作。为开发的参考。通过OHCF,我们;可以实现面向专用硬件的元数据管理。

  「开源正在吃掉软件,其实也在吃!掉硬件。对于我们来说,最!重要的是把这些信息汇总到管理平、台上,形成更好的映射,更好地调用机器学习任务。」黄之鹏表示。

  接着,阿里巴巴资深技!术专家、阿里妈妈大数据和机。器学习平台负责人张迪。介绍了深度学习与图表征神经网。络在淘宝广告推荐中的超;大规模应用。

  他说,「过去五年中,以深度学习为代表的AI;技术在CV领域取得巨大成,功,但对于很多大的互联网公司来说,占公司内部80%以上算力的应用还是搜索、推荐、广告,它们是沉默的大多&#;数应用。」

  用户在淘宝上的行为是非常复杂的,包括浏览、收!藏、购买等。,电商广告面临的挑;战是如何洞察用户的兴趣习惯,,推荐个性化的产品。而随着深度学习的引入,网络变得越来越复杂,,新的挑战是,广告推!荐场景以特征为主,一方面高维稀疏特征导致模型非常大,往往达数百G甚至上T规模;另一方面,,相比CV场景,广告推荐场景在参数规模、样本规模上都要大一两个数量级,参数通常达千亿规模,样本通常达千亿到万亿规模,所以必须要做一个全局设!计保证计算芯片高效!率&#;运行;。

  阿里打造了高维稀疏场景的深度&#;学习框架,并提供非常多的训练模式,进行分布式模型存储。等,进而优化推荐模型,比如推荐场景下使用;的结构化训练范、式可将训练性能提高4~5倍。

  张迪还谈道,淘宝上的商品、店铺、品类等本身就是!一个超级大图,用户的购买行为构成了大图之。间的连接,所以电商人货场匹配的、场景非常适合用大规模图表征学、习进行刻画。

  它可以对;图中的深层次关系进行更动态地刻画,比仅仅使用深度学习有更好的可解释能力。以C!TR点击率预估为例,使用分布式图表征学习后,可以把表征做的更加深,入,并且整个系统更加简单。

  他总结道,使用图表征学习和深度学习结合有两个优点,第一是使输。入的样本大幅度减少,另一个是在对整个历史用户行为进行刻画、时可以动态地进行表征学习;。

  美团和大众点评每天在全国都会有60万骑手把;商品递送到消费者手中。美团大众点评智能搜索团队负&#;责人张弓介绍!了搜索智能化的落地和相应系统建设:「与!通用搜索和电商搜索不同,美团点!评的生活服务搜索会遇!到不同的挑战。当用户搜索日本料理的时候,我们是给他推荐一个近距离的商家,还是距离稍远,但是更高端的呢?」

  搜索、不仅是一、种完成用户需求的服务,也是一个天然的大数据系统,美团点;评构建了支持海量离线数据的处理能力,使用在线学习方法实时感知用户需求的变化。「通、过大数据处理框架的开发,我们建设的搜索系统架构支持异,构数据,支持复杂模、型。智能数据的处理是非常重要的。」张弓介绍道。

  目前,美团点评已有4亿用户、千万级POI、1.4亿店菜、数量高达4!0亿的真实点评文本,这些数据可以用来构建知识图谱,从;海量;数据中学习知识、。张弓表示:「我们构建了美团大脑,这是一个知识提炼框架。我、们在构建的过程中发现这和人类社会的科技进化史方法很相似:通过大数据(原料),我们可以提&#;炼出知识(金属),进而构建模型(&#;工具与组件),最后打;造出高科技的产品——飞机、火车等等。」

  这样一套框架!可以帮助美团源源不断地产出各种丰富的显性和隐性知识。美团最终希望打造一个一站。式的全场景搜,索需求,构建面向消费者的智能助理,帮助消费者吃得更好、玩得;更好。

  传统汽车交易链条很长,&#;具备不确定性,导致交易的复杂性。车,好。多集团高级&#;算法专家王文斌分享道,车好多围绕「人、!货、彻探索了不同的智能化应用,,比如车况智能评估、智能、定价等。今天他重点介绍了公、司在对话机器人领域的探索。

  对话机器人可以连接企业和用户,一方面它降低了&#;人力和培&#;训成本,使服务质量可控,提升效率;,、另一方面它通过推荐系统和多轮对话,引导用户完善用户画像,实现精准;营销。

  &#;对话机器人最核心的是两个方面,理解用户意图,然后给出回答。车好多基于底层的NLP技术,结合汽车领域的数据,开发出了意图识别、智能导购、对话辅助等,来支持相关业&#;务的开。展。

  王,文斌认为多轮对话是个工程问题,需要从填槽、场景管理、可配置上进行优化。此外他还;谈到,在具体。业务场景中,产品与算法的平衡、业务和技术的平衡等都是对话机器人所面临的挑战。

  产业,的重生与变革

  ;在最后一个板块「智能应用与产业生态」中,如何定制对话式语音助理、AI在零售和教育的落地成为关注点。

  思必驰联合创!始人、首席科学家俞凯谈;道,!「技术提供商的通用技术和高度灵活个性化应、用的需求往往成为主要矛盾。」

  为此,;思必驰提供可定制的对话式人、工智能平台。他称这样一个平台,必须要具备工程、(模型)资源、(个性化)&#;算法三&#;方面的支撑。

  在工程支撑方面,语音助理必须以对话为核心,!做到高可用定制、定制规模化,此外还、要做到软硬件一体化,,提供智能信息!服务。

  在。资源支撑上,针对语,音识别、理解、表述、合成等方面,需要有自动化!的技术,实现定制化的、识别,并扩展相应、的语义理解。

  在算法支撑方,面,个性化自适应算、法要解决三个难点问题,首先要能够智能检测,发现目标;通过、小数据迁移学习,通过。语!意槽;的共享,迁移到不同的应用场景;还要具备在线自适应试错学习,基于试错的强化学习解决对话交互策略问题。

  。俞凯还指出对话层面的认知智能技术,路线,即从深度学习演进到迁移学习,由数据驱动变为数据和知识混合驱动,由!需要预先搜集数据的开环学习转变为闭!环学习。

  码;隆科技联合创始人、首席技术官MattScott向我们介绍了人工&#;智能技术近期在零售领域的发展:「我们现,在处于零,售的重生阶段,。而不是零售的启示录阶段。零售业公司不会全部!变成。电商,但在演进过程中必然会有转型,这就是我们需要用到AI零售的地方。」

  有关新零、售这个主题,我们已经看到了,太多PR内容,什么是真正的零售AI、?Scott认为,我们谈论的首先是数据,其次是算法,我们需要无监督学习/弱监督学习处理大量数据。

  对于零售商!来说,&#;他们需。要的是可扩展的、有真实效益的解决方案。零售在!真实世界中总会遇到各种各样的问题,AI必须解决这些问题,,否则无法实际部!署。另一方面,零售行业的利润率非常低,在成本效、益上,新的方法必须达到很好的效益。

  「我们不能为高科。技付出太多的成本,我们不能放太多的摄像头,有太多的设备要求,这。是无法扩展的,」Scott表示。「比如自动化的购!物体验,它还有很长的路要走,在大店模式上难以实现,目前只适用于小店。」

  在超市自主称重的问题上,我。们现在可能需要在商;品列表中翻。好,几页选择,正确的种类才能算钱,如果我们为这个系统加入一个摄像头,使用AI自动识别商品,问题就能很快解决了。Scott表示,使用码隆科。技的技术,即使被装在袋中的水果,摄像头之后的算法也能快速识别,准确率超过99%。

  在这背后的算。法也很重要,码隆科技立!足于、科技领先的研究。「大多数人都关注AI的架构和数据,码隆科技则关注损失函数!和学习策略,我们发现这可以极大提升算法的识别效果。」Scott表示。

  码隆科技推出的弱&#;监,督学习算法Curricu,lumNet在一些任务中实现了业内最佳的效果。论文已经被ECCV2018大会收录。而在GPWFramework;的研究中,码隆已经可以对比所有损失函数的优缺,点,新的研究已被CVPR2019大会接收;。

  暗物智能深耕的,场景是AI+教育。其研发总监!梁&#;小丹称,暗物智、能从技术上搭建了五层的AI认知架构,第一层。是执行交;互;层,第二层是感知和、行为层,第三层是任务与调度层,第四层是思维与动机层,第五层是价值和规范层。

  它具备语音交互、计算机视觉、逻辑处理等多模态能力,。并研发了一款桌面陪伴机器人。

  暗物智能还通过、学习教育机;构的视频,自动生成背、后的教学逻辑,训练AI老师。在智慧课堂场景中,它通过分析老师与学生的对、话交互,判断。老师,有没有把某个知识点教会学生,以及学生对哪个知识点掌握得较为薄弱,进而进行个性化AI辅导。

  、最后,黄之鹏、俞凯、MattScott、梁晓丹和WonderTech。nologies首席数据科学家Christoph!erDossman共同围绕AI应用创新与挑战进行了一场圆桌对话。

  「在未来十年可解释的AI是最!重要的方式,&#;只有可信的AI才能够推广到各类领域中。」俞凯表示。

  MattS,cott则认为目前我们仍然处&#;在AI技术发展的开始阶段:「当今!的人工智能研究还&#;有一些基础的问题未被攻,克。、机器学习无法学会人类学习经验的;方法,我认为结合多种感官输入的多模态算法&#;将会是未来AI的重要发展方向。」

  广;告