于田| 泾源| 仁布| 上蔡| 封开| 鼎湖| 商丘| 甘孜| 泗阳| 新巴尔虎左旗| 顺昌| 简阳| 南丰| 松阳| 新绛| 阳朔| 多伦| 富平| 兰西| 奇台| 龙岩| 蒙山| 怀仁| 蛟河| 海丰| 仪征| 即墨| 彭山| 察哈尔右翼中旗| 偏关| 澳门| 霍邱| 汕尾| 尚志| 嵊州| 武胜| 额济纳旗| 绍兴县| 大同市| 福泉| 杜尔伯特| 曲靖| 米易| 金坛| 鄂州| 伊宁市| 永州| 南雄| 江油| 鹰手营子矿区| 裕民| 烈山| 西盟| 涡阳| 柳江| 绥棱| 五峰| 广元| 辽源| 始兴| 邵阳县| 八宿| 同仁| 新田| 台北市| 永川| 五莲| 绥棱| 鹤岗| 信宜| 广平| 南雄| 大同市| 东山| 乌马河| 囊谦| 弋阳| 根河| 金山| 麟游| 三明| 通江| 措勤| 巴马| 丰顺| 集贤| 滨州| 滦南| 仁布| 扎囊| 兴业| 太湖| 阜南| 伊春| 昆明| 华宁| 长阳| 三河| 岑溪| 玛多| 沽源| 将乐| 四会| 张北| 阜新市| 临洮| 龙门| 茂港| 开江| 桦甸| 梁河| 华县| 海宁| 花溪| 盱眙| 内丘| 黄陵| 宝坻| 蒙城| 中山| 两当| 定襄| 马尾| 准格尔旗| 翠峦| 南木林| 周村| 贺州| 灵川| 曲沃| 同心| 阳城| 永修| 友谊| 寻甸| 乌拉特前旗| 赤峰| 汪清| 马尔康| 壤塘| 东宁| 嵩县| 楚雄| 内丘| 安福| 西乡| 东沙岛| 索县| 永定| 凤庆| 静宁| 冕宁| 铜陵县| 洱源| 金佛山| 牟定| 闽侯| 南召| 南岔| 靖安| 富民| 叶城| 开原| 华容| 正安| 连山| 沿滩| 莱西| 习水| 都昌| 龙川| 秀屿| 德庆| 淮南| 漠河| 武宁| 浙江| 邓州| 昌邑| 镇宁| 芷江| 兖州| 桃江| 穆棱| 兰考| 黄山区| 额济纳旗| 登封| 宜都| 沈阳| 涟水| 巴青| 平果| 大洼| 连云区| 东山| 拉孜| 岢岚| 石狮| 安西| 都匀| 侯马| 金佛山| 清镇| 昆明| 康平| 珲春| 宝安| 榆社| 宁城| 工布江达| 和龙| 泌阳| 商洛| 黄山市| 新干| 黄冈| 迁安| 安多| 喀什| 任县| 武都| 猇亭| 新乡| 宜城| 宜秀| 崇左| 岱岳| 博白| 云阳| 北宁| 元江| 临潼| 钟山| 涠洲岛| 灵武| 延庆| 邗江| 渝北| 蛟河| 石河子| 宝兴| 隆德| 曲周| 潼南| 淄川| 彭山| 汝城| 下花园| 江阴| 龙游| 陇西| 怀来| 南丰| 晋州| 保德| 安国| 长治县| 内丘| 铁岭市| 太谷| 会泽| 九台|

奇瑞瑞虎7 SPORT正式上市 售价10.99-15.09万元

2019-05-25 00:57 来源:宜宾新闻网

  奇瑞瑞虎7 SPORT正式上市 售价10.99-15.09万元

  不打枝,树朝天上长,结果少。  九、在中国境内从事互联网视听节目服务的单位,愿意接受本自律公约的,均可申请加入本公约。

西电捷通工作人员向记者介绍。  南水北调是世界上规模最大的调水工程,规划了东、中、西三条调水线路,分别从长江的上中下游取水,分三路向西北、华北、华东等地区供水。

  近年来,浙江省推动浙江制造,全面对接国际先进质量标准,变价格竞争优势为质量竞争优势,带动浙江经济迈向中高端,取得了明显成效。  打造中国孟菲斯关键是以航空物流为特色,拉动临空产业发展,完善产业链条、形成产业集群。

      图为吴名驹店里摆满了各式各样的椰雕产品  多年过去,如今,师傅的学徒中只剩吴名驹一人在继续从事跟椰雕有关的工作,我不去做,这项技艺失传了,我不想做历史的罪人。  近年来,西安城墙每年举办新春灯会、国际马拉松赛、中秋晚会、文物保护亲近月等各类文化惠民活动二十余场。

陈先福一家在这里经营着一家叫做交通酒家的农家乐。

    2014年,保护区管理局在海口市政府的安排部署下在保护区长达65公里的海岸线实施保护区边界落界立碑立桩,保护边界的完整性。

  为应对强降雨造成的水位普涨,总调中心紧急调减陶岔渠首入渠流量,全线各闸联调,水情数据加密上报,严防水位超限。  让现代城市发展融合于历史文化名城的保护、让优秀的历史文化以鲜活的方式融入现实生活,如今的西安城墙,已经不再是困扰城市发展的围城,日益成为成为彰显文化自信,讲述中国故事的新品牌。

  专家评审组从100多幅初选稿件中,选出《梦之七彩》、《BEYOUNG》、《孩子们的奇幻国度》等六幅设计稿跻身决赛。

    2003年,西湖向西推进了近1平方公里后,杨公堤以西的水域形成了一个风景迷人的湿地。  此外,村监会更是起到了党群关系的桥梁作用。

    钱要盯住,一分也不能乱用  管钱,是后陈村监委会成立最初的目的,盯着什么钱该花,什么钱不该花。

  项目实施后,西湖湖西水域成功恢复了大面积沉水植物群落。

  最让王大妈高兴的,是当年吃过她做的面的人,也会专门回来再吃一碗,品尝久违了的乡愁的味道:有次一个女顾客跟我说,我跟你女儿是同学,我专门过来吃你的猪头面,小时候在这里读书时吃过。记者们的衣服湿了又干,干了又湿,成为了常态。

  

  奇瑞瑞虎7 SPORT正式上市 售价10.99-15.09万元

 
责编:
您正在使用IE低版浏览器,为了您的雷锋网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
雷锋网 读懂智能&未来
人工智能 正文
发私信给程弢
发送

0

谷歌硬件工程师揭秘,TPU为何会比CPU、GPU快30倍?

本文作者:程弢 2019-05-25 14:03
导语:从这次发布的测试结果来看,TPU似乎已经超出了业界的预期,但是藏在这一芯片背后的内部架构究竟有什么秘密呢,我们从Jouppi此前发布的论文当中,可以找到答案。
  今年以来,空港新城选取全球领先的机场与航空规划咨询公司美国兰德龙布朗,共同研究制定打造中国孟菲斯的目标定位、产业体系、运营模式、发展路径等,从专业角度进行顶层设计。

谷歌硬件工程师揭秘,TPU为何会比CPU、GPU快30倍?

在谷歌发布TPU一年后,这款机器学习定制芯片的神秘面纱终于被揭开了。

昨日,谷歌资深硬件工程师Norman Jouppi刊文表示,谷歌的专用机器学习芯片TPU处理速度要比GPU和CPU快15-30倍(和TPU对比的是英特尔Haswell CPU以及Nvidia Tesla K80 GPU),而在能效上,TPU更是提升了30到80倍。

从这次发布的测试结果来看,TPU似乎已经超出了业界的预期,但是藏在这一芯片背后的内部架构究竟有什么秘密呢,我们从Jouppi此前发布的论文当中,可以找到答案。

据雷锋网(公众号:雷锋网)了解,早在四年前,谷歌内部就开始使用消耗大量计算资源的深度学习模型,这对CPU、GPU组合而言是一个巨大的挑战,谷歌深知如果基于现有硬件,他们将不得不将数据中心数量翻一番来支持这些复杂的计算任务。

所以谷歌开始研发一种新的架构,Jouppi称之为“下一个平台”。Jouppi曾是MIPS处理器的首席架构师之一,他开创了内存系统中的新技术。三年前他加入谷歌的时候,公司上下正在用CPU、GPU混合架构上来进行深度学习的训练。

Jouppi表示,谷歌的硬件工程团队在转向定制ASIC之前,早期还曾用FPGA来解决廉价、高效和高性能推理的问题。但他指出,FPGA的性能和每瓦性能相比ASIC都有很大的差距。他解释说,“TPU可以像CPU或GPU一样可编程,它可以在不同的网络(卷积神经网络,LSTM模型和大规模完全连接的模型)上执行CISC指令,而不是为某个专用的神经网络模型设计的。一言以蔽之,TPU兼具了CPU和ASIC的有点,它不仅是可编程的,而且比CPU、GPU和FPGA拥有更高的效率和更低的能耗。

TPU的内部架构

谷歌硬件工程师揭秘,TPU为何会比CPU、GPU快30倍?

该图显示了TPU上的内部结构,除了外挂的DDR3内存,左侧是主机界面。指令从主机发送到队列中(没有循环)。这些激活控制逻辑可以根据指令多次运行相同的指令。

TPU并非一款复杂的硬件,它看起来像是雷达应用的信号处理引擎,而不是标准的X86衍生架构。Jouppi说,尽管它有众多的矩阵乘法单元,但是它GPU更精于浮点单元的协处理。另外,需要注意的是,TPU没有任何存储的程序,它可以直接从主机发送指令。

TPU上的DRAM作为一个单元并行运行,因为需要获取更多的权重以馈送到矩阵乘法单元(算下来,吞吐量达到了64,000)。Jouppi并没有提到是他们是如何缩放(systolic)数据流的,但他表示,使用主机软件加速器都将成为瓶颈。

谷歌硬件工程师揭秘,TPU为何会比CPU、GPU快30倍?

256×256阵列缩放数据流引擎,经过矩阵乘法积累后实现非线性输出

从第二张图片可以看出,TPU有两个内存单元,以及一个用于模型中参数的外部DDR3 DRAM。参数进来后,可从顶部加载到矩阵乘法单元中。同时,可以从左边加载激活(或从“神经元”输出)。那些以收缩的方式进入矩阵单元以产生矩阵乘法,它可以在每个周期中进行64,000次累加。

毋庸置疑,谷歌可能使用了一些新的技巧和技术来加快TPU的性能和效率。例如,使用高带宽内存或混合3D内存。然而,谷歌的问题在于保持分布式硬件的一致性。

TPU对比Haswell处理器

在和英特尔“Haswell”Xeon E5 v3处理器来的对比中,我们可以看到,TPU各方面的表现都要强于前者。

在Google的测试中,使用64位浮点数学运算器的18核心运行在2.3 GHz的Haswell Xeon E5-2699 v3处理器能够处理每秒1.3 TOPS的运算,并提供51GB/秒的内存带宽;Haswell芯片功耗为145瓦,其系统(拥有256 GB内存)满载时消耗455瓦特。

相比之下,TPU使用8位整数数学运算器,拥有256GB的主机内存以及32GB的内存,能够实现34GB/秒的内存带宽,处理速度高达92 TOPS ,这比Haswell提升了71倍,此外,TPU服务器的热功率只有384瓦。

谷歌硬件工程师揭秘,TPU为何会比CPU、GPU快30倍?

除此之外,谷歌还测试了CPU、GPU和TPU处理不同批量大小的每秒推断的吞吐量。

谷歌硬件工程师揭秘,TPU为何会比CPU、GPU快30倍?

如上图所示,在小批量任务中(16),Haswell CPU的响应时间接近7毫秒,其每秒提供5482次推断(IPS),其可以实现的最大批量任务(64)每秒则可以完成13194次推断,但其响应时间为21.3毫秒。相比之下,TPU可以做到批量大小为200,而响应时间低于7毫秒,并提供225000个IPS运行推理基准,是其峰值性能的80%,当批量大小为250,响应时间为10毫秒。

不过需要注意的是,谷歌所测试的Haswell Xeon处理器似乎也不能完全说明问题,英特尔Broadwell Xeon E5 v4处理器和最新的“Skylake”Xeon E5,每核心时钟(IPC)的指令比这款处理器提升了约5%。在Skylake是28核,而Haswell为18核,所以Xeon的总体吞吐量可能会上升80%。当然,这样的提升与TPU相比仍有差距。

最后雷锋网需要强调的是,TPU是一个推理芯片,它并非是要取代GPU,可以确定的是,TPU与CPU一起使用对训练分析更加有益。但对于CPU制造商而言,如何研发出像ASIC一样兼顾性能和能效的芯片是现在以及未来要做的。

可以确定的是,谷歌已经逐渐在自己的数据中心部署TPU,但是上述测试数据只是理论结果,实际应用表现如何?我们还不得而知。

Via nextplatform,雷锋网编译

雷锋网版权文章,未经授权禁止转载。详情见转载须知

谷歌硬件工程师揭秘,TPU为何会比CPU、GPU快30倍?
分享:
相关文章

文章点评:

表情

略懂技术的小编

关注一切有未来感的产品及技术!
当月热门文章
最新文章
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
王串厂一路 电白 久泽村 上卢凤营村 新民镇
保安大街 广通道 鲁甸县 石狮市房改办 兴房东里社区