爱板网的新老用户,告诉你一个好消息,爱板网(www.eeboard.com)将在近期并入电路城(www.cirmall.com)网站,我们将爱板网中丰富的开发板资料与电路城大量优质的电路方案相结合,旨在为广大工程师朋友打造一站式的技术资源库,你所需的电路设计技巧、开发板评测、电子产品拆解、硬件解决方案,都可以在合并后的电路城网站找到,助力你的技能进阶。让我们一起期待一个全新的体验吧!
X
现在的位置: 首页资讯>正文

你掌握的AI技能,可能并没有那么值钱

2019年03月12日 作者: 暂无评论 284+ 0

编者按:AI潮已经席卷整个世界,各种AI初创公司遍地开花,但不是所有都能获得成功本文作者Ric Szopa是 invoo. vc 的首席技术官。此前, Ric是MicroscopeIT 公司的首席技术官, 该公司是一家专门从事计算机视觉、机器人和显微镜图像处理的软件公司。他曾在谷歌 (google) 从事 youtube 数据库基础设施工作。他认为,对于以AI为商业核心的企业而言,发展的道路上,有几个很关键的“事故高发地”。本文编译自KDnuggets的原题为“Your AI skills are worth less than you think”的文章。

AI热已经热了好一阵子了。机器学习专家的工资开得很高,投资者面对AI企业,也很乐意用心倾听,打开心门,然后打开支票簿。确实,科技革新能带来翻天覆地的变化,每一代人都有这样的机遇,而AI就是我们这一代的大机遇。技术带来的改变是无法逆转的,它会对我们的生活有深远的影响。

但是,这也不是说AI企业要成功就易如反掌。 我认为,以AI为商业核心的企业而言,发展的道路上,有几个很关键的“事故高发地”。

你的AI技能在不断贬值

2015年,我还在谷歌上班的时候,开始摆弄 DistBelief(后来改名叫TensorFlow),当时它还很差劲,写起来很费劲,主要的抽象过程也和我想的不太一样。想让它在谷歌的开发环境之外独立工作,简直是黄粱美梦。

到了2016年年底,我在弄一个通过组织病理学图像来发现乳腺癌的POC测试。我的想法是利用迁移学习,拿癌症的数据来训练谷歌最好的图像分类架构Inception。权重就用谷歌提供的训前权重,光换顶层布线层的数据。用TensorFlow不断实验、试错之后,我终于知道怎么操控不同的层,几乎就成功了。这个过程需要很大的耐心,还要读TensorFlow的源,但是至少我不用担心依赖的问题,因为TensorFlow好心提供了docker镜像。

2018年年初,对于实习生做的第一个项目来说,上述的项目不够复杂。有了Keras(TensorFlow基础上的框架),不需要对项目有什么深层的了解,用Python写几行代码就完事了。不过超参调优还是有点麻烦。如果已经有了深度学习模型,就有好几个参数可以控制,比如多少个层,每层的量等等。但最优参数设置也不简单。有些直觉式算法(比如网格搜索)不是很好用。于是我们就要不停地做实验,与其说这是科学,到更像是一门艺术。

在我写下本文的时候(2019年年初),谷歌和亚马逊已经提供自动模型调试的服务 (Cloud AutoML, SageMaker), 微软也正有此意,计划在筹备中了。我预计,模型微调很快就不需要人工操作了。

我希望读者能看到事情发展的趋势:原先难做的事情变简单了,知识水平的门槛降低,让懂得不多的用户也可以实现更多。过去的工程壮举,在今天看来也没那么了不起,而我们不能指望未来还不如现在。这其实是好事,是进步的表现。我们应该把功劳记在谷歌这样的公司头上,他们大手笔投资之后,将成果分享给世人。但是他们这么做,也是有两重原因的。

首先,谷歌的真正商品是云架构,而上述举动是为了将其互补品商品化。在经济学上,如果人们倾向于同时购买互为补充的两种商品,比如汽油和汽车、牛奶和麦片、培根和鸡蛋。如果互补商品组合其中之一价格降低,另一商品的需求就会上涨。而云架构的互补商品就是云端的软件。而且AI相关的项目一般需要很多计算资源。这么以来,将开发的成本降到最低也就十分合理了。

其次,谷歌之所以对AI那么热心,是因为他们在这方面相对于亚马逊和微软有明显的优势。谷歌的起步更早,让深度学习的概念热门起来的也是谷歌。他们也没少招兵买马,招揽了不少人才。他们在开发AI产品上经验更丰富,所以开发相关工具和服务方面也更有优势。

虽然技术进步让人兴奋,但是对于在AI技能方面做出很多投入的企业和个人来说,可不是什么好消息。现在,培养出有AI技能、能胜任工作的机器学习工程师确实能带来很多好处。其成本也是很大的,工程师需要花大量的时间阅读论文,还要有坚实的数学基础。但是,工具变得越好越好用,情况就不一样了。这份工作就会转向阅读教程,而不是看论文了。如果你不快点找到自己的优势,就会有一帮实习生带着数据库来抢粮了,尤其是他们的数据质量可能更高呢...这也引出了我要提的第二点。

数据比高大上的AI架构更重要

假如有两个AI企业创始人,小红和小明,他们的企业创业资金差不多,在同一个市场中竞争。小红把钱投资在最好的工程师上,聘请在AI研究方面成绩不错的博士。而小明请的工程师水平还不错,能胜任工作,她(小明也可以是女性!)把钱投资在更好的数据上。你会把宝押在谁身上?

我会把宝押在小明身上。机器学习的本质救灾与将信息从数据集中提取出来,然后按权重处理。好的模型在处理的过程中效率(就时间和整体质量而言)会更高,但是在模型差不多的前提下(也就是说,模型真的能得出有用的结果),数据的质量会比好的架构更重要。

为了说明这一点,我们来做个快速粗略的小测试。我创造了两个卷积网络,一个“好”,一个“差”。较优模型最后的全连接层有128个神经元,而较差模型凑合着用了64个。我用 MNIST数据集的子集训练这两个模型,然后用测试集得出两个模型的准确度,与他们受训的样本数量对比。

数据集的规模有明显的积极作用(至少在模型开始过度拟合和准确率平台之前)。较优模型用蓝色表明,显然比绿色标明的较差模型表现更好。但是,我想之处的是, 在如果较差模型的训练样本数达到4万时候,就比用3万样本训练的较优模型更优秀了!

在我闹着玩举的例子里,我们面对的是一个相对简单的问题,我们的数据集也比较全面。但是现实生活中就没有这样的好事了,问题往往复杂得多。很多情况下,扩大数据集也得不到这么巨大的效果反转。

而且,和小红的工程师竞争的不是小明手下的人。由于AI社区的开放文化,以及他们对知识共享的执着,工程师的竞争对象是科技企业巨头和世界各地科研机构里的研究人员。如果你的目标是解决问题,而不是为科学做贡献的话,那么使用现有文献里表现最好的架构,用自己的数据来训练它,这是在实战中无数次得到验证的方法。如果眼下没有好的解决方案,常常就得等几个月,等到有人提出解决方案来。而且,你还可以征集解决方案,比如,利用Kaggle大数据竞赛平台,将数据、问题描述、期望的指标发布到Kaggle上,以竞赛的形式向广大的数据科学家征集解决方案,解决自己具体的问题。

好的工程技能当然是重要的,但是如果你从事的是AI行业,数据是可以带来相对优势的。不过,最关键的问题在于你能不能守住自己的优势。

在AI行业,保持竞争优势很难。

小明的数据集质量比较好,所以能和小红竞争,企业表现也不错。她的产品投入市场之后,市场份额不断增加。她现在还能请水平更高一点的工程师,因为企业在市场上的口碑和名气也不错。

小黄要追赶大部队,自然少不了花功夫。但是他的创业资金比小明多很多,资金的优势在建数据集的时候就凸显出来了。工程项目不是砸钱就能跑得快。而且,有时候新人越多,开发反而越受阻碍。但是创造数据集就不一样,通常对人力的需求比较大,请的人多,规模也就上去了。有时候,数据已经有了,你只需要砸钱买权限。总之,有了经济基础,过程还是能快很多。

文章分页: 1 2

发表评论

相关文章

团队解散:Google中国版搜索引擎宣告“死亡”

无论是Google工程师还是Google CEO Sundar Pichai,大小场合下都尽量对推出中国搜索引擎的事含糊其辞,但这种“沉默”只会激起更多反弹以及爆发。

当谷歌也遇上“水逆”

如果用一个词来概括中国互联网行业的2018,我觉得应该是“水逆”,大大小小的科技公司都面临层出不穷的“水逆”事件。与中国科技行业水逆不同,硅谷科技巨头呈现出冰火两重天的气象。

如何使用对抗性攻击来攻击语音识别系统

语音识别技术落地场景也很多,比如智能音箱,还有近期的谷歌 IO 大会上爆红的会打电话的 Google 助手等。本文章的重点是如何使用对抗性攻击来攻击语音识别系统。

把“黑科技”武装到牙齿的京东 7 FRESH 将是京东超越阿里一大利器!

作为7 FRESH最大的特色,智能购物小车的功能绝对会惊艳到你,让你有绝对不一样的购物体验。 作为整个7FRESH最大的亮点,智能购物小车最吸引人的地方就是其跟随功能,在使用之前,要通过已下...

NEC宣布开发了更易于提高识别精度的深度学习自动优化技术

近日,NEC宣布开发了更易于提高识别精度的深度学习自动优化技术。以往进行深度学习时,很难基于神经网络构造进行调整,所以无法在整个网络进行最优化的学习, 因而无法充分发挥其识别性。此次开...