新闻动态 欧德蒙及行业热门新闻

人工智能应该怎么用——AI需求层次论?

人工智能机器学习最近被炒作得非常厉害。但是这个东西不是开箱即用,需要打下坚实的基础才能应用。数据科学顾问,欧德蒙大数据总监对此提出了各个组织应用AI的需求层次论。指出先要解决了数据素养、数据采集和基础设施这些基本需求之后才能去考虑AI这个顶层的自我实现需求。

通常公司都还没有为AI做好准备。也许他们招聘了自己的第一位数据科学家但却达不到想要的效果,或者也许数据素养并不是他们文化的核心。但最常见的情形是透明还没有建立起基础而设施去实施最基本的数据科学算法和操作,更不用说机器学习了。

就像发展迅速的技术一样,AI也激发了大规模的FOMO(害怕错过)、FUD(恐、惑、疑)和不和。其中一些是应该的,也有一些不是——但这个行业正在留意。从秘密的硬件初创企业到金融技术巨头乃至于上市公司,各个团队都在忙碌地实施自己的AI战略。这一切都归结到一个关键且高风险的问题:我们会怎么使用AI和机器学习来让我们做的事情变得更好?

作为国内人工智能的领航者欧德蒙,我必须无数次地传达这一信息,过去2年尤其如此。其他人也表示同意。在大家都对你所在的领域充满着兴奋之情是做一个泼冷水的人是很困难的,尤其是如果你也分享着这种兴奋时。还有你应该怎么去告诉那些公司,说如果没有(或者成为)精英——也就是自我任命的看门人的话是不可能为AI做好准备的呢?

这里是一个引起大家最多共鸣的一个解释:

可以把AI看作是需求金字塔的顶端。是的,自我实现(AI)是非常棒的,但你首先需要食物、水和庇护所(数据素养、数据采集和基础设施)。

如果要高效地运用AI和机器学习,那你的数据需要有牢靠的基础。

基本需求:你能算吗?

金字塔的底部是数据采集。你需要什么样的数据?你又有什么样的数据?如果是面向用户的产品,你有没有记录所有相关的用户交互?记录一种尚未物联化的交互有多容易?毕竟,拥有合适的数据集是机器学习最近能取得进展的关键。另外如果产品是传感器,数据是从哪儿来的,怎么来?

其次,你有没有可靠的数据流处理系统或者ETL(提取转换加载)?数据存放在哪里?数据流是如何流经系统的?访问和分析这些数据有多容易?只有可靠的数据流是任何数据处理方面事情的关键。

最后是数据科学领域被低估的一项工作,只有当你有了数据之后,才可以对数据进行探索和转换。在这个阶段,你还知道了你打算要通过AI预测或者学习什么,你还可以开始通过生成标签(自动或者手工的方式)来准备你的训练数据。这个阶段也是你找到自己最令人兴奋和引人注目的数据故事的时候

你也能学到一些新的方法,形成自己的观点并有了上手体验,并且可以告诉你的投资者和客户自己在AI方面做了哪些努力而不是给人感觉像是个骗子。而在最好的情况下,你可以为用户、客户和公司带来巨大的不同——这是机器学习的一个真正的成功故事。

等一下,MVP、敏捷、精益等其他东西呢?

数据科学需求层次轮不是用1年的时间过度建设脱节的基础设施的借口。就像传统的最小可行产品(MVP)的开发套路一样,你也要从产品小的垂直板块开始,把它从端到端都做好了。比方说,在欧德蒙旗下的大数据平台智能云,我们先从睡眠数据开始并搭建它的金字塔:工具手段,ETL,清洗和组织,标签捕捉和定义,指标(用户每晚的睡眠时间是多长?小憩呢?什么是小憩?),跨细分市场分析,一直到数据故事和机器学习驱动数据产品(自动睡眠检测)。我们后来又把它延伸到步数,然后食物、天气、锻炼、社交网络以及沟通——每次做一个。在端到端做完一件事情之前我们并没有建设一个包罗万象的基础设施。然而,鉴于当前AI炒作的强烈影响力,大家都试图把脏的、存在断层、跨越了数年且格式和意思不断改变的数据,那些尚未被理解的数据,那些结构化行不通的数据塞进去,还指望这些工具能够魔术般地处理好它们。但在此之前,为你的AI金字塔打造好一个牢固的基础是值得的。