新闻动态 欧德蒙及行业热门新闻

大数据需要注意的六大误区

云计算的大量应用更快的数据处理速度,以及利用物联网输入体量较大的数据,这些都告诉我们,企业正在通过前端大量收集大数据,现在的大数据收集比以往的规模要大,趋势也更明显通过收集数据,利用什么算法才能组织、处理和理解是众多企业面临的问题。

我们搜集整理了关于大数据的6个误区,以供和行业企业深入探讨大数据的前因后果,于虚构的大数据领域中分离看清真相,帮助企业正确利用大数据的工具。

1.大数据=很多数据

目前,大数据已经成为一个行业热词。但人们通常对它真正的含义还是不清楚。有些人将大数据简单地认为是大量的数据。但是,这并不完全正确,它比这稍微复杂一些。大数据是指一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。无论是结构(如数据表)或非结构化(如元数据从电子邮件)结合的数据,如社会媒体分析或物联网数据,形成一个更大的故事。大数据故事说明组织很难用传统的分析技术来捕获发生的趋势。

丰田研究院的数据研究总监吉姆·阿德勒表达了一个很好的观点:“数据也有质量。这就像水一样:玻璃容器中的水是非常易于管理。但是,如果混杂在洪水中,这将是压倒性的灾害。”他说,“在数据分析系统中,工作在一台机器的的数据将被冲走时,其数据规模将增长100或1000倍。所以,当然,原型虽小,但其架构却很大。”

2.数据和内存一样需要清洁

有些人认为数据必须要进行清洁,专家指出“没有人有干净的数据,必须将数据进行清理,否则分析是行不通的。这是一个疯狂的想法。你要做的就是进行一个足够好的分析。你要分析所有的数据,尽管这些数据是肮脏的,这只说明你有数据质量问题。我可以告诉你一些模式,尽管数据存在质量问题,但完全可以进行正常分析。现在,你可以集中进行数据质量工作,只是提高数据可以得到稍微好一点的洞察力。”

梅根·布茨梅因对此表示赞同,“很多时候,企业就会将这些工作能拖就拖,因为他们认为数据是不干净的,这是没有必要的。部署的分析应用程序将可以找到数据的薄弱环节,”她说。你把这些数据整合在一起,你将在一个应用程序中赋予它生命的视觉,你可以看到这些汇集在一起的数据的关联,你会很快看到你的资料不足。数据的问题在于要提供一个清理数据的基准。一旦这些问题已经确定,清理计划可以投入到位。然后,分析应用程序可以利用一种机制,加大清理力度,并监测进展情况。

2.数据和内存一样需要清洁

有些人认为数据必须要进行清洁,专家指出“没有人有干净的数据,必须将数据进行清理,否则分析是行不通的。这是一个疯狂的想法。你要做的就是进行一个足够好的分析。你要分析所有的数据,尽管这些数据是肮脏的,这只说明你有数据质量问题。我可以告诉你一些模式,尽管数据存在质量问题,但完全可以进行正常分析。现在,你可以集中进行数据质量工作,只是提高数据可以得到稍微好一点的洞察力。”

梅根·布茨梅因对此表示赞同,“很多时候,企业就会将这些工作能拖就拖,因为他们认为数据是不干净的,这是没有必要的。部署的分析应用程序将可以找到数据的薄弱环节,”她说。你把这些数据整合在一起,你将在一个应用程序中赋予它生命的视觉,你可以看到这些汇集在一起的数据的关联,你会很快看到你的资料不足。数据的问题在于要提供一个清理数据的基准。一旦这些问题已经确定,清理计划可以投入到位。然后,分析应用程序可以利用一种机制,加大清理力度,并监测进展情况。

4.数据湖不存在

数据湖是持有大量的原始结构化和结构化数据的松散的存储库,经常在大数据的背景下提到。

唯一的问题是,尽管他们是如何经常被引用,但它们却不存在,阿德勒说,“一个组织的数据不被倒入一个数据湖中。这是精心策划的一个部门的数据库。鼓励集中使用专业知识。他们还提供了良好的数据治理和合规性所需的问责性和透明度。”

5.分析数据需要耗费大量费用

如果假定在数据分析工具涉及一些费用的话,你可能会害怕获得数据。而可以告诉你的有好消息是,如今有许多免费的数据工具,任何人都可以开始使用这些工具来分析大数据。

同时,森古普塔表示,当今云计算的低成本意味着“你真的可以做那些以前从来不可能实现的的事情。”

6.机器算法将取代人类分析

森古普塔认为在分析大数据方法有一个有趣的二分法。“有人说,解决这个问题需要成千上万的数据科学家来分析解决,随后,又有人说,采用机器学习就可以做到这一切。这将是完全自动的。”

但是,桑古塔并不认为这些都是合适的解决方案。“没有足够的数据科学家,成本将快速上升。”他说,“此外,企业用户有多年的域名登录经验,并有着对他们业务的直觉。当你请来一个数据科学家,并认为他会搞定这些工作,并告诉你该怎么做。这实际上创造了一个确切的错误,数据科学家们往往无法无法足够了解企业的业务。”

在现实中,森古普塔说,“大多数数据科学项目实际上没有得到实施,因为它是如此艰难,需要几个月得到完成,而当它完成的时候,你所关心的问题是已经陈旧过时了。”

但是,也有过于依赖机器学习问题。“机器学习只是给出一个答案,但并没有解释。它告诉人们该怎么做,而不是为什么要那样做,”他说。“人们不喜欢别人告诉他该怎么做,尤其是神奇的机器。”他说,其关键是不只是答案,而是其解释和建议。

他说,数据科学家将变得越来越专业化,而这是真正困难的问题。“想一想各机构和企业开始建设了数据处理部门和一些处理部门。世界500强企业也有数据处理部门”或数字加工部门。但他们基本上变成了Excel,Word和PowerPoint.“尽管如此,人们仍然是数据和数字处理方面的专家。

 作为大数据领域的佼佼者,欧德蒙为企业提供一站式智能硬件解决方案,并通过对传统产品添加传感器,收集数据,再讲数据上传到云端,利用独有的人工算法为企业提供商业决策的建议和诊断。