说到大数据,很容易就说到数据采集、存储和计算,说到数据分析能力以及大数据的应用,从Hadoop、分布式数据库、分布式关系数据库、流计算、图计算,到数据的PDM、SE、ETL、可视化、深度学习、人工智能,再到舆情分析、日志管理、账单查血、POI搜索、金融反洗钱、反诈骗等大数据应用,总之,大数据是一件很专业、很技术的事情。但实际上,这些还都是平台和手段,而不是目标,大数据应用的核心还是数据创造价值,所谓数据变现,这才是问题的关键。
谈到数据应用,百分点技术副总裁刘译璟在接受采访时表示:数据是真实世界的反映,充分研究数据将有助于我们理解真实的世界。可以说,这是我们认识世界的一种方法,透过数据,认识这个世界,了解世界。你只有对此深信不疑,你才会真正致力于大数据的应用。
百分点技术副总裁刘译璟
他指出:做好大数据应用,需要从组织结构着手,需要招募人才,研究适合自己的数学模型并嵌入业务中去。“掌握数据分析,利用数据分析优化业务,迟早会变成一个通用技能,人人都是数据科学家。”他说。
所谓助力业务创新,离不开数据建模,模型是现实世界的一个反映。但对于大数据而言,并不是建完模型,放到哪里就大功告成了,还需要不断的使用,不断反馈,不断修正对现实世界的了解,不断对模型进行修改,如此可以真正形成一个闭环。
刘译璟强调;一定要把大数据分析结果应用到业务领域,哪怕一开始很糟糕,但一定要坚持下去,原因在于背后一个坚定信念的驱动,待形成闭环之后,数据驱动业务会变得越来越好。如果仅仅是浅尝辄止,与其说是技术不过硬,不如说是根本信念的动摇。
宾州州立大学统计系冠名讲座教授李润泽
宾州州立大学统计系冠名讲座教授李润泽对于数据建模非常有研究。他将数据建模应用到帕金森病理研究,研究脑局部供氧量等数据和发病的关系,涉及到很多的数据和统计,以胆固醇为例,通常说胆固醇高对于健康不利,但数据显示,胆固醇高有益于降低帕金森发病率。通过数据的研究,将有助于我们对于健康和医学的了解。
实际上,数据建模是大数据应用中困扰用户的首要难题。对此,李润泽教授表示,以往
学界看重的是论文发表,并不注重商业应用。但现在情况有所改善,用户并不需要完全理解建模背后的数学方法,通过输入变量,来研究数据变量之间的关系和规律,透析事务的真相。
就大数据的应用而言,大概可以分为几个层面:一个层面是数据如何存储、采集和计算;一个层面是数据分析和建模,研究数据背后隐藏的规律;再有一个层面就是基于大数据的业务应用。其中第一层面偏向分布式存储和计算的架构,从最早的Hadoop,到现在的Spark、Storm等,偏向于底层的架构在不断演变。中间层,以前是按照BI(商业智能)方式,如今更多需要机器学习,去解读和利用数据,偏向于人工智能的技术,其中,自然语言处理到今天也是一个热门的技术。最上层的应用,会更多结合行业或者应用场景,其中典型的应用场景,是用大数据去分析机器设备,所谓给机器设备看病,其中会涉及到可视化等
一些通用性的技术。数据可视化仍然是现在突出的难题。
但是无论如何,大数据应用的关键不在于技术,而是在信念。有了这种信念,技术的问题,应用的问题都是可以克服的,这是一个从弱到强的过程,这是如今大数据应用的关键!