高端访谈 > 正文
科学院院士石勇:大数据的主要原理在于预测
2016/7/12 08:56   每日经济新闻      关键字:大数据,共享,软硬件      浏览量:
“去年的大数据战略说的很清楚,首先是提高采集、有效整合,深化政府数据和社会数据关联分析、融合利用,然后是统一共享交换平台,研究制定数据开放、保护等法律法规,完善大数据产业链,加快关键技术攻关,促进大数据软硬件产品发展。”石勇表示。

“大数据是数字化生存时代的新型战略资源,是驱动创新的重要因素,正在改变人类的生产和生活方式。大数据来源于政府、企业、网络与开源数据(每个人)。我们研究大数据的科学问题还需要时间,大数据应用问题更需要时间。”7月9日,发展中国家科学院院士、中科院虚拟经济与数据科学中心主任石勇在以“新金融规范、创新与发展”为主题的首届紫金峰会上表示。该峰会由浙江大学和泰然集团联合主办。

大数据面临的三大挑战

“十三五”规划纲要提出:实施国家大数据战略。把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新。

“去年的大数据战略说的很清楚,首先是提高采集、有效整合,深化政府数据和社会数据关联分析、融合利用,然后是统一共享交换平台,研究制定数据开放、保护等法律法规,完善大数据产业链,加快关键技术攻关,促进大数据软硬件产品发展。”石勇表示。

同时,他指出,目前大数据仍面临着三个挑战:第一,在云存储和云计算基础上,如何利用信息技术等手段对非结构化和半结构化数据进行有效处理已成为各国大数据专家共同关注的前沿科研问题;第二,如何探索大数据复杂性、不确定性特征描述的刻画方法及大数据的系统建模,这一问题的突破是实现大数据知识发现的前提和关键。第三,研究数据异构性与决策异构性的关系对大数据知识发现与管理决策的影响,由于大数据本身的复杂性,这一问题无疑是一个重要的科研课题,对传统的数据挖掘理论和技术提出了新的挑战。

《大数据时代》结论不完整

“大数据背后是‘数据科学’,而数据科学是关于数据收集、管理、转换、分析与应用的科学,其核心是研究从数据中获取知识。很多人看过《大数据时代》这本书,但书中的三个结论都是不完整的。”石勇表示。

据了解,该书提出,大数据应该既要全体,又要抽样,大数据的抽样比小数据的抽样更具有普适性;大数据应从粗糙中寻求精确;大数据应从相关关系中把握因果关系与必然关系。

对此,石勇称,“大数据应该分析全部,我们能群体吗,这是反科学的。但是大数据来了以后,数据量大了样本就大。大数据粗糙中寻找精确。大数据的主要原理在于预测,这是科学的方法。”

此外,石勇还提到了大数据与金融决策的关系,大数据的应用等。目前中国大型的商业银行和保险公司的数据量已经超过100TB,中国金融行业已经形成共识——数据是重要资产。中国金融行业已步入大数据时代的初期阶段,并且呈现快速发展势头,未来的金融业将开展新一轮围绕大数据的IT建设投资。

“优秀的数据分析能力是当今金融市场创新的关键,资本管理、交易执行、安全和反欺诈等相关的数据洞察力,成为金融企业运作和发展的核心竞争力。”石勇说。

而在大数据的应用方面,石勇说,“我国的个人征信评分系统是世界第一的”。据介绍,我国的个人征信系统基于8.5亿消费人的记录,服务于日常金融活动。截至2010年5月31日,个人征信系统查询次数达6.5亿次,实现了真正意义上的基于大数据挖掘的金融工程理论与实践。

微信扫描二维码,关注公众号。