fdfdsfdsdsfdsf

在网络信息化时代,凡是用某种载体记录下来的、能反映自然界和人类社会现象的信息,都称之为数据。进入大数据时代,数据信息的种类和数量越来越丰富,载体也越来越多。数字是数据,文字是数据,图像、音频、视频等都是数据。

网络统计学(Network Statistics)是一门新兴的、拓展了的统计学,是在计算机网络和相关软件支持下收集、整理、储存、传递、显示、分析和解释数据,从而反映和揭示自然、社会现象数量特征和数量规律的方法论科学。在分析手段和技术方法上,既重视和继承传统的统计分析方法,更突出现代计算机网络条件下的不同分析手段和技术。

随着网络技术的发展和大数据时代的到来,构建网络统计学的技术条件和时机已经成熟,网络统计学必将迎来新的发展机遇。

网络统计学概论

统计学

统计学(Statistics)是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。其中用到了大量的数学及其它学科的专业知识,它的使用范围几乎覆盖了社会科学和自然科学的各个领域。

统计学是从事各类科学研究工作所必须掌握的知识,是人们认识未知世界的有效工具。随着计算机技术的迅猛发展和普及,大量数据的处理技术变得很容易实现,这就使得很多统计方法在现实中的应用也变为可能。目前,统计学技术方法日益渗透到数据挖掘、计算机技术以及专业研究领域,实践应用对统计学理论方法提出更多新要求。

大数据时代统计学面临的机遇与挑战

大数据时代的到来,
使我回想起上个世纪80年代大学时期非常流行的一本书
  

《第三次浪潮》(The Third Wave)

《第三次浪潮》是1980年出版发行的一本畅销全球的图书,作者托夫勒。

美国著名未来学家阿尔温.托夫勒(Alvin Toffler)的代表作之一。阐述了由科学技术发展所引起的社会各方面的变化与趋势。1980年3月出版后,在美国文化思想界中特别引人注目。作者认为,人类社会正进入一个崭新的时期。这个事情名曰“第三次浪潮文明”。

注:笔者作为一名1980级的大学生,才开始接触计算机

人类迄今已经历了两次文明浪潮:

第一次是“农业革命”,即人类从原始野蛮的渔猎时代进入以农业为基础的社会,历时几千年;

第二次是“工业革命”,历时300年。它摧毁了古老的文明社会,工业革命在第二次世界大战后10年达到顶峰。在第二次浪潮时期,以使用不能再生产的石化燃料作为能源基础,技术突飞猛进,出现大规模的销售系统,家庭不再是共同劳动的经济单位;

第三次浪潮时期,以电子工业、宇航工业、海洋工业、遗传工程组成工业群。社会进步不再以技术和物质生活标准来衡量,而以丰富多彩的文化来衡量。这个时代,鼓励个人人性发展,但不是创造某个理想的超人,而是培养一种新的社会性格。在第三次浪潮条件下发展新的民主,唾弃谬误和吓人的观念。“第三次浪潮文明”,是对未来社会设计的一种蓝图,其立足点是现代科技的发展,所阐述的内容反映了当代西方社会思潮的一些重要观点。

托夫勒(Alvin Toffler)在书中预见的未来是:跨国企业将盛行;电脑发明使SOHO(在家工作, Small Office, Home Office)成为可能;人们将摆脱朝九晚五工作的桎梏;核心家庭的瓦解;DIY(自己动手做)运动的兴起……。时过境迁,如今我们才发现托夫勒的预言竟大多已成为了现实。

托夫勒在《第三次浪潮》将人类社会划分为三个阶段:

第一阶段为农业阶段,从约1万年前开始;
第二阶段为工业阶段,从17世纪末开始;
第三阶段为信息化(或者服务业)阶段,从20世纪50年代后期开始。

托夫勒也许并没有给我们带来直接财富,但他给了人们一个梦想,多年以后,当年阅读托夫勒的年轻人已成为中国经济建设的中流砥柱,托夫勒的思想或多或少仍在指引着他们“创造未来”。

《第三次浪潮》一书持续热销二十年,被翻译成三十余种语言,全球发行上千万册。

“思想震撼至今不绝”。托夫勒的视角如此犀利独特,无人可及。

他的著作就是一个解读人类现在和未来的永恒路标。

《大数据时代》

在“第三次浪潮”席卷全球三十年后,互联网技术的飞速进步和普及,人类社会进入信息“爆炸”时期,从而催生大数据技术,大数据时代已经到来。

《大数据时代》(Big Data: A Revolution That Will Transform How We Live, Work, and Think)是国外大数据研究的先河之作,本书作者维克托·迈尔·舍恩伯格被誉为“大数据商业应用第一人”,有在牛津大学、哈佛大学、耶鲁大学、新加坡国立大学等多个互联网研究重镇任教的经历,早在2010年就在《经济学人》上发布了长达14页对大数据应用的前瞻性研究。他是十余年潜心研究数据科学的技术权威,是最早洞见大数据时代发展趋势的数据科学家之一,也是最受人尊敬的权威发言人之一。他的学术成果斐然,有一百多篇论文公开发表在《科学》《自然》等著名学术期刊上。

维克托·迈尔·舍恩伯格在书中前瞻性地指出,大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型,并用三个部分讲述了大数据时代的思维变革商业变革管理变革

维克托最具洞见之处在于,他明确指出,大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这就颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。

该书认为大数据的核心就是预测。大数据将为人类的生活创造前所未有的可量化的维度。大数据已经成为了新发明和新服务的源泉,而更多的改变正蓄势待发。书中展示了谷歌、微软、亚马逊、IBM、苹果、facebook、twitter、VISA等大数据先锋们最具价值的应用案例。

《大数据时代》目录

引言: 正在发生的生活、工作与思维的大变革

第一部分 大数据时代的思维变革

第1章 更多:不是随机样本,而是所有数据
第2章 更杂:不是精确性,而是混杂性
第3章 更好:不是因果关系,而是相关关系

第二部分 大数据时代的商业变革

第4章 数据化:一切皆可“量化”
第5章 价值:“取之不尽,用之不竭”的数据创新
第6章 角色定位: 数据、技术与思维的三足鼎立

第三部分 大数据时代的管理变革

第7章 风险:让数据主宰一切的隐忧
第8章 掌控:自由与责任并举的数据管理
结语 已经发生的未来

机遇与挑战

大数据时代来临之际,几乎所有国内大学都面临严峻挑战,统计专业毕业不意味着你就是市场所需要的数据分析人才!

同样的模型、同样的数据处理方法在大样本面前必须借助于各种工具和软件进行处理。懂理论不懂编程、懂编程不懂方法,教师和学生动手能力差、数据处理技术水平低,课堂教学内容和社会需求渐行渐远。

以笔者所在学校统计专业为例,学生来源为理工科考生,数学功底较好,在校经过一系列高等数学和统计专业课学习,了解、掌握了许多建模和数据处理方法,但实用工具类软件课程几乎没有,学生数据处理能力极差。不要说处理大数据,就连最基本的系列办公软件OFFICE(WORD、POWERPOINT、EXCEL)都用不好。毫无疑问,大数据时代统计学依然是数据分析的灵魂,但只会统计学方法不懂工具和编程的学生很难发挥专业特长,学生“高分低能”、“眼高手低”这种现象亟待改变。

目前,统计学技术方法日益渗透到数据挖掘、计算机技术以及社会经济各专业研究领域。大数据被广泛应用于医疗、通信、互联网企业、能源、市场营销、金融及社交娱乐等领域。随着大数据应用越来越广泛,对数据分析人才的需求也会与日俱增!

2015年8月31日,国务院以国发〔2015〕50 号印发《促进大数据发展行动纲要》。《纲要》指出,目前我国在大数据发展和应用方面已具备一定基础,拥有巨大市场优势和发展潜力。《纲要》明确提出5—10年大数据发展规划总体目标,制定了加快政府数据开放共享,推动资源整合等主要任务。

为贯彻落实党中央、国务院决策部署,全面推进我国大数据发展和应用,很多地方政府部门大数据建设规划纷纷出台,人民大学、复旦大学等大学也陆续开设《数据挖掘》、《R语言》等和大数据处理密切相关的课程,并开办数据分析、数据挖掘培训班、颁发证书以满足社会需求。

“统计学方法+计算机软件+实践经验=数据分析”

这是一个用数据说话的时代,也是一个依靠数据竞争的时代。目前世界500强企业中,有90%以上都建立了数据分析部门。IBM、微软、Google等知名公司都积极投资数据业务,建立数据部门,培养数据分析团队。各国政府和越来越多的企业意识到数据和信息已经成为企业的智力资产和资源,数据的分析和处理能力正在成为日益倚重的技术手段。

“得数据者得天下!”

近年来在我国和大数据产业密切相关的网络通讯基础建设飞速发展,国内涌现出百度、阿里、腾讯等带有鲜明大数据特色的大型数据公司。金融、商业、生物、地理信息、天气预报大数据服务平台纷纷出现,微信、QQ、百度云、阿里云、地图导航、微博、博客、邮箱等大数据时代所催生的软硬件产品令人迎接不暇。信息传递、数据交换和存储已经如此容易!各个生产和科学领域都在大量地产生和收集数据,自然科学领域收集着从宏观的天文数据到微观的基因数据,经济、金融和人文社会科学收集着大量的观察和调查数据。随着计算机互联网、搜索引擎、电子商务、多种传感器和多媒体技术的发展和广泛使用,各种形式的数据如江河流水般地涌来。

与传统的数据分析相比,互联网时代的数据分析面临的不是数据匮乏,而是数据过剩。因此,互联网时代的数据分析师必须学会借助技术手段(计算机)进行高效的数据处理。

对于统计专业的大学师生来说,机遇面前意味着更大的的挑战!过去十几年社会经济和技术发生了翻天覆地的变化,大学的教学方式又改变了多少?我们培养出的学生的技能和社会实际需求的差距在不断拉大。很多企业早已经行动起来,政府也已经动员起来,大学的教学和科研思路也该调整了。哈商大面临这样的问题,北大、人大等众多国内名校亦是如此。大学的办学目标在很大程度上是培养社会需要的复合型实用型人才,“轻学历、重能力”越来越成为现实社会的用人标准。

在我们这个社会中,有“文秘”、有“生活秘书”,还有类似的“领导助理”工作,目前为止这都是些令人羡慕的、有前途的工作。大数据时代催生“数据秘书”,其不同之处在于:

    工作(服务)对象不同
    工作环境、范围不同
    要求的技能不同

合格的“数据秘书”必须具备处理这些复杂数据的技能。具体来说涉及以下几个方面:

办公自动化(Word、PowerPoint 、Excel);
信息传递和数据交换(微信、QQ、邮箱、视频聊天和电话等、数据交换格式);
打字、复印、电传等办公设备
数据展示(微信、博客、网页、统计图表和公式);
数据收集(网络、网页数据抓取、Python);
数据处理(Office、R语言、VBA等软件);
数据存储(数据库、数据仓库、百度云)

在大数据时代,统计学待处理的数据类型、质量和数量产生根本变化,统计学方法和手段亟待更新和扩展。随着网络技术的发展和大数据时代发展进步来,构建网络统计学的技术条件和时机已经成熟,网络统计学必将迎来新的发展机遇。

网络统计学

网络统计学(Network Statistics)是一门新兴的、拓展了的统计学,是在计算机网络和相关软件支持下收集、整理、储存、传递、显示、分析和解释数据,从而反映和揭示自然、社会现象数量特征和数量规律的方法论科学。在分析手段和技术方法上,既重视和继承传统的统计分析方法,更突出现代计算机网络条件下的不同分析手段和技术。随着网络技术的发展和大数据时代的到来,构建网络统计学的技术条件和时机已经成熟,网络统计学必将迎来新的发展机遇。

笔者所追求的是在4G、甚至5G网络环境下,通过网页(包括手机移动网页)实现统计数据处理(存储、传递、计算、展示等)的各项功能。网络统计学就是通过网页实现数据收集、整理、储存、传递、展示、分析和计算(包括数据模拟和数据挖掘运算)

网络统计学的特点

在计算机网络支持下处理统计数据,面临许多和传统统计学不同的新问题。网络统计学具有如下特点:

数据载体不同

统计数据的基本载体不再是“纸张“,而是“磁盘“。在网络环境下,统计数据的主要载体为云空间、网站服务器、计算机硬盘以及U盘和光盘等;

数据传输方式不同

存储在网站服务器端的原始统计数据或经过处理的统计数据可以及时在世界范围发布,也可在用户间(包括微信、博客等)、用户和服务器间即时传递数据;

数据输入、输出方式不同

网络统计学在处理数据时应可以“读懂”(数据导入、输入)服务器端和客户上传的各种数据,经过处理后的统计数据也必须以特定的格式传递(数据导出、输出)给用户终端。根据统计学的特点,采用人们广泛接受的格式化数据,让“网页”能“读懂”它们,从而实现数据的“自动”输入、输出。为了网络数据传输、为了在处理数据时自动导入数据和输出结果,建立、采用网络统计学数据格式标准至关重要;

数据处理方式不同

统计数据处理过程通过网页编程方式实现。具体方式为在服务器端和浏览器页面运用不同软件编程构建分类统计算法函数库,然后通过网络脚本语言调用网络统计分类库函数或再编程解决各种复杂数据处理问题。

网络统计学需要掌握一定的编程技术

网络统计学离不开网页前台编程技术,学习web前端开发基础技术(网页设计)需要了解:HTML、CSS、JavaScript三种语言。这三门技术在网页设计中的用途是:

  • HTML是网页内容的载体:内容就是网页制作者放在页面上想要让用户浏览的信息,可以包含文字、图片、视频、表格等;
  • CSS样式是表现(外观控制或装饰):就像网页的外衣。比如,标题字体、颜色变化,或为标题加入背景图片、边框等。所有这些用来改变内容外观的东西称之为表现;
  • JavaScript是用来实现网页上的动态效果:如鼠标滑过弹出下拉菜单,或鼠标滑过表格的背景颜色改变。还有焦点新闻(新闻图片)的轮换。可以这么理解,有动画的、有交互效果的网页一般都是用JavaScript来实现的。

JavaScript是一种属于网页脚本语言,已经被广泛用于Web应用开发。可以使用JS添加、删除、修改网页上的所有元素及属性;在HTML网页中动态写入文本、数字和插入图表;响应网页中的事件,并做出相应处理。了解JS编程后,可以轻松调用各类网络统计学库函数和在网页上统计数据处理或分析。

网络统计学在计算机网络和相关软件支持下收集、整理、储存、传递、显示、分析和解释数据,HTML、CSS、JavaScript这三种语言是学习和运用网络统计学平台的基础知识。

在互联网技术全面普及发展的今天,网页设计技术已经不是计算机专业从业者的专利,具备大学、甚至高中以上学历的任何专业的人都可以在短时间内通过自学基本掌握这些技术。相对而言,网页脚本JavaScript对于从来没接触过计算机编程的人来说有点难度,HTML和CSS比较容易接受。业内有这样一句话,“入门三天、成手三年”,成为“高手”则需要在实际工作中长期使用和不断学习专研。学习和运用网络统计学不需要多么精的web前端技术,具备入门基础知识即可。

对于常和复杂统计模型打交道的统计工作者来说,学习web前端开发基础技术不是什么难事,"Believe me please, You can do it !"

当然,通过网页实现各项统计数据处理功能离不开网页后台编程技术,如数据库MySQL、PostgreSQL、Oracle、SQLite等,服务器端编程语言或脚本涉及PHP、ASP、ASP.net、Nodejs、Python、R语言等。本网络教程在阿里云服务器上运用PostgreSQL、SQLite数据库和Nodejs、Python、R语言实现统计数据的存储、运算。


Copyright © 2019 www.galaxystatistics.com 银河统计;邮箱:ylwl@hotmail.com