国内有哪些数据分析和数据挖掘的牛人

如题所述

国内有哪些数据分析和数据挖掘的牛人这个看主要是关注哪些了哦,技术实现的效果也是不一样的哦

根据IDC报告称,全球大数据技术和服务市场将在未来几年保持31.7%的年复合增长率,2016年市场总规模有望达到238亿美元。按此计算,大数据市场的增速将达到同期整个信息和通信技术领域增速的7倍。该市场正在迅速从各种既有市场和新市场中吸收技术和服务目前,IBM、微软、甲骨文、惠普、EMC等一些IT行业大佬都看好这一领域,纷纷投入人力、财力进行布局。

据IDC调查,过去的5年里,人类行为所产生的数据量增长了10倍,而在接下来10年中,这一增长将达到29倍。但80%的数据都是非结构数据,如何进行数据挖掘和利用,将成为大数据的价值点和难点。

中国计算机大会指导委员主席、北京大学教授高文近日接受本刊采访表示,大数据不仅受产业界广泛关注,在技术领域也是热点。从技术角度来看,数据挖掘是大数据的价值所在,但目前数据挖掘仍存在很多问题,远没达到我们的预期。他谈到,阿里巴巴在数据挖掘上做了尝试,由电商的海量的交易数据衍生出阿里金融和物流,但这仅仅是在商业领域的价值,在社会变革仍未释放能量,未来大数据将会给社会带来更多改变。

关于大数据带来的价值也正引起业界和学术界广泛热议。近年来大数据不断地向社会各行各业渗透,为每一个领域带来变革性影响,并且正在成为各行业创新的原动力和助推器。这一时期,互联网社交互动技术的不断发展创新,人们越来越习惯于通过微博、微信、博客、论坛等社交平台去分享各种信息数据、表达诉求、建言献策,每天传播于这些平台上的数据量高达几百亿甚至几千亿条,这些数量巨大的社交数据构成了大数据的一个重要部分,这些数据对于政府收集民意动态、企业了解产品口碑、公司开发市场需求等发挥重要作用。

如今,虽然互联网已经成为收集民意、了解政府和企业工作成效的一个非常有效的途径。然而由于缺乏对互联网发贴等行为的必要监管措施,在舆情危机事件发生后,难以及时有效获取深层次、高质量的网络舆情信息,经常造成舆情危机事件处置工作的被动。于是,重视对互联网舆情的应对,建立起“监测、响应、总结、归档”的舆情应对体系是成为大数据时代政务工作的重要内容之一。

在此背景下,舆情监测及分析行业就是为适应大数据时代的舆情监测和服务而发展起来的。其主要专注于通过海量信息采集、智能语义分析、自然语言处理、数据挖掘,以及机器学习等技术,不间断地监控网站、论坛、博客、微博、平面媒体、微信等信息,及时、全面、准确地掌握各种信息和网络动向,从浩瀚的大数据宇宙中发掘事件苗头、归纳舆论观点倾向、掌握公众态度情绪、并结合历史相似和类似事件进行趋势预测和应对建议。

大数据在舆情监测上的应用价值

(一)大数据价值的核心:舆情预测

传统网络舆论引导工作的起点,是对已发生的网络舆情进行监测开始。然而这种方式的局限在于滞后性。大数据技术的应用,就是挖掘、分析网络舆情相关联的数据,将监测的目标时间点提前到敏感消息进行网络传播的初期,通过建立的模型,模拟仿真实际网络舆情演变过程,实现对网络突发舆情的预测。

(二)大数据价值的条件:舆情全面

大数据技术要预测舆情,首要条件是对各种关联的全面数据进行分析计算。传统数据时代,分析网民观点或舆情走势时, 只关注网民跟帖态度和情绪,忽视了网民心理的变化;只关注文本信息,而较少关注图像、视频、语音等内容;只观察舆论局部变化,忽视其他群体的舆论变化;只解读网民文字内容,而忽视复杂多变的社会关系网络。从舆情分析角度看,网民仅仅是信息海洋中的"孤独僵尸",犹如蚁群能够涌现高度智能,而单个蚂蚁如附热锅到处乱窜。

大数据时代,突破了传统数据时代片面化、单一化、静态化的思维,开始立体化、全局化、动态化研究网络舆情数据,将看似无关紧要的舆情数据纳入分析计算的范围。

(三)大数据价值的基础:舆情量化

大数据预测舆情的价值实现,必须建立在对已挖掘出的海量信息,利用数学模型进行科学计算分析的基础之上,其前提是各类相关数据的量化,即一切舆情信息皆可量化。但数据量化,不等同于简单的数字化,而是数据的可计算化。要在关注网民言论的同时,统计持此意见的人群数量;在解读网民言论文字内容的同时,计算网民互动的社会关系网络数量;对于网民情绪的变化,可通过量化的指标进行标识等。

(四)大数据价值的关键:舆情关联

数据背后是网络,网络背后是人,研究网络数据实际上是研究人组成的社会网络。大数据技术预测舆情的价值实现,最关键的技术就是对舆情间的关系进行关联,将不再仅仅关注传统意义上的因果关系,更多关注数据间的相关关系。按大数据思维,每一个数据都是一个节点,可无限次地与其他关联数据形成舆情链上的乘法效应--类似微博裂变传播路径,数据裂变式的关联状态蕴含着无限可能性。

大数据时代的舆情监测瓶颈

目前,各地舆情监测工作的主要手段仍以人工检索为主,尽管也使用了市面相对成熟的相关搜索软件进行辅助搜索,但搜索舆情的技术仍采用传统的二维搜索方式,即主题关键词和网络平台二维坐标,由舆情员对采集的信息进行二次加工成舆情产品。但搜索的舆情信息结果多为一级文本信息,对于深层次的多级舆情信息,如新闻、微博后的评论,网民的社会关系,网民针对某一事件评论反映出的情绪变化,以及网民煽动性、行动性的言论、暗示等数据无法深度挖掘,仍靠人工采集和分析判断。受制于舆情员的知识水平和价值判断的不同,极有可能导致有价值的舆情信息丢失,无法准确及时预测舆情走势,大大降低了舆情监测工作的效率、准确性,增加了有价值舆情信息发现的偶然性和投机性,为重大突发事件的舆情预测埋下隐患。

大数据背景下舆情监测的实现

对大数据的采集加工是整个舆情监测的基础,掌握数据抓取能力,通过“加工”实现数据的“增值”是舆情监测分析的必备技能。多瑞科舆情数据分析站系统因配置自己研发不同于爬虫技术的领先采集技术,用户不但可以监测各种正文信息,还可配置系统采集获取某些主题的最新回复内容,并获取其详细信息,如查看数,回复数,回复人,回复时间等。许多网站结构复杂或采用了Frame或采用了JavaScript动态写入内容或采用了Ajax技术实时自动刷新内容,这些都是普通爬虫技术很难处理或无法处理的。对于采集监测到的信息,系统可以自动加以分类,以负面舆情,与我相关,我的关注,专题跟踪等栏目分类呈现,让用户可以直奔主题,最快找到自己需要的信息。

对趋势的研判则是大数据时代舆情监测的目标。如今人们能够从浩如烟海的数据中挖掘信息、判断趋势、提高效益,但这远远不够,信息爆炸的时代要求人们不断增强关联舆情信息的分析和预测,把监测的重点从单纯的收集有效数据向对舆情的深入研判拓展。多瑞科舆情数据分析站系统对监测到的负面信息实施专题重点跟踪监测,重点首页进行定时截屏监测及特别页面证据保存。监测人员可以对系统自动识别分类后的信息进行再次挑选和分类,并可以基于工作需要轻松导出含有分析数据图表的舆情日报周报,减轻舆情数据分析,统计作图的繁杂度。对于某些敏感信息,系统还可通过短信和邮件及时通知用户,这样用户随时都可远程掌握重要舆情的动态。

大数据时代需要大采集,大数据时代需要大分析,这是数据爆炸背景下的数据处理与应用需求的体现,而传统的人工采集、人工监测显然难以满足大数据背景下对数据需求及应用的要求,多瑞科舆情数据分析站系统成功地实现了针对互联网海量舆情自动实时的监测、自动内容分析和自动报警的功能,有效地解决了传统的以人工方式对舆情监测的实施难题,加快了网络舆论的监管效率,有利于组织力量展开信息整理、分析、引导和应对工作,提高用户对网络突发舆情的公共事件应对能力,加强互联网“大数据”分析研判。
温馨提示:答案为网友推荐,仅供参考
第1个回答  2021-10-27
国内有数据分析和数据挖掘的牛人有:清华计算机系的唐杰、中国传媒大学教授沈浩、SAS公司首席咨询顾问张磊、刘万祥等。简单介绍几个:
一、沈浩老师
中国传媒大学教授,这位老师给我深的印象就是比较喜欢旅游、爱摄影,除此之外更多的介绍还一下子想不起来。不过在博客分享了很多非常好的数据分析方法、数据可视化等。
张磊IDMER
SAS公司首席咨询顾问。现在的分析,不搞点挖掘、模型的,似乎就不够高级、不够唬人。这位博主可是数据挖掘的牛人,SAS、SPSS Clementine 的专家顾问啊。
三、刘万祥ExcelPro
刘万祥老师,《Excel图表之道》、《用地图说话》作者。专注于最专业、有效的商务图表沟通方法,追求图表的有效沟通,和专业的商务气质。
可以去这几位老师的博客上看一下,他们会经常分享非常好的数据分析、数据挖掘方法,不得不承认我们现在生活在一个用数据说话的时代,也是一个依靠数据竞争的时代。

想要了解更多数据分析,数据挖掘的相关内容,推荐CDA数据分析师课程。课程内容兼顾培养解决数据挖掘流程问题的横向能力以及解决数据挖掘算法问题的纵向能力。要求学生具备从数据治理根源出发的思维,通过数字化工作方法来探查业务问题,通过近因分析、宏观根因分析等手段,再选择业务流程优化工具还是算法工具,而非“遇到问题调算法包”。点击预约免费试听课本回答被网友采纳
第2个回答  2018-06-26
数据分析的顶级牛人,是被各国顶级赌场拉黑名单的。

次一等的,是自己玩投放做点大家都会但都觉得不赚钱却只有他自己能闷声赚钱的。

再往下,股票证券的自动高频交易系统,一水的大数据。广告优化平台,类似芒果移动,mediav这样的,以及推荐平台 百分点这样的,靠数据吃饭的公司。本回答被网友采纳
第3个回答  2022-02-13
可以学习国防科大丁兆云老师的数据挖掘课程,详见中国大学MOOC:https://www.icourse163.org/course/NUDT-1461782176
相似回答