China并不是一个专业社会,所有你会发现有很多决策不一定对,但就是这样。
对和错是有power的人说了算,知道这一点,因此,对于很多事就不用这么纠结了。
为什么要说上面一段,是因为下面要说的是抛开了power,从理性上来说的。
关于数据科学,就是分析数据,理解世界,寻就解决的的一个过程。
数据呢,我的理解有两大类,一大类是机器数据,例如,数据,视频数据。这类数据的的处理目前用深度学习能够比较好的处理,这里说的处理是指构建分类模型,准确率还比较高。机器数据不需要人去理解 ,人也无法理解。这个数据直接丢给模型做就好了。
第二类数据是人创造的数据,例如人的购物记录,信用记录等等。这类数据与机器数据有一个很大的区别,那就是这类数据是不准确的,是有矛盾的。
并且,这类数据是需要人去分析的,而不是直接丢到模型中去训练一个什么模型。
数据科学更多的是做这一方面的工作,对于数据科学而言,模型只是工具,对于风控模型而言,我们除了希望能够得到一个一个好的模型,更希望了解那些人是坏人,坏人有什么特点,也就是能够理解数据。
如何去理解数据,绘图,计算统计量是一个很好的方式。另外,对于分类问题而言,还需要看因变量与自变量之间的关系。
一个风控极端的例子,如果男性都会逾期,女性都不会逾期。那么我们可以从数据构建一个完美模型,男性都拒绝,女性都接受不就可以了。
如果数据显示,男性一般逾期一半不逾期,女性也一样,男女人数一样。那么我们可以知道这个变量没有用。
现实情况往往不会这么极端,介于全部逾期,全部不逾期和一半一半之间,那么数据在之间的哪个范围,我们说这个变量有用?
其实做一个图就可以初步的判断,用指标的话就是Iv值,Iv值是这个值种坏样本的占比-好样本的占比乘以坏样本占比除以好样本占比取对数。
例如第一种极端情况,男性全部坏人。那么坏人占比1,好人占比0,那么Iv值是无穷大。
第二种情况,男人一般坏人一半好人,好人占比50%,坏人50%,Iv值是0。
现在很多人都听说过数据分析和数据科学,但是很多人不知道怎么区分数据分析和数据科学,可能对数据分析和数据科学会造成混淆。大家都知道,数据分析和数据科学这两种事物都是有一定的关联的,这是因为提供了不同的结果并采取了不同的方法。但是进行数据分析工作的时候一定要区分好数据分析和数据科学,那么什么数据分析呢?什么是数据科学呢?下面就由小编为大家解答一下这个问题。
先给大家说一下什么是数据科学?数据科学是一个多学科领域,专注于从大量的数据中找到分析方式。该领域主要注重发掘我们没有意识到我们还不清楚的事情的答案。数据科学专家使用几种不同的技术来获得答案,包括计算机科学,统计学和机器学习,通过海量数据集进行解析,努力为尚未被认识到的问题提供解决方案。数据科学家的主要目标是找出问题并找出潜在的研究途径,而不用担心具体的答案,更多的重点放在寻找正确的问题上。
那么什么是数据分析?数据分析专注于在现有的数据集里面,处理和执行统计分析。分析人员集中于创建捕获,处理和组织数据的方法,以发现当前问题的切实可行的见解,并建立呈现此数据的最佳方式。通俗来说,数据分析的领域的目的就是解决问题,发现那些我们想到的问题,这些问题是否答案并不是重要的事情,重要的是,它的基础是产生可以立即改进的结果。
那么这数据分析和数据科学的区别是什么呢?数据科学和数据分析都有属于自己的领域,数据分析和数据科学的范围不同。数据科学是一个涵盖性术语,包含了一些可用于挖掘大型数据集的领域。数据分析是它更加集中的版本,甚至可以被视为更大的过程的一部分。
一般来说,数据分析则在重点突出时效果更好,需要基于现有数据的答案。数据科学产生更广泛的见解,集中讨论应该问哪些问题,而大数据分析则强调发现被问问题的答案。
通过上面的内容,想必大家看了这篇文章以后已经知道了数据分析和数据科学的具体区别了吧,上面的内容就是对于这两个问题的解答了,大家在研究数据分析的时候一定要搞明白这两个概念,这样才能够更好的理解大数据。
本文来自作者[林沫夕]投稿,不代表木木号立场,如若转载,请注明出处:https://gmx3.cn/ef/%E6%B5%85%E8%B0%88%E6%95%B0%E6%8D%AE%E7%A7%91%E5%AD%A6.html
评论列表(4条)
我是木木号的签约作者“林沫夕”!
希望本篇文章《浅谈数据科学》能对你有所帮助!
本站[木木号]内容主要涵盖:生活百科,小常识,生活小窍门,知识分享
本文概览:China并不是一个专业社会,所有你会发现有很多决策不一定对,但就是这样。 对和错是有power的人说了算,知道这一点,因此,对于很多事就不用这么纠结了。 为什么要说上面一段,...