大数据仁波切的live笔记

毫无疑问,大数据仁波切刘鹏的知乎live《如何成为数据科学家?》是一场好live。支撑上述结论的主要有两点:

  • 价格便宜,开始前购买只要两块三毛四。
  • 不装逼

而青年人也有两个显著特点,一是没钱,二是容易被忽悠,所以,这是一场好live,除了广告有些多。我也不打算记一篇完整的笔记,只挑一些自己觉得有意思的点分享一下。

关于大数据的概念

大数据这个概念既不是工业界也不是学术界提出的,而是咨询公司提出来并炒热的。虽然谷歌是大数据方面的一哥与PR高手,但并没有像炒作AI一样炒作大数据这个概念,美帝的学术界对此更是不感冒。

关于大数据的定义也是众说纷纭,有人认为数据量大就是大数据,还是有人认为大数据有4V的特点,实际上无论是数据量大还是4V标准,都是非常模糊的标准,不能用来衡量一个具体是否是大数据问题。

仁波切给出了数据科学家视角下大数据概念的定义:

大数据的本质

  • 使用行为数据。行为数据是区别于交易数据的一个概念。交易数据即
    业务过程中必须记录的数据,例如电信运营商纪录的用户的通话纪录、充值记录、扣费日志等。行为数据并不是必须纪录的数据,比如用户的地理位置、浏览记录等。

  • 全量加工。大数据问题一般无法通过传统的少量抽样的方式来解决,需要使用全量数据。

  • 自动化应用。自动化应用是相对于洞察应用而言的。所谓洞察应用即将数据可视化成人可理解的报表等形式,为后续的运营决策提供参考。自动化应用是数据->机器的过程,数据自动决策。计算广告、个人征信都是典型的自动化应用。

数据科学家的定义与核心竞争力

工业界传统的数据挖掘是非常强调领域知识的,甚至推崇规则甚于算法。而仁波切定义的数据科学家区别于传统的数据挖掘工程师——

“数据科学家是指采用科学的方法论,调动充足的计算能力,将大量人类无法直接处理的数据转化为有用信息,以驱动自动化业务决策的专家”。

另外,需要补充一点,“科学家”在这里只是从事数据或算法相关工作的工程师的别称,请千万不要误会。定义中强调了“科学的方法论”,有意忽略了经验,数据科学家虽然不是真正的科学家,但也要有摆脱各种tricks的泥潭的追求。

一个数据科学家,当然要懂统计、最优化、分布式计算、常见机器学习算法的原理与应用,还要有领域知识,但除了领域知识以外其他技能点都是没有门槛的,智力正常的人看看书、做做练习都能够掌握,在相关领域进行实践之后,领域知识获取也没有太大难度。

真正能够区分普通数据工作者与优秀数据工作者的核心竞争力是建模能力,更通俗地说是定义损失函数的能力。选择已有的机器学习算法应用到新问题可以做优秀,但无法做到最顶尖,“高玩都是自定义配置的”。

数据科学家的养成途径

仁波切用三层金字塔表示了数据科学家的养成途径,从下往上分别是技能、能力和意识。

  • 技能。基础中的基础,自学或跟课程都可以完成。
  • 能力。需要在实践中培养,抓住一个问题,无论是广告还是推荐或者征信,做熟做透,有意培养建模能力,一样熟了,培养了感性认识,其他的也不难。
  • 意识。技能需要刻意练习,意识当然也要特意培养。数据优于经验、计算优于人工无非就是强调数据科学家要相信数据、相信机器,安身立命的根基怎么能不相信呢?

自学的资料推荐

仁波切强调了学习资料不在多,而是将优秀的资料啃透。仁波切博士毕业,毕业后也泡过学术界,推荐的资料门槛较高,可能不是适合所有人。但是,建议是很对的,读透一本书胜过读一百本书的序言。