第一步:选择一种编程语言
首先,我们推荐你选择一种编程语言,并坚持使用。Python 和 R 在 Kaggle 和更广泛的数据科学社区上都很流行。
如果你是一个毫无经验的新手,我们推荐 Python,因为这是一种通用编程语言,你可以在整个流程中都使用它。
参考:
数据科学领域 R vs Python:http://elitedatascience.com/r-vs-python-for-data-science
如何为数据科学学习 Python:http://elitedatascience.com/learn-python-for-data-science
深度 | R vs Python:R 是现在最好的数据科学语言吗?
业界 | 超越 R,Python 成为最受欢迎的机器学习语言
第二步:学习探索数据的基础
加载、浏览和绘制你的数据(即探索性分析)的能力是数据科学的第一步,因为它可以为你将在模型训练过程中做的各种决策提供信息。
如果你选择了 Python 路线,那么我们推荐你使用专门为这个目的设计的 Seaborn 库。其中有高层面的绘图函数,可以绘制许多最常见和有用的图表。
参考:
Seaborn 库:https://seaborn.pydata.org/
Python Seaborn 教程:http://elitedatascience.com/python-seaborn-tutorial
第三步:训练你的第一个机器学习模型
在进入 Kaggle 之前,我们推荐你先在更简单更容易管理的数据集上训练一个模型。这能让你熟悉机器学习库,为以后的工作做铺垫。
关键在于培养良好的习惯,比如将你的数据集分成独立的训练集和测试集,交叉验证避免过拟合以及使用合适的表现评价指标。
对于 Python,最好的通用机器学习库是 Scikit-Learn。
参考:
Scikit-Learn 库:http://scikit-learn.org/stable/
Python Scikit-Learn 教程:http://elitedatascience.com/python-machine-learning-tutorial-scikit-learn
7 天应用机器学习速成课:http://elitedatascience.com/
教程 | Kaggle CTO Ben Hamner :机器学习的八个步骤
第四步:解决入门级竞赛
现在我们已经准备好尝试 Kaggle 竞赛了,这些竞赛分成几个类别。最常见的类别是:
Featured:这些通常是由公司、组织甚至政府赞助的,奖金池最大。
Research:这些是研究方向的竞赛,只有很少或没有奖金。它们也有非传统的提交流程。
Recruitment:这些是由想要招聘数据科学家的公司赞助的。目前仍然相对少见。
Getting Started:这些竞赛的结构和 Featured 竞赛类似,但没有奖金。它们有更简单的数据集、大量教程和滚动的提交窗口让你可以随时输入。
Getting Started 竞赛非常适合初学者,因为它们给你提供了低风险的学习环境,并且还有很多社区创造的教程:https://www.kaggle.com/c/titanic#tutorials
第五步:比赛是为了更好地学习,而不是赚钱
有了上面的基础,就可以参与到 Featured 竞赛中了。一般来说,为了取得好排名,通常需要远远更多的时间和精力。
因此,我们建议你明智地选择参与项目。参加竞赛能帮你深入到你希望长期参与的技术领域中。
尽管奖金很诱人,但更有价值(也更可靠)的回报是为你的未来事业所获得的技能。
首先,我们推荐你选择一种编程语言,并坚持使用。Python 和 R 在 Kaggle 和更广泛的数据科学社区上都很流行。
如果你是一个毫无经验的新手,我们推荐 Python,因为这是一种通用编程语言,你可以在整个流程中都使用它。
参考:
数据科学领域 R vs Python:http://elitedatascience.com/r-vs-python-for-data-science
如何为数据科学学习 Python:http://elitedatascience.com/learn-python-for-data-science
深度 | R vs Python:R 是现在最好的数据科学语言吗?
业界 | 超越 R,Python 成为最受欢迎的机器学习语言
第二步:学习探索数据的基础
加载、浏览和绘制你的数据(即探索性分析)的能力是数据科学的第一步,因为它可以为你将在模型训练过程中做的各种决策提供信息。
如果你选择了 Python 路线,那么我们推荐你使用专门为这个目的设计的 Seaborn 库。其中有高层面的绘图函数,可以绘制许多最常见和有用的图表。
参考:
Seaborn 库:https://seaborn.pydata.org/
Python Seaborn 教程:http://elitedatascience.com/python-seaborn-tutorial
第三步:训练你的第一个机器学习模型
在进入 Kaggle 之前,我们推荐你先在更简单更容易管理的数据集上训练一个模型。这能让你熟悉机器学习库,为以后的工作做铺垫。
关键在于培养良好的习惯,比如将你的数据集分成独立的训练集和测试集,交叉验证避免过拟合以及使用合适的表现评价指标。
对于 Python,最好的通用机器学习库是 Scikit-Learn。
参考:
Scikit-Learn 库:http://scikit-learn.org/stable/
Python Scikit-Learn 教程:http://elitedatascience.com/python-machine-learning-tutorial-scikit-learn
7 天应用机器学习速成课:http://elitedatascience.com/
教程 | Kaggle CTO Ben Hamner :机器学习的八个步骤
第四步:解决入门级竞赛
现在我们已经准备好尝试 Kaggle 竞赛了,这些竞赛分成几个类别。最常见的类别是:
Featured:这些通常是由公司、组织甚至政府赞助的,奖金池最大。
Research:这些是研究方向的竞赛,只有很少或没有奖金。它们也有非传统的提交流程。
Recruitment:这些是由想要招聘数据科学家的公司赞助的。目前仍然相对少见。
Getting Started:这些竞赛的结构和 Featured 竞赛类似,但没有奖金。它们有更简单的数据集、大量教程和滚动的提交窗口让你可以随时输入。
Getting Started 竞赛非常适合初学者,因为它们给你提供了低风险的学习环境,并且还有很多社区创造的教程:https://www.kaggle.com/c/titanic#tutorials
第五步:比赛是为了更好地学习,而不是赚钱
有了上面的基础,就可以参与到 Featured 竞赛中了。一般来说,为了取得好排名,通常需要远远更多的时间和精力。
因此,我们建议你明智地选择参与项目。参加竞赛能帮你深入到你希望长期参与的技术领域中。
尽管奖金很诱人,但更有价值(也更可靠)的回报是为你的未来事业所获得的技能。