在数据科学领域,选择学习哪种编程语言常常让人陷入不必要的纠结,即使社区中的其他数据科学家推荐Python。但如果是Kaggle竞赛的大师级人物推荐Python,情况又如何呢?再次带来Kaggle大师系列访谈,今天有幸邀请到Agnis Liukis。Agnis目前在Kaggle大师排名中位列第21位,拥有8枚金牌,同时在笔记本和讨论区也是Kaggle专家。他拥有里加技术大学的信息技术硕士学位,并拥有超过10年的工作经验,目前担任Tieto的首席软件架构师,将所有经验带到桌面上。
本次访谈涵盖了包括Agnis Liukis的教育和工作、从零开始成为Kaggle大师的旅程、对数据科学初学者的建议、灵感和未来计划等一系列话题。让开始吧!
Agnis Liukis(AL):在IT界,有两个主要兴趣——Web技术和数据科学,其中一个作为全职工作,另一个作为爱好。目前,在拉脱维亚的TietoEVRY担任首席软件架构师,主要关注Web技术。因此,在业余时间,主要关注数据科学。想如果日常工作是数据科学家,可能会在晚上构建一些Web解决方案。
AV:目前在Kaggle竞赛中排名第22,过去曾达到第9名,这是一个了不起的成就。在旅程中,在开始参加黑客马拉松时一定遇到了一些挑战。能列出这些挑战以及是如何克服它们的吗?
AL:对来说,最大的挑战总是时间不足。特别是在刚开始参加Kaggle竞赛时,有很多新东西需要学习。学习新东西需要时间。对Kaggle和数据科学都是新手。所以必须从机器学习算法、工具、库以及所有这些背后的理论开始学习。现在情况稍微容易一些,因为已经获得了相当多的不同机器学习问题、方法的经验,这在竞赛中真的有帮助。
但作为数据科学是一个非常快速增长和变化的领域,一个人永远不能说他知道一切。新工具、模型、算法不断出现,所以学习永无止境。
AV:如何从竞赛中的前50%完成者提高到前1%?
AL:实际上,从未进入过前50%完成者 ☺ 在在Kaggle的第一次竞赛中,在1680名参与者中排名第48,这是前3%。在数学和统计学方面很强,这帮助在对机器学习知之甚少的情况下也取得了好成绩。认为许多竞争者低估了数学和统计学的力量——它经常可以为典型的机器学习方法带来一些额外的收益。
随着时间的推移,越来越多地了解数据科学和机器学习,这使在竞赛中的表现得到了提高。真的很喜欢学习新事物,认为在数据科学中,这是成功的必要条件。
AV:机器学习正在迅速增长,市场上不断推出新的库。如何跟上这个领域的所有发展,以及如何在竞赛中实现这些最新的算法/框架?
AL:会说,跟上数据科学领域所有最新趋势和库是在Kaggle上积极竞争的原因之一。如果某些东西确实强大且值得了解,那么它肯定会出现在Kaggle的某些讨论、笔记本或获胜解决方案的描述中。
当然,也阅读关于数据科学和机器学习主题的博客和研究论文。
当涉及到实现某个算法时,编程技能在这方面帮助很大。会说,Python是任何数据科学家必须知道的编程语言。
AV:能说出五位总是激励Kaggle数据科学专家吗?