数据科学在印度政府的应用与挑战

从农业到医疗保健,印度政府每天都面临着众多挑战,这也是NITI Aayog倡议下成立数据科学部门的主要原因。在这个独立日,认为没有什么比直接邀请NITI Aayog数据科学负责人来介绍这些挑战以及政府如何利用数据科学应对它们更好的方式了。

有幸邀请到了印度顶尖的数据科学领袖之一,Avik Sarkar博士,参加DataHack Radio播客节目。他是一位雄辩的演说家,从他对数学的热爱谈到了他的硕士和博士论文技术。他还详细介绍了NITI Aayog倡议下数据科学团队的工作,这对所有印度人来说都是必听的。

  • SoundCloud
  • iTunes
  • Google Podcasts

Avik博士对数字的喜爱可以追溯到他的童年。他自学校时代就对数学感兴趣,这促使他获得了统计学学士学位和应用统计与信息学硕士学位(来自IIT-Bombay)。他还拥有计算机科学和统计学博士学位。从这些信息中,可以推断出他是数据科学的完美人选!

在加入NITI Aayog担任数据科学部门负责人之前,Avik博士曾在Accenture、IBM和Nokia Siemens等公司担任高级职位。当查看他的简历时,一个趋势显现出来——他在数据科学成为流行词之前就一直在与数据打交道,因此在这个领域有着非常强大的背景。

当Avik博士学习并从事人工智能工作时,与现在看到的AI是不同的体验。这是他对数据科学、机器学习和AI领域快速发展的看法:

“在这个领域,每年学习新事物是必须做的事情。这是一个快速发展的领域——新技术、新平台和新编程语言每年都会出现,因此熟悉这些是非常重要的。”

他的硕士论文细节

Avik博士的硕士论文主题是多主题文本分类。他选择这个主题是因为在当时(2000年代初)这是一个重要的话题,因为当时普遍存在层次化的信息安排。层次结构的主要目的是将拥有的任何文本数据分类——可以是新闻文章、博客等。

随着越来越多的印度人(和全球用户)在90年代末/2000年代初开始上网,互联网变得更加民主化。因此,突然从看到几个编辑在线发布内容转变为大量作家获得互联网访问权。内容量激增,虽然与现在看到的相比还不算什么,但足以确保人们无法手动将文章分类到层次结构中。

Avik博士看到了需要一个自动识别这些主题并将它们放入层次模型中的自动分类系统的需求。他面临的更具挑战性的问题,也是他所承担的,是一些文章可能与多个主题相关。

他的博士论文是关于文本挖掘和文本分布的统计建模。如果对自然语言处理(NLP)感兴趣,一定要听这一部分,Avik博士解释了他为什么以及如何选择这个话题。

NITI Aayog的数据科学

“正试图理解运营数据,以获得有关经济状况的良好画面。”Avik博士所说的NITI Aayog的数据科学团队更像是一个横向组织。他和他的团队执行的分析类型非常广泛。尽管他在加入政府之前有超过十五年的数据处理经验,但对他来说,这几乎是一个新的工作领域。

他们需要执行大量的模拟和情景建模。他给出了一些直观的例子,说明团队如何思考某些行业(如石油和汽车)以及在预测生产和制造业时需要考虑的变量。

这符合长期预测的资格。团队还使用分析来应对短期挑战,这些挑战是操作性的。例如,营养不良是印度(并且已经几十年了)的一个主要问题。他们提取有关哪些地区需要更多资金来处理这个问题的洞察,这帮助了地面上的人。

数据科学帮助政府应对长期挑战的其他方面,Avik博士解释了从启动调查到最终提取有意义的洞察之间存在2-3年的滞后。他目前在NITI Aayog的团队正试图对这些事物进行更多的实时分析,特别是在医疗保健、教育和农业等关键领域。

印度数据收集的挑战

通常存在数据质量问题。由于大多数数据是操作性的,人们假设它可能不会被用于任何地方,因此以非常不集中的方式存储。由于数据质量的严重差距,许多领域需要放弃。希望随着时间的推移,随着Avik博士继续他的工作,各部门将很快意识到正确存储这些数据的必要性。

缺乏数据也不可避免地导致构建的模型中存在偏见。不幸的是,这是印度几乎在所有领域都面临的问题。减轻这些问题已成为一个巨大的挑战,Avik博士指出这是他不得不应对的最大障碍。

Avik博士团队使用的工具/语言

对于能源建模,一个长期倡议(需要1-2年),“Message Models”和“Times Markel Model”是团队的首选工具。对于生成要与州政府共享的可视化和仪表板,团队使用流行的工具,如:

  • Tableau
  • Qlik
  • Power BI
  • R
  • Python
  • MS Excel

不同国家在采用人工智能方面都有其独特的挑战。对于印度来说,Avik博士认为这是包容性的障碍,或者说是“全民AI”。这就是他的团队正在全国试点的。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485