Coursera课程分类系统的演变

随着Coursera平台上内容的爆炸性增长,Andrew Ng的《机器学习导论》课程催生了数千个数据科学领域的职业。但内容的增加也带来了挑战,即如何定义每个课程的分类。这对于一个向用户提供精确推荐的平台来说是一个至关重要的方面。

课程内容的广泛性

Coursera的课程覆盖了从摄影到概率图模型,再到穆斯林世界的宪法斗争等主题。这种多样性使得课程难以分类。几年前,彻底改革了课程分类,并实施了称之为领域和子领域的新分类系统。本文将介绍如何定义和实施这个新系统。

旧的课程分类

Coursera最初的分类方案可以追溯到2012年成立之初,并且深受当时可用内容的影响。例如,有五个计算机科学子领域的类别,但只有一个类别涵盖了所有人文学科。这些类别也是手动和任意定义的,导致冗余(例如,“食物与营养”几乎是“健康与社会”的子集)和模糊不清(例如,“信息、技术与设计”)。

关键的是,原始的分类方案没有满足有效匹配学习者和内容的需求。例如,“医学”类别吸引了两组不同的学习者——因为它包含了两组不同的课程。第一组是吸引医疗从业者的课程(例如,关于临床肾脏移植或传染病的生物防护)。第二组是吸引非从业者的公共卫生问题课程。

随着目录扩展到数千门课程,需要一种有原则的组织技术。希望类别能帮助学习者找到最适合他们的内容。这转化为以下标准:

  • 简单(尽可能少的类别)
  • 最小冗余(尽可能互斥)

t-SNE算法的救援

没有手动重新编码,也没有复制传统大学部门,而是采取了数据驱动的方法。希望将课程分组,以便对一个课程感兴趣的人,比如说,弹吉他,也可能对同一组中的其他课程感兴趣,比如说,歌曲创作或爵士即兴。被称为t分布随机邻域嵌入(t-SNE)的算法满足了这一要求。

t-SNE识别课程的排列方式,使得共享共同学习者的课程彼此靠近,不共享共同学习者的课程则相距较远。例如,复分析伽罗瓦理论靠得很近,因为许多学习者同时学习这两门课程,而照顾马匹广义相对论相距较远,因为这两门课程没有共享许多学习者。

在2015年使用t-SNE算法对课程进行处理,产生了下图所示的散点图输出。每个点代表一门单独的课程。然后通过聚类将这些课程分组到类别中(用颜色表示)。

查看图1和图2,首先看到的是课程在全球范围内的一致组织方式:人文学科、社会科学和商业课程位于图表的右上半部分,而自然科学、工程学和计算科学课程位于左下半部分。

  • 商业和金融课程聚集在右侧
  • 自然科学(物理、化学和生物)课程在左侧
  • 计算科学(数学、计算机科学和统计学)课程在底部
  • 社会科学和人文学科课程在顶部
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485