Coursera课程分类系统的演变

随着Coursera平台上内容的爆炸性增长，Andrew Ng的《机器学习导论》课程催生了数千个数据科学领域的职业。但内容的增加也带来了挑战，即如何定义每个课程的分类。这对于一个向用户提供精确推荐的平台来说是一个至关重要的方面。

课程内容的广泛性

Coursera的课程覆盖了从摄影到概率图模型，再到穆斯林世界的宪法斗争等主题。这种多样性使得课程难以分类。几年前，彻底改革了课程分类，并实施了称之为领域和子领域的新分类系统。本文将介绍如何定义和实施这个新系统。

Coursera最初的分类方案可以追溯到2012年成立之初，并且深受当时可用内容的影响。例如，有五个计算机科学子领域的类别，但只有一个类别涵盖了所有人文学科。这些类别也是手动和任意定义的，导致冗余（例如，“食物与营养”几乎是“健康与社会”的子集）和模糊不清（例如，“信息、技术与设计”）。

关键的是，原始的分类方案没有满足有效匹配学习者和内容的需求。例如，“医学”类别吸引了两组不同的学习者——因为它包含了两组不同的课程。第一组是吸引医疗从业者的课程（例如，关于临床肾脏移植或传染病的生物防护）。第二组是吸引非从业者的公共卫生问题课程。

随着目录扩展到数千门课程，需要一种有原则的组织技术。希望类别能帮助学习者找到最适合他们的内容。这转化为以下标准：

没有手动重新编码，也没有复制传统大学部门，而是采取了数据驱动的方法。希望将课程分组，以便对一个课程感兴趣的人，比如说，弹吉他，也可能对同一组中的其他课程感兴趣，比如说，歌曲创作或爵士即兴。被称为t分布随机邻域嵌入（t-SNE）的算法满足了这一要求。

t-SNE识别课程的排列方式，使得共享共同学习者的课程彼此靠近，不共享共同学习者的课程则相距较远。例如，复分析和伽罗瓦理论靠得很近，因为许多学习者同时学习这两门课程，而照顾马匹和广义相对论相距较远，因为这两门课程没有共享许多学习者。

在2015年使用t-SNE算法对课程进行处理，产生了下图所示的散点图输出。每个点代表一门单独的课程。然后通过聚类将这些课程分组到类别中（用颜色表示）。

查看图1和图2，首先看到的是课程在全球范围内的一致组织方式：人文学科、社会科学和商业课程位于图表的右上半部分，而自然科学、工程学和计算科学课程位于左下半部分。

MADRaS是一个基于TORCS的开源多智能体自动驾驶仿真器，支持多智能体控制和复杂的交通场景模拟，旨在推动自动驾驶技术的研究和发展。

本文探讨了强化学习在工业应用中的潜力、挑战以及未来的发展。通过专家Xander Steenbrugge的视角，我们深入了解了强化学习的基本概念、行业现状以及入门资源。