Azure Databricks 是一个基于 Apache Spark 的分析平台,它与 Azure、AWS 和 GCP 集成,提供一键式设置、简化的工作流程和一个交互式工作区,使数据工程师、数据科学家和机器学习工程师之间的协作成为可能。Azure Databricks 是一个为 Microsoft Azure 云服务平台优化的数据分析平台,提供两种环境用于开发数据密集型应用程序:Databricks数据科学与工程和 Databricks机器学习。Azure 是 Databricks 的一级服务提供商,意味着所有 Databricks 的支持服务都将由 Azure 在其云上提供。
前提条件:需要至少有一个 Azure 免费层订阅。
步骤 1:打开 Azure 门户(portal.azure.com)。
步骤 2:创建 Databricks 服务,点击“创建资源”图标。
步骤 2.1:现在搜索“Azure Databricks”服务,然后点击创建按钮选项。
步骤 2.2:现在填写服务创建所需的详细信息,在项目详情部分。从下拉菜单中选择正确的订阅,使用的是免费试用,所以将选择提供的默认选项。现在需要创建一个资源组,如果没有,就点击创建新资源组,否则从下拉选项中选择一个。
步骤 2.3:其他事项将保持默认,并点击 Networking、Advance 和 Tag 部分的下一步。
步骤 2.4:最后,点击“审查 + 创建”按钮。
步骤 2.5:一旦显示“验证通过”的消息,点击“创建”按钮。
步骤 2.6:现在点击转到服务,将被重定向到 Azure Databricks 服务页面,点击“启动工作区”,将被重定向到工作区。
步骤 1:从提供的 Databricks 菜单选项中,点击“计算”以创建一个集群。
步骤 2:将被重定向到计算页面,这里将得到两种类型的集群创建选项,一种是“通用集群”,另一种是“作业集群”。
通用集群:它们用于使用笔记本进行数据分析,并使用笔记本执行数据摄取和转换工作。
作业集群:它们用于执行作业或调度笔记本以执行笔记本内编写的操作。
这里将创建通用集群,现在点击创建集群按钮。
步骤 3:现在将被移动到新的集群创建页面。在这里,需要设置以下详细信息:
集群名称:选择想要给集群的名称。给“blogdemocls”。
集群模式:这里将得到三个选项“高并发”、“标准”和“单节点”。目前,处于免费层,所以将选择“单节点”。可以根据计算需求选择其他选项。
Databricks 运行时版本:在这里,将被提供不同的 Scala 和 Spark 运行时版本。在这里,将选择带有 LTS(长期支持)选项的最新版本。可以根据需求选择。
自动飞行员选项:在这里,可以定义不活动时间。如果集群在定义的不活动时间内处于空闲状态,则集群将停止。
注意:如果选择另一个集群模式,将得到两个其他选项“工作器类型”和“驱动器类型”。但目前处于免费层,所以这两个选项对来说是禁用的。
节点类型:在这里将定义需要处理数据的机器配置。比如需要多少内存和核心。将得到很多选项,无论是需要计算、内存还是存储目的,都可以从中选择。在这里,将选择一个通用的、标准的 D4a_v4 机器,带有 16 GB 内存和 4 核心。可以在通用类别中找到这台机器,然后点击更多选项。
现在点击创建集群按钮并等待其创建。现在当它创建完成后,现在点击开始按钮,它将在 3 到 5 分钟内启动。
现在集群正在运行,将创建第一个 Databricks 笔记本。
步骤 1:转到工作区并点击它,然后点击工作区的下拉箭头并创建一个新文件夹以存放所有笔记本。将这个文件夹命名为“inshortsnews”。
步骤 2:现在点击“inshortsnews”文件夹的下拉箭头并点击创建,然后点击笔记本。
步骤 2.1:现在为笔记本创建提供所有详细信息,如名称,给笔记本命名为“inshorts-news-data-scrapping”,默认语言,选择“Python”。如果愿意,也可以选择 R、Scala 和 SQL 作为项目的默认语言。
步骤 2.2:点击创建,笔记本将用提供的语言创建。
现在将使用 Python、pandas 和其他库从 Inshorts 新闻 Web 应用中抓取新闻数据。
Inshorts 是一个聚合应用程序,它将新闻文章总结为 60 个字,并涵盖包括技术、商业和其他内容,如视频、信息图表和博客。在下面的图片中,将抓取矩形框内的数据。
在这里,将抓取文章的新闻标题、新闻内容和新闻文章的类别。
新闻标题:这是一个包含新闻文章概述的单行句子。
新闻文章:这是一个多行句子,包含关于新闻的完整信息,共 60 个字。
新闻类别:它告诉新闻文章的类别。
示例:
news_headline: Musk’s Boring Company shares a glimpse of the Las Vegas loop station.
news_article: The Boring Company shared a short clip on Twitter showing one of the underground stations that the company is building as part of its Las Vegas Convention Center (LVCC) loop. In September, Founder Elon Musk said the first operational tunnel under Vegas was almost complete. “Tunnels under cities with self-driving electric cars will feel like warp drive,” he had added.
new_category: Technology
文章被分类为许多类别,但只会抓取 7 个不同的类别,它们如下:技术、体育、政治、娱乐、世界、汽车和科学。
为了收集这些数据,使用了以下库:requests、BeautifulSoup4 和 pandas。因此,要使用这些库,首先需要在笔记本中安装它们。只需要安装 BeautifulSoup 库,其余两个已经随笔记本提供。
步骤 1:在 databricks 笔记本中安装库,使用以下方法:
步骤 2:现在导入所有所需的库
步骤 3:现在为每个类别定义端点,希望从这些端点抓取数据。
步骤 04:现在将为上述定义的每个“URL”发送请求,然后美化响应数据。然后使用列表推导式从响应数据中找到所有新闻标题和新内容。还分割 URL 以获取新闻类别。
步骤 05:从从 Inshorts 新闻 Web 应用中抓取的数据字典中创建数据框。
步骤 06:现在显示已经抓取的数据。
对于最终代码,请。