在当今数字化时代,80%的全球数据都是非结构化的。这些数据可能包括照片、文档、音频和视频记录以及网页内容。为了利用这些数据中包含的信息,需要将其提取出来并找出模式或得出有用的见解。
但是,如何将这些非结构化数据转换成结构化格式呢?这就是网络抓取技术发挥作用的地方。
简而言之,网络抓取、网络收割或网络数据提取是一种自动化的过程,用于从网站收集大量非结构化数据。用户可以提取特定网站上的所有数据,或者根据需要提取特定数据。收集到的数据可以存储在结构化格式中,以供进一步分析。
在当今世界,网络抓取已经引起了广泛关注,并拥有广泛的用途。以下是一些用途的列表:
1. 找到想要抓取的网页的URL
2. 通过检查选择特定元素
3. 编写代码以获取所选元素的内容
4. 将数据存储在所需的格式中
就是这么简单!
Selenium - 用于测试网络应用程序的框架
BeautifulSoup- 用于从HTML、XML和其他标记语言中提取数据的Python库
Pandas - 用于数据操作和分析的Python库
在本文中,将通过从网站consumeraffairs.com/food提取Domino's Pizza评论来构建自己的数据集。将使用requests和BeautifulSoup进行抓取和解析数据。
打开URL "consumeraffairs.com/food",在搜索栏中搜索Domino's Pizza并按Enter。以下是评论页面的样子。
基础URL是网址的一致部分,代表网站搜索功能路径。
base_url = "https://www.consumeraffairs.com/food/dominos.html?page="
查询参数代表可以在页面上声明的额外值。
query_parameter = "?page=" + str(i) # i代表页码