随着数据需求的不断增长,经常发现所需的数据可能存在于某个网站上。但是,如何获取这些数据以便按照需求进行处理,并为其增加价值呢?这就是网络爬虫技术的用武之地。
网络爬虫技术涉及两个核心技能:首先,需要一定的编程知识来启动项目;其次,更为重要的是,需要了解网站的构建方式,以便能够识别出所需数据的来源。数据是嵌入在页面中吗?还是存储在CSS文件中,或者以JavaScript编码的形式存在,或者是基于某个API的AJAX调用生成的JSON数据?网络爬虫的初期工作更多的是调查研究,这是许多刚开始进行网络爬虫工作的人容易忽略的一点。
最受欢迎的一系列文章都是关于网络爬虫的。然而,有时候文字说明是不够的,需要视觉辅助来理解正在发生的事情。基于这个想法,创建了一个免费的网络爬虫课程,教授网络爬虫的基础知识。这个课程将带从对主题知之甚少到对开始网络爬虫时需要做什么有扎实的了解。
遇到的大多数资源(无论是免费的还是付费的)都假设读者/学生比他们实际知道的要多。目标是通过这个课程为提供重要的基础知识,当然,这些知识是免费的。
非常喜欢制作课程(尤其是免费的)作为一种新的技能和知识传递方式。以下是到目前为止收到的一些令人惊叹的反馈。对此感到非常高兴,正是多年来社区的支持让走到了这个阶段。
"终于有一位讲师知道如何教学生,让他们不会迷失或困惑。谢谢!"
"很棒的课程,希望在阅读Python Scrapy文档之前就看了它。"
"喜欢这门课程。这是一个很好的网络爬虫入门!它简短、甜美、切中要害!"
"对理论和策略印象深刻...超出了预期"