最近在公众号看到篇 node 爬虫的文章,比较简单,本着学习的态度看完觉得可以加大点难度试一试。
¶一、Top250 - 爬取页面
豆瓣电影 Top250 是基于网页爬取,每页25条数据,访问 URL 有一定规律。思路是获取 DOM 节点的内容,写入到 json 文件,下载电影的封面图片。cheerio
用来解析 html 非常方便,写法可参考 抓取当前页面。
¶1、入口文件
1 | const getFilmsInfo = require('./tools/getFilmsInfo') |
¶2、抓取当前页面
1 | /** |
¶3、下载电影封面图片
1 | /** |
¶二、电影列表 - 调用接口
豆瓣电影全量列表(9900+条信息) 是通过接口去请求的
1 | const fs = require('fs') |