• Babel 插件通关秘籍
  • Git 原理详解及实用指南
  • Nest 通关秘籍
  • React 通关秘籍
  • TypeScript 全面进阶指南
  • TypeScript 类型体操通关秘籍
  • 现代CSS
  • Babel 插件通关秘籍
  • Git 原理详解及实用指南
  • Nest 通关秘籍
  • React 通关秘籍
  • TypeScript 全面进阶指南
  • TypeScript 类型体操通关秘籍
  • 现代CSS
  • Nest 通关秘籍

    • 1.开篇词
    • 2.给你 5 个学习 Nest 的理由,你会心动么
    • 3.Nest 基础概念扫盲
    • 4.快速掌握 Nest CLI
    • 5.五种HTTP数据传输方式
    • 6.IoC 解决了什么痛点问题?
    • 7.如何调试 Nest 项目
    • 8.使用多种 Provider,灵活注入对象
    • 9.全局模块和生命周期
    • 10.AOP 架构有什么好处?
    • 11.一网打尽 Nest 全部装饰器
    • 12.Nest 如何自定义装饰器
    • 13.Metadata 和 Reflector
    • 14.ExecutionContext:切换不同上下文
    • 15.Module 和 Provider 的循环依赖怎么处理?
    • 16.如何创建动态模块
    • 17.Nest 和 Express 的关系,如何切到 fastify
    • 18.Nest 的 Middleware
    • 19.RxJS 和 Interceptor
    • 20.内置 Pipe 和自定义 Pipe
    • 21.如何使用 ValidationPipe 验证 post 请求参数
    • 22.如何自定义 Exception Filter
    • 23.图解串一串 Nest 核心概念
    • 24.接口如何实现多版本共存
    • 25.Express 如何使用 multer 实现文件上传
    • 26.Nest 如何使用 multer 实现文件上传
    • 27.图书管理系统:需求分析和原型图
    • 28.图书管理系统:用户模块后端开发
    • 29.图书管理系统:图书模块后端开发
    • 30.图书管理系统:用户模块前端开发
    • 31.图书管理系统:图书模块前端开发--图书搜索
    • 32.图书管理系统:图书模块前端开发--图书增删改
    • 33.图书管理系统:项目总结
    • 34.大文件分片上传
    • 35.最完美的 OSS 上传方案
    • 36.Nest 里如何打印日志?
    • 37.为什么 Node 里要用 Winston 打印日志?
    • 38.Nest 集成日志框架 Winston
    • 39.通过 Desktop 学 Docker 也太简单了
    • 40.你的第一个 Dockerfile
    • 41.Nest 项目如何编写 Dockerfile
    • 42.提升 Dockerfile 水平的 5 个技巧
    • 43.Docker 是怎么实现的?
    • 44.为什么 Node 应用要用 PM2 来跑?
    • 45.快速入门 MySQL
    • 46.SQL 查询语句的所有语法和函数
    • 47.一对一、join 查询、级联方式
    • 48.一对多、多对多关系的表设计
    • 49.子查询和 EXISTS
    • 50.SQL 综合练习
    • 51.MySQL 的事务和隔离级别
    • 52.MySQL 的视图、存储过程和函数
    • 53.使用 Node 操作 MySQL 的两种方式
    • 54.快速掌握 TypeORM
    • 55.TypeORM 一对一的映射和关联 CRUD
    • 56.TypeORM 一对多的映射和关联 CRUD
    • 57.TypeORM 多对多的映射和关联 CRUD
    • 58.在 Nest 里集成 TypeORM
    • 59.TypeORM 如何保存任意层级的关系?
    • 60.为什么生产环境要用 TypeORM 的 migration 迁移功能?
    • 61.Nest 项目里如何使用 TypeORM 迁移
    • 62.如何动态读取不同环境的配置?
    • 63.快速入门 Redis
    • 64.在 Nest 里操作 Redis
    • 65.为什么不用 cache-manager 操作 Redis?
    • 66.两种登录状态保存方式:JWT、Session
    • 67.Nest 里实现 Session 和 JWT
    • 68.MySQL + TypeORM + JWT 实现登录注册
    • 69.基于 ACL 实现权限控制
    • 70.基于 RBAC 实现权限控制
    • 71.基于 access_token 和 refresh_token 实现登录状态无感刷新
    • 72.单 token 无限续期,实现登录状态无感刷新
    • 73.使用 passport 做身份认证
    • 74.passport 实现 GitHub 三方账号登录
    • 75.passport 实现 Google 三方账号登录
    • 76.为什么要使用 Docker Compose ?
    • 77.Docker 容器通信的最简单方式:桥接网络
    • 78.Docker 支持重启策略,是否还需要 PM2
    • 79.快速掌握 Nginx 的 2 大核心用法
    • 80.基于 Nginx 实现灰度系统
    • 81.基于 Redis 实现分布式 session
    • 82.Redis + 高德地图,实现附近的充电宝
    • 83.用 Swagger 自动生成 api 文档
    • 84.如何灵活创建 DTO
    • 85.class-validator 的内置装饰器,如何自定义装饰器
    • 86.序列化 Entity,你不需要 VO 对象
    • 87.手写序列化 Entity 的拦截器
    • 88.使用 compodoc 生成文档
    • 89.Node 如何发邮件?
    • 90.实现基于邮箱验证码的登录
    • 91.定时任务 + Redis 实现阅读量计数
    • 92.Nest 的 3 种定时任务
    • 93.Nest 里如何实现事件通信?
    • 94.HttpModule + pinyin 实现天气预报查询服务
    • 95.如何记录请求日志
    • 96.短链服务?自己写一个
    • 97.Nest 实现 Server Sent Event 数据推送
    • 98.用 minio 自己搭一个 OSS 服务
    • 99.前端如何直传文件到 Minio
    • 100.基于 sharp 实现 gif 压缩工具
    • 101.大文件如何实现流式下载?
    • 102.Puppeteer 实现爬虫,爬取 BOSS 直聘全部前端岗位
    • 103.实现扫二维码登录
    • 104.Nest 的 REPL 模式
    • 105.实现 Excel 导入导出
    • 106.如何用代码动态生成 PPT
    • 107.如何拿到服务器 CPU、内存、磁盘状态
    • 108.Nest 如何实现国际化?
    • 109.会议室预订系统:需求分析和原型图
    • 110.会议室预订系统:技术方案和数据库设计
    • 111.会议室预订系统:用户管理模块-用户注册
    • 112.会议室预订系统:用户管理模块-配置抽离、登录认证鉴权
    • 113.会议室预订系统:用户管理模块-interceptor、修改信息接口
    • 114.会议室预订系统:用户管理模块-用户列表和分页查询
    • 115.会议室预订系统:用户管理模块-swagger 接口文档
    • 116.会议室预订系统:用户管理模块-用户端登录注册页面
    • 117.会议室预订系统:用户管理模块-用户端信息修改页面
    • 118.会议室预订系统:用户管理模块-头像上传
    • 119.会议室预订系统:用户管理模块-管理端用户列表页面
    • 120.会议室预订系统:用户管理模块-管理端信息修改页面
    • 121.会议室预订系统:会议室管理模块-后端开发
    • 122.会议室预订系统:会议室管理模块-管理端前端开发
    • 123.会议室预订系统:会议室管理模块-用户端前端开发
    • 124.会议室预订系统:预定管理模块-后端开发
    • 125.会议室预订系统:预定管理模块-管理端前端开发
    • 126.会议室预订系统:预定管理模块-用户端前端开发
    • 127.会议室预订系统:统计管理模块-后端开发
    • 128.会议室预订系统:统计管理模块-前端开发
    • 129.会议室预订系统:后端项目部署到阿里云
    • 130.会议室预订系统:前端项目部署到阿里云
    • 131.会议室预定系统:用 migration 初始化表和数据
    • 132.会议室预定系统:文件上传 OSS
    • 133.会议室预定系统:Google 账号登录后端开发
    • 134.会议室预定系统:Google 账号登录前端开发
    • 135.会议室预定系统:后端代码优化
    • 136.会议室预定系统:集成日志框架 winston
    • 137.会议室预定系统:前端代码优化
    • 138.会议室预定系统:全部功能测试
    • 139.会议室预定系统:项目总结
    • 140.Nest 如何创建微服务?
    • 141.Nest 的 Monorepo 和 Library
    • 142.用 Etcd 实现微服务配置中心和注册中心
    • 143.Nest 集成 Etcd 做注册中心、配置中心
    • 144.用 Nacos 实现微服务配置中心和注册中心
    • 145.基于 gRPC 实现跨语言的微服务通信
    • 146.快速入门 ORM 框架 Prisma
    • 147.Prisma 的全部命令
    • 148.Prisma 的全部 schema 语法
    • 149.Primsa Client 单表 CRUD 的全部 api
    • 150.Prisma Client 多表 CRUD 的全部 api
    • 151.在 Nest 里集成 Prisma
    • 152.为什么前端监控系统要用 RabbitMQ?
    • 153.基于 Redis 实现关注关系
    • 154.基于 Redis 实现各种排行榜(周榜、月榜、年榜)
    • 155.考试系统:需求分析
    • 156.考试系统:技术方案和数据库设计
    • 157.考试系统:微服务、Lib 拆分
    • 158.考试系统;用户注册
    • 159.考试系统:用户登录、修改密码
    • 160.考试系统:考试微服务
    • 161.考试系统:登录、注册页面
    • 162.考试系统:修改密码、试卷列表页面
    • 163.考试系统:新增试卷、回收站
    • 164.考试系统:试卷编辑器
    • 165.考试系统:试卷回显、预览、保存
    • 166.考试系统:答卷微服务
    • 167.考试系统:答题页面
    • 168.考试系统:自动判卷
    • 169.考试系统:分析微服务、排行榜页面
    • 170.考试系统:整体测试
    • 171.考试系统:项目总结
    • 172.用 Node.js 手写 WebSocket 协议
    • 173.Nest 开发 WebSocket 服务
    • 174.基于 Socket.io 的 room 实现群聊
    • 175.聊天室:需求分析和原型图
    • 176.聊天室:技术选型和数据库设计
    • 177.聊天室:用户注册
    • 178.聊天室:用户登录
    • 179.聊天室:修改密码、修改信息
    • 180.聊天室:好友列表、发送好友申请
    • 181.聊天室:创建聊天室、加入群聊
    • 182.聊天室:登录、注册页面开发
    • 183.聊天室:修改密码、信息页面开发
    • 184.聊天室:头像上传
    • 185.聊天室:好友∕群聊列表页面
    • 186.聊天室:添加好友弹窗、通知页面
    • 187.聊天室:聊天功能后端开发
    • 188.聊天室:聊天功能前端开发
    • 189.聊天室:一对一聊天
    • 190.聊天室:创建群聊、进入群聊
    • 191.聊天室:发送表情、图片、文件
    • 192.聊天室:收藏
    • 193.聊天室:全部功能测试
    • 194.聊天室:项目总结
    • 195.MongoDB 快速入门
    • 196.使用 mongoose 操作 MongoDB 数据库
    • 197.GraphQL 快速入门
    • 198.Nest 开发 GraphQL 服务:实现 CRUD
    • 199.GraphQL + Primsa + React 实现 TodoList
    • 200.如何调试 Nest 源码?

我们在找工作的时候,都会用 boss 直聘、拉钩之类的 APP 投简历。

根据职位描述筛选出适合自己的来投。

此外,职位描述也是我们简历优化的方向,甚至是平时学习的方向。

所以我觉得招聘网站的职位描述还是挺有价值的,就想把它们都爬取下来存到数据库里。

今天我们一起来实现下。

爬取数据我们使用 Puppeteer 来做,然后用 TypeORM 把爬到的数据存到 mysql 表里。

创建个项目:

mkdir jd-spider
cd jd-spider
npm init -y

进入项目,安装 puppeteer:

npm install --save puppeteer

我们要爬取的是 boss 直聘的网站数据。

首先,进入搜索页面,选择全国范围,搜索前端:

然后职位列表的每个点进去查看描述,把这个岗位的信息和描述抓取下来:

创建 test.js

import puppeteer from "puppeteer";

const browser = await puppeteer.launch({
    headless: false,
    defaultViewport: {
        width: 0,
        height: 0,
    },
});

const page = await browser.newPage();

await page.goto("https://www.zhipin.com/web/geek/job");

await page.waitForSelector(".job-list-box");

await page.click(".city-label", {
    delay: 500,
});

await page.click(".city-list-hot li:first-child", {
    delay: 500,
});

await page.focus(".search-input-box input");

await page.keyboard.type("前端", {
    delay: 200,
});

await page.click(".search-btn", {
    delay: 1000,
});

调用 launch 跑一个浏览器实例,指定 headless 为 false 也就是有界面。

defaultView 设置 width、height 为 0 是网页内容充满整个窗口。

然后就是自动化的流程了:

首先进入职位搜索页面,等 job-list-box 这个元素出现之后,也就是列表加载完成了。

就点击城市选择按钮,选择全国。

然后在输入框输入前端,点击搜索。

然后跑一下。

跑之前在 package.json 设置 type 为 module,也就是支持 es module 的 import:

node ./test.js

它会自动打开一个浏览器窗口:

然后执行自动化脚本:

这样,下面的列表数据就是可以抓取的了。

不过这里其实没必要这么麻烦,因为只要你 url 里带了 city 和 query 的参数,会自动设置为搜索参数:

所以直接打开这个 url 就可以:

import puppeteer from "puppeteer";

const browser = await puppeteer.launch({
    headless: false,
    defaultViewport: {
        width: 0,
        height: 0,
    },
});

const page = await browser.newPage();

await page.goto(
    "https://www.zhipin.com/web/geek/job?query=前端&city=100010000"
);

await page.waitForSelector(".job-list-box");

然后我们要拿到页数,用来访问列表的每页数据。

怎么拿到页数呢?

其实就是拿 options-pages 的倒数第二个 a 标签的内容:

import puppeteer from "puppeteer";

const browser = await puppeteer.launch({
    headless: false,
    defaultViewport: {
        width: 0,
        height: 0,
    },
});

const page = await browser.newPage();

await page.goto(
    "https://www.zhipin.com/web/geek/job?query=前端&city=100010000"
);

await page.waitForSelector(".job-list-box");

const res = await page.$eval(".options-pages a:nth-last-child(2)", (el) => {
    return parseInt(el.textContent);
});

console.log(res);

$eval 第一个参数是选择器,第二个参数是对选择出的元素做一些处理后返回。

跑一下:

页数没问题。

然后接下来就是访问每页的列表数据了。

就是在 url 后再带一个 page 的参数:

然后,我们遍历访问每页数据,拿到每个职位的信息:

import puppeteer from "puppeteer";

const browser = await puppeteer.launch({
    headless: false,
    defaultViewport: {
        width: 0,
        height: 0,
    },
});

const page = await browser.newPage();

await page.goto(
    "https://www.zhipin.com/web/geek/job?query=前端&city=100010000"
);

await page.waitForSelector(".job-list-box");

const totalPage = await page.$eval(
    ".options-pages a:nth-last-child(2)",
    (e) => {
        return parseInt(e.textContent);
    }
);

const allJobs = [];
for (let i = 1; i <= totalPage; i++) {
    await page.goto(
        "https://www.zhipin.com/web/geek/job?query=前端&city=100010000&page=" +
            i
    );

    await page.waitForSelector(".job-list-box");

    const jobs = await page.$eval(".job-list-box", (el) => {
        return [...el.querySelectorAll(".job-card-wrapper")].map((item) => {
            return {
                job: {
                    name: item.querySelector(".job-name").textContent,
                    area: item.querySelector(".job-area").textContent,
                    salary: item.querySelector(".salary").textContent,
                },
                link: item.querySelector("a").href,
                company: {
                    name: item.querySelector(".company-name").textContent,
                },
            };
        });
    });
    allJobs.push(...jobs);
}

console.log(allJobs);

具体的信息都是从 dom 去拿的:

跑一下试试:

可以看到,它会依次打开每一页,然后把职位数据爬取下来。

做到这一步还不够,我们要点进去这个链接,拿到 jd 的描述。

for (let i = 0; i < allJobs.length; i++) {
    await page.goto(allJobs[i].link);

    try {
        await page.waitForSelector(".job-sec-text");

        const jd = await page.$eval(".job-sec-text", (el) => {
            return el.textContent;
        });
        allJobs[i].desc = jd;

        console.log(allJobs[i]);
    } catch (e) {}
}

try catch 是因为有的页面可能打开会超时导致中止,这种就直接跳过好了。

跑一下:

它同样会自动打开每个岗位详情页,拿到职位描述的内容,并打印在控制台。

接下来只要把这些存入数据库就好了。

我们新建个 nest 项目:

npm install -g @nestjs/cli

nest new boss-jd-spider

用 docker 把 mysql 跑起来:

从 docker 官网下载 docker desktop,这个是 docker 的桌面端:

跑起来后,搜索 mysql 镜像(这步需要科学上网),点击 run:

输入容器名、端口映射、以及挂载的数据卷,还要指定一个环境变量:

端口映射就是把宿主机的 3306 端口映射到容器里的 3306 端口,这样就可以在宿主机访问了。

数据卷挂载就是把宿主机的某个目录映射到容器里的 /var/lib/mysql 目录,这样数据是保存在本地的,不会丢失。

而 MYSQL_ROOT_PASSWORD 的密码则是 mysql 连接时候的密码。

跑起来后,我们用 GUI 客户端连上,这里我们用的是 mysql workbench,这是 mysql 官方提供的免费客户端:

连接上之后,点击创建 database:

指定名字、字符集为 utf8mb4,然后点击右下角的 apply。

创建成功之后在左侧就可以看到这个 database 了:

当然,现在还没有表。

我们在 Nest 里用 TypeORM 连接 mysql。

安装用到的包:

npm install --save @nestjs/typeorm typeorm mysql2

mysql2 是数据库驱动,typeorm 是我们用的 orm 框架,而 @nestjs/tyeporm 是 nest 集成 typeorm 用的。

在 AppModule 里引入 TypeORM,指定数据库连接配置:

TypeOrmModule.forRoot({
  type: "mysql",
  host: "localhost",
  port: 3306,
  username: "root",
  password: "guang",
  database: "boss-spider",
  synchronize: true,
  logging: true,
  entities: [],
  poolSize: 10,
  connectorPackage: 'mysql2',
  extra: {
      authPlugin: 'sha256_password',
  }
}),

然后创建个 entity:

src/entities/Job.ts

import { Column, Entity, PrimaryGeneratedColumn } from "typeorm";

@Entity()
export class Job {
    @PrimaryGeneratedColumn()
    id: number;

    @Column({
        length: 30,
        comment: "职位名称",
    })
    name: string;

    @Column({
        length: 20,
        comment: "区域",
    })
    area: string;

    @Column({
        length: 10,
        comment: "薪资范围",
    })
    salary: string;

    @Column({
        length: 600,
        comment: "详情页链接",
    })
    link: string;

    @Column({
        length: 30,
        comment: "公司名",
    })
    company: string;

    @Column({
        type: "text",
        comment: "职位描述",
    })
    desc: string;
}

链接可能很长,所以设置为 600,而职位描述就更长了,直接设置 text 就行,它可以存储大段文本。

在 AppModule 引入:

把服务跑起来:

npm run start:dev

TypeORM 会自动建表:

然后我们加个启动爬虫的接口:

@Get('start-spider')
startSpider() {
    this.appService.startSpider();
    return '爬虫已启动';
}

安装 puppeteer:

npm install --save puppeteer

在 AppService 里实现 startSpider:

import { Injectable } from "@nestjs/common";
import puppeteer from "puppeteer";

@Injectable()
export class AppService {
    getHello(): string {
        return "Hello World!";
    }

    async startSpider() {
        const browser = await puppeteer.launch({
            headless: false,
            defaultViewport: {
                width: 0,
                height: 0,
            },
        });

        const page = await browser.newPage();

        await page.goto(
            "https://www.zhipin.com/web/geek/job?query=前端&city=100010000"
        );

        await page.waitForSelector(".job-list-box");

        const totalPage = await page.$eval(
            ".options-pages a:nth-last-child(2)",
            (e) => {
                return parseInt(e.textContent);
            }
        );

        const allJobs = [];
        for (let i = 1; i <= totalPage; i++) {
            await page.goto(
                "https://www.zhipin.com/web/geek/job?query=前端&city=100010000&page=" +
                    i
            );

            await page.waitForSelector(".job-list-box");

            const jobs = await page.$eval(".job-list-box", (el) => {
                return [...el.querySelectorAll(".job-card-wrapper")].map(
                    (item) => {
                        return {
                            job: {
                                name: item.querySelector(".job-name")
                                    .textContent,
                                area: item.querySelector(".job-area")
                                    .textContent,
                                salary: item.querySelector(".salary")
                                    .textContent,
                            },
                            link: item.querySelector("a").href,
                            company: {
                                name: item.querySelector(".company-name")
                                    .textContent,
                            },
                        };
                    }
                );
            });
            allJobs.push(...jobs);
        }

        // console.log(allJobs);

        for (let i = 0; i < allJobs.length; i++) {
            await page.goto(allJobs[i].link);

            try {
                await page.waitForSelector(".job-sec-text");

                const jd = await page.$eval(".job-sec-text", (el) => {
                    return el.textContent;
                });
                allJobs[i].desc = jd;

                console.log(allJobs[i]);
            } catch (e) {}
        }
    }
}

这里原封不动的把之前的爬虫逻辑复制了过来,只是把 headless 设置为了 true,因为我们不需要界面。

浏览器访问下:

爬虫跑的没啥问题。

不过这个过程中 boss 可能会检测到你访问频率过高,会让你做下是不是真人的验证:

这个就是验证码点点就好了。

然后我们把数据存到数据库里:

用 EntityManager 来 save 就好了:

@Inject(EntityManager)
private entityManager: EntityManager;
const job = new Job();

job.name = allJobs[i].job.name;
job.area = allJobs[i].job.area;
job.salary = allJobs[i].job.salary;
job.link = allJobs[i].link;
job.company = allJobs[i].company.name;
job.desc = allJobs[i].desc;

await this.entityManager.save(Job, job);

再跑下:

去数据库里看下:

这样,你就可以对这些职位描述做一些搜索,分析之类的了。

比如搜索职位描述中包含 react 的岗位:

SELECT * FROM `boss-spider`.job where `desc` like "%React%";

这样,爬虫就做完了。

如果想在前端实时看到爬取到的数据,可以通过 SSE 来实时返回:

这样用:

这里我们就不改了。

案例代码上传了 nest 小册仓库:https://github.com/QuarkGluonPlasma/nestjs-course-code/tree/main/boss-jd-spider

总结

我们通过 puppeteer 实现了对 BOSS 直聘网站的前端职位的爬取,并用 Nest + TypeORM 把数据保存到了数据库里。

这样就可以在本地对这些职位数据做一些处理或分析了。

上次更新: 6/21/25, 9:42 AM
贡献者: YNight
Prev
101.大文件如何实现流式下载?
Next
103.实现扫二维码登录