·12 分钟阅读

8238 条国内 AI 招聘 JD 开源数据集深度拆解:怎么聚类、怎么用、边界在哪

Agent Hunt 是一个开源仓库,从国内主流招聘平台抓了 8238 条 AI 相关 JD,做成 14 个角色聚类 + 12 行业切片 + 5 城市 tier × 角色薪资 + 420 条长尾原职业映射。这篇文章把数据怎么来的、怎么用、哪里有偏差全部讲清楚,给程序员社区 + AI 求职研究者引用。

#数据集#agent-hunt#AI 招聘#方法论#开源

2026 年 4 月底我们 ship 了一个工具叫 AIJobFit(在 llmxfactor.cloud 上),帮非程序员(运营 / HR / 设计 / 教师 / 电气 / 财务 / 销售)做 AI 求职定位诊断。底层数据来自一个独立的开源项目 Agent Hunt,从国内主流招聘平台抓了 8238 条 AI 相关 JD。

这篇文章拆给所有人看:数据怎么来、聚类怎么做、可以怎么用、边界在哪。希望对程序员社区 / AI 求职研究者 / HR 数字化从业者有用。

数据规模 · 截至 2026-04-29

维度数量说明
原始 JD8,238从国内主流招聘平台抓取的「AI 相关」JD(含程序员 + 非程序员岗位)
已聚类5,673通过 SCI(Skill Cluster Identity)评分聚到 14 个角色聚类的 JD
未聚类(other)482聚类置信度过低,归到 other 桶不参与角色推荐
角色聚类14AI 产品经理 / AI/LLM 工程师 / 算法 / AI 转型咨询 / AI 销售 / AI 运营 / 智能制造 / 数据 / 教育 AI / 医疗 AI / 客服 / 风险合规 / 自主体 / 领导岗
行业切片12互联网 / 金融 / 制造 / 医疗 / 教育 / 汽车 / 能源 / 咨询 / 媒体 / 零售 / 电信 / 政府
城市 tier5一线 / 新一线 / 其他国内 / 海外 / 远程
原职业字典420用于「留行 + AI 增强」诊断(电气工程师 / 医生 / 教师 / 销售 / 设计师 等长尾)

相比 ATS 厂商发的「招聘趋势报告」,这份数据有 3 个区别:

14 个角色聚类是怎么做的

我们没有用 LLM 做 zero-shot 分类(理由:LLM 推理成本贵 + 类目漂移 + 难以审计)。用的是更老派但更可解释的方法:

  1. 从职位标题 + JD 正文提取技能信号。预定义 36 个 AI 相关 skill canonical name(llm / prompt_engineering / computer_vision / rag / agent / fine_tuning 等),用同义词词典匹配。
  2. SCI(Skill Cluster Identity)评分。每个 JD 在每个角色聚类下的命中分数 = 必备技能命中数 × 1 + 优选技能命中数 × 0.5。
  3. 归属规则。SCI 最高的聚类胜出;如果 Top 1 SCI < 阈值(防止稀疏命中误判),归入 other
  4. 角色边界由数据决定,不由人工拍脑袋。「自主体 (autonomous)」「智能制造」这些类目是从聚类涌现的,不是先验设计的。
已知聚类弱点
D 主线(AIGC 创意:剪映 / SD / Midjourney / ComfyUI 工具向)目前没有独立角色聚类,挂在 other 桶下。原因是 AIGC 类岗位 JD 的技能词高度分散(设计师写「视觉表现」「创意」这种 fuzzy 词,而不是工具名),SCI 阈值容易过不去。下游消费者(aijobfit 的报告)用了「主线指纹扫描」机制做兜底,但严格意义上数据本身仍欠一个 AIGC 聚类。

核心字段速查

Agent Hunt 暴露的 7 个 JSON endpoint,每个都有 schema 在仓库 README 里。aijobfit 当前用了全部 7 个。下面是最核心的 3 个字段示例:

roles-domestic.json · 14 角色聚类

字段类型举例(AI 产品经理)
role_idstringproduct_manager
role_namestring (zh-CN)AI 产品经理
job_countnumber293
sample_titlesstring[]AI产品策划(LLM记忆与交互方向)/ AI产品经理(AIGC/跨境电商方向)/ AI LLM Product Manager
required_skills{skill_id, count}[][{prompt_engineering, 187}, {data_analysis, 142}, ...]
preferred_skills{skill_id, count}[][{rag, 86}, {agent, 64}, ...]
salary{p25, p50, p75, ...}{p25: 22500, p50: 32500, p75: 50000, sample_size: 247}
top_industries{industry, count}[][{internet, 142}, {manufacturing, 36}, {finance, 32}]
top_companiesstring[]字节 / 阿里 / 腾讯 / 美团 / ...
educationRecord<level, count>{硕士: 87, 本科: 142, 不限: 64}
experience{median_min, ...}{median_min: 3, sample_size: 217}

industry-augmented-salary.json · 12 行业 × AI 增强 JD 薪资

这是 aijobfit 用来反驳「传统行业 AI 待遇低」误解的核心数据。从 by_industry 字段看,金融 AI 增强中位 ¥30k、能源 ¥48.75k、制造 ¥30k,跟互联网中位线持平甚至更高。

行业AI 增强 JD 数P25P50P75
energy(能源)6¥35k¥48.75k¥52.5k
finance(金融)85¥22.5k¥30k¥50k
manufacturing(制造)152¥20k¥30k¥45k
healthcare(医疗)88¥15k¥30k¥45k
telecom(电信)5¥16.5k¥27.5k¥27.5k
(互联网作为对照)见 internet 字段
样本量警告
energy / telecom 的 AI 增强 JD < 10 条,统计噪声大,看趋势别看数字。aijobfit 在这种行业页 SSR 时会标注 sample_size,提醒用户。

roles-augmented-by-profession.json · 420 长尾原职业 × AI 增强 JD

这是「留行 + AI 增强」路线的数据底座。每个原职业(如「电气工程师」「医生」「教师」「文案策划」)有:

长尾稀疏问题
420 条原职业中只有约 30% 的 vacancyCount ≥ 10。aijobfit 用了 4 档「准备度档位」(first-class / mid / starter / no-data)+ exact-match → fuzzy contains → vacancyCount ≥ 5 阈值的多级匹配,缓解 LLM 解析准确率不足的痛点。

怎么用这份数据

1. 自己跑分析

所有 JSON 在 agent-hunt.pages.dev/data 免费下载。建议起手:

2. 直接用 AIJobFit 的 pSEO 页面

如果你不想自己跑,aijobfit 已经把这些数据切成了 51 个 SSR 页面:

3. 三路线诊断

基于这些数据,aijobfit 提供 3 种诊断模式:

边界在哪

诚实讲,这份数据有几个短板(在 agent-hunt 仓库 issue tracker 里也都跟踪着):

  1. 样本偏向头部平台。抓的主要是国内主流招聘平台(Boss / 拉勾 / 猎聘 / 51job),县城招聘 / 朋友圈内推 / 政企内招都没覆盖。
  2. JD 文本质量参差。少数岗位标题是中英混写或错别字,sample_titles 里能看到。我们没做强清洗,原汁原味暴露。
  3. 行业 × 角色二维切片缺失。当前只能看「金融行业全部 AI 增强 JD」或「AI 产品经理全部 JD」,但「金融行业里数据分析师空缺多少」这种二维查询还没 ship(agent-hunt issue #9)。
  4. D 主线 AIGC 没单独聚类。挂在 other 桶,aijobfit 用「主线指纹扫描」做了产品级兜底,但数据本身欠一类。
  5. augmentSkills 命中频次稀疏。产品经理这种类目只有 2 个 augmentSkills(computer_vision + llm 各 count=1),影响 readiness 档位精度(agent-hunt issue #10)。
贡献欢迎
agent-hunt 是 MIT license 开源仓库。如果你能补抽取规则 / 加抓取源 / 做更细粒度的聚类,PR 直接欢迎。aijobfit 是 supply 端 → demand 端的下游消费者,agent-hunt 跑得越好,aijobfit 也越准。

为什么我们要把数据完全开源

如果一个 AI 求职工具不告诉你它的数据从哪来,要么数据在画饼,要么它有付费墙等着收割你。

aijobfit 是永久免费的,不做产品内付费。这意味着我们没有动机把数据藏在付费墙后面。把全套数据 + 所有聚类逻辑 + 评分公式开源到 GitHub,是为了让用户能验证我们的结论,也让有能力的人能在我们的基础上做更深的分析。

如果你是程序员 / 研究者 / 做 HR 数字化的同行, 来 star 一下 agent-hunt,或者直接在 issue 里告诉我们你想看哪个维度的切片。

如果你是非程序员的求职者,直接来跑诊断,10 分钟出 7 节报告,所有数字都能下钻到 agent-hunt 的原始 JSON 验证。

想看自己适合走哪条 AI 求职路线?

10 分钟出 7 节诊断报告:技能匹配率 / Gap / 7-30-90 日补齐路径 / 薪资分布。永久免费。