2026 年 4 月底我们 ship 了一个工具叫 AIJobFit(在 llmxfactor.cloud 上),帮非程序员(运营 / HR / 设计 / 教师 / 电气 / 财务 / 销售)做 AI 求职定位诊断。底层数据来自一个独立的开源项目 Agent Hunt,从国内主流招聘平台抓了 8238 条 AI 相关 JD。
这篇文章拆给所有人看:数据怎么来、聚类怎么做、可以怎么用、边界在哪。希望对程序员社区 / AI 求职研究者 / HR 数字化从业者有用。
数据规模 · 截至 2026-04-29
| 维度 | 数量 | 说明 |
|---|---|---|
| 原始 JD | 8,238 | 从国内主流招聘平台抓取的「AI 相关」JD(含程序员 + 非程序员岗位) |
| 已聚类 | 5,673 | 通过 SCI(Skill Cluster Identity)评分聚到 14 个角色聚类的 JD |
| 未聚类(other) | 482 | 聚类置信度过低,归到 other 桶不参与角色推荐 |
| 角色聚类 | 14 | AI 产品经理 / AI/LLM 工程师 / 算法 / AI 转型咨询 / AI 销售 / AI 运营 / 智能制造 / 数据 / 教育 AI / 医疗 AI / 客服 / 风险合规 / 自主体 / 领导岗 |
| 行业切片 | 12 | 互联网 / 金融 / 制造 / 医疗 / 教育 / 汽车 / 能源 / 咨询 / 媒体 / 零售 / 电信 / 政府 |
| 城市 tier | 5 | 一线 / 新一线 / 其他国内 / 海外 / 远程 |
| 原职业字典 | 420 | 用于「留行 + AI 增强」诊断(电气工程师 / 医生 / 教师 / 销售 / 设计师 等长尾) |
相比 ATS 厂商发的「招聘趋势报告」,这份数据有 3 个区别:
- 真实 JD,不是抽样调查或人工标签。每条记录都能追溯到具体岗位描述。
- 聚类逻辑公开、可复现。 agent-hunt 仓库里能看到所有抽取规则 / SCI 评分代码。
- 每周更新。不是一年发一次的 PDF 报告。
14 个角色聚类是怎么做的
我们没有用 LLM 做 zero-shot 分类(理由:LLM 推理成本贵 + 类目漂移 + 难以审计)。用的是更老派但更可解释的方法:
- 从职位标题 + JD 正文提取技能信号。预定义 36 个 AI 相关 skill canonical name(
llm/prompt_engineering/computer_vision/rag/agent/fine_tuning等),用同义词词典匹配。 - SCI(Skill Cluster Identity)评分。每个 JD 在每个角色聚类下的命中分数 = 必备技能命中数 × 1 + 优选技能命中数 × 0.5。
- 归属规则。SCI 最高的聚类胜出;如果 Top 1 SCI < 阈值(防止稀疏命中误判),归入
other。 - 角色边界由数据决定,不由人工拍脑袋。「自主体 (autonomous)」「智能制造」这些类目是从聚类涌现的,不是先验设计的。
other 桶下。原因是 AIGC 类岗位 JD 的技能词高度分散(设计师写「视觉表现」「创意」这种 fuzzy 词,而不是工具名),SCI 阈值容易过不去。下游消费者(aijobfit 的报告)用了「主线指纹扫描」机制做兜底,但严格意义上数据本身仍欠一个 AIGC 聚类。核心字段速查
Agent Hunt 暴露的 7 个 JSON endpoint,每个都有 schema 在仓库 README 里。aijobfit 当前用了全部 7 个。下面是最核心的 3 个字段示例:
roles-domestic.json · 14 角色聚类
| 字段 | 类型 | 举例(AI 产品经理) |
|---|---|---|
| role_id | string | product_manager |
| role_name | string (zh-CN) | AI 产品经理 |
| job_count | number | 293 |
| sample_titles | string[] | AI产品策划(LLM记忆与交互方向)/ AI产品经理(AIGC/跨境电商方向)/ AI LLM Product Manager |
| required_skills | {skill_id, count}[] | [{prompt_engineering, 187}, {data_analysis, 142}, ...] |
| preferred_skills | {skill_id, count}[] | [{rag, 86}, {agent, 64}, ...] |
| salary | {p25, p50, p75, ...} | {p25: 22500, p50: 32500, p75: 50000, sample_size: 247} |
| top_industries | {industry, count}[] | [{internet, 142}, {manufacturing, 36}, {finance, 32}] |
| top_companies | string[] | 字节 / 阿里 / 腾讯 / 美团 / ... |
| education | Record<level, count> | {硕士: 87, 本科: 142, 不限: 64} |
| experience | {median_min, ...} | {median_min: 3, sample_size: 217} |
industry-augmented-salary.json · 12 行业 × AI 增强 JD 薪资
这是 aijobfit 用来反驳「传统行业 AI 待遇低」误解的核心数据。从 by_industry 字段看,金融 AI 增强中位 ¥30k、能源 ¥48.75k、制造 ¥30k,跟互联网中位线持平甚至更高。
| 行业 | AI 增强 JD 数 | P25 | P50 | P75 |
|---|---|---|---|---|
| energy(能源) | 6 | ¥35k | ¥48.75k | ¥52.5k |
| finance(金融) | 85 | ¥22.5k | ¥30k | ¥50k |
| manufacturing(制造) | 152 | ¥20k | ¥30k | ¥45k |
| healthcare(医疗) | 88 | ¥15k | ¥30k | ¥45k |
| telecom(电信) | 5 | ¥16.5k | ¥27.5k | ¥27.5k |
| (互联网作为对照) | — | — | 见 internet 字段 | — |
roles-augmented-by-profession.json · 420 长尾原职业 × AI 增强 JD
这是「留行 + AI 增强」路线的数据底座。每个原职业(如「电气工程师」「医生」「教师」「文案策划」)有:
vacancyCount— 该原职业 + AI 增强 JD 的总数salaryMedian— 中位薪资augmentSkills— 该原职业要叠加哪些 AI 技能(按命中频次)topIndustries— 主要分布行业sampleTitles— 真实职位标题样本
怎么用这份数据
1. 自己跑分析
所有 JSON 在 agent-hunt.pages.dev/data 免费下载。建议起手:
roles-domestic.json+skills.json看 14 角色 × 36 技能矩阵industry-augmented-salary.json拿来跟你自己行业的预期对比narrative-stats.json拿到全局 totals(也能看「传统行业 vs 互联网」的 delta_pct)
2. 直接用 AIJobFit 的 pSEO 页面
如果你不想自己跑,aijobfit 已经把这些数据切成了 51 个 SSR 页面:
- 14 个角色页 → AI 产品经理 / AI/LLM 工程师 / 算法工程师 / ...
- 12 个行业页 → 制造 / 金融 / 医疗 / ...
- 25 个城市 × 角色页 → 一线 AI PM / 新一线 AI PM / ...
3. 三路线诊断
基于这些数据,aijobfit 提供 3 种诊断模式:
- 系统推荐 Top 3 — 填技能 + 背景,算法在 14 角色聚类里挑 Top 3 + 4 主线分布
- 转行 Gap 诊断 — 锁定行业 + 目标岗位,仅算锁定角色的匹配率 + Gap
- 留行 + AI 增强 — 填原职业(free-text → 模糊匹配 420 entry),看「原职业 + AI 增强」JD 画像
边界在哪
诚实讲,这份数据有几个短板(在 agent-hunt 仓库 issue tracker 里也都跟踪着):
- 样本偏向头部平台。抓的主要是国内主流招聘平台(Boss / 拉勾 / 猎聘 / 51job),县城招聘 / 朋友圈内推 / 政企内招都没覆盖。
- JD 文本质量参差。少数岗位标题是中英混写或错别字,sample_titles 里能看到。我们没做强清洗,原汁原味暴露。
- 行业 × 角色二维切片缺失。当前只能看「金融行业全部 AI 增强 JD」或「AI 产品经理全部 JD」,但「金融行业里数据分析师空缺多少」这种二维查询还没 ship(agent-hunt issue #9)。
- D 主线 AIGC 没单独聚类。挂在 other 桶,aijobfit 用「主线指纹扫描」做了产品级兜底,但数据本身欠一类。
- augmentSkills 命中频次稀疏。产品经理这种类目只有 2 个 augmentSkills(computer_vision + llm 各 count=1),影响 readiness 档位精度(agent-hunt issue #10)。
为什么我们要把数据完全开源
如果一个 AI 求职工具不告诉你它的数据从哪来,要么数据在画饼,要么它有付费墙等着收割你。
aijobfit 是永久免费的,不做产品内付费。这意味着我们没有动机把数据藏在付费墙后面。把全套数据 + 所有聚类逻辑 + 评分公式开源到 GitHub,是为了让用户能验证我们的结论,也让有能力的人能在我们的基础上做更深的分析。
如果你是程序员 / 研究者 / 做 HR 数字化的同行, 来 star 一下 agent-hunt,或者直接在 issue 里告诉我们你想看哪个维度的切片。
如果你是非程序员的求职者,直接来跑诊断,10 分钟出 7 节报告,所有数字都能下钻到 agent-hunt 的原始 JSON 验证。