【高考季】用数据和AI重新定义高考志愿推荐

【高考季】用数据和AI重新定义高考志愿推荐

4.8
0热度

近几年的高考季,城市数据团都会推出一些相关的研究。三年前,我们在《今年报考的热门专业,四年后会变成“天坑”吗?》一文中,计算了不同专业的溢价,以及各个专业在市场上的工资溢价和专业本身考分热门程度之间的关系,发现热门专业在就业市场上确实会带来更高溢价,不过这个溢价率会随时间变化——刚毕业时,热门专业毕业生的工资确实更高;毕业几年后,大家在一定程度会到同一条起跑线附近;而毕业多年后,热门专业毕业生的

近几年的高考季,城市数据团都会推出一些相关的研究。


三年前,我们在《今年报考的热门专业,四年后会变成“天坑”吗?》一文中,计算了不同专业的溢价,以及各个专业在市场上的工资溢价和专业本身考分热门程度之间的关系,发现热门专业在就业市场上确实会带来更高溢价,不过这个溢价率会随时间变化——刚毕业时,热门专业毕业生的工资确实更高;毕业几年后,大家在一定程度会到同一条起跑线附近;而毕业多年后,热门专业毕业生的工资重新回到最高水平。


两年前,大模型问世,我们在《中国1639种职业的GPT替代风险分析》一文中,用大模型计算各个专业未来从事职业会被AI替代的概率,发现工资越高、工资溢价率越大的专业,更容易被AI替代。


一年前,我们在《200万考生被张雪峰改变》一文中,计算张雪峰对于各个专业的推荐是如何影响考生们的实际选择的,并且用真实的招聘数据对就业市场上的各个专业的供给-需求进行了计算,发现专业的真实需求与大众的认知之间存在较长的时间差,许多信息传播中人们认为更热门/冷门的专业,在就业市场上的热门冷门趋势可能早已逆转


我们非常在意的是,这些数据和研究,有没有帮到考生呢?


似乎并没起到太大作用。


一篇文章,只能讲几个道理。一场直播,也只能播满两个小时,留下几条“金句”。而全国千万考生,是断不能通过几条“金句”来指导自己的人生的。


比如,有人推荐法学。为什么推荐法学?因为考公容易。这样简单的一句推荐,却略过了考生真正需要帮助的一系列后续问题:


我应该选择在哪所学校学习法学?

我的分数够其中的哪一所?

这一所学校的法学去年收分多少,排名多少,今年可能怎么变化?

哪所学校法学的实力更强,排名更高,评价更好?

毕业后大概多少人能够考公,多少人又能去就业?

如果考公,省考国考我应该如何选择?

如果就业,能找到什么样的工作,工资多高,竞争会很激烈吗?

……

这一系列问题,不是“因为考公容易,所以推荐法学”这样一条金句可以回答的。


为了让考生能获得更多数据来解答上面这些问题,我们在前两年做了一次尝试,在微信小程序“数据团+”中开发了一款供高考生查询数据的小工具。


【高考季】用数据和AI重新定义高考志愿推荐


这款小程序为每一个省份、每一个学校、每一个专业计算了多项数据,比如最低分数最低排名的年度变化各专业平均工资的变化,甚至还用各个专业的就业情况和招生情况,计算了该专业在每个城市的就业供求关系


但是,这次尝试并不算特别成功,围观者众,使用者少


于是,我们进行了反思,是不是精心计算的各类数据还不够好用


就像是把不懂计算机的消费者一个人丢进了电脑城,消费者受到了来自商家的数据轰炸:高分屏、独显、cpu核数、电池耐用度……数据维度很多,可能还没逛几家店,消费者已然头昏脑涨,脑子里装满了数据,但却已经不知如何对比了。


对于考生来说,需要更具体和直观的参考数据。


以想报考法学的考生为例:同样是法学,五院四系的法学,和其他学校的法学,面对的当然是完全不同的就业环境。即使是同一所院校、同一个专业,在不同时间、空间,对于不同的经验、学历的求职者来说,就业市场环境也千差万别。


于是我们想明白了,给考生提供单一的(工资)平均数没有任何意义。


不只是我们前两年提供的这款小程序,在目前所有的高考志愿推荐系统中,都存同样的问题


因此,所有高考志愿推荐填报工具,都只能当做一个官方志愿填报系统的“模拟器”。其中最有参考价值的,大概就是按照去年录取分数线计算今年的可能录取线,然后给出“冲”“稳”“保”之类的选项。而这些数据,考生们在本省的那本《xx省招生与考试》往往已经可以看到。


至于每一个专业到底去向如何,就业怎样?在纷杂的数据中又应当如何取舍,给予什么数据更大的权重来决定你的报考志愿?


可能就得花费不少钱购买一对一咨询服务,由后台的“专家”们,为你详细分析,并给出答案,这也是近年来高考志愿填报服务的主要商业模式。即使“专家”们的水平可能良莠不齐,考生和家长们仍然趋之若鹜,与其在繁杂数据的汪洋大海中迷失方向,还不如朝着任何一个有亮光的地方奋力游去——不管这个亮光是来自灯塔还是鮟鱇,至少它指明了一条方向,比没有方向强啊!


为了做一款更有用的工具,今年我们和知乎AI实验室合作,整了个大活。


▍如何让数据更有针对性地服务考生?


使用就业数据计算各专业的就业情况,这样的尝试我们已经做过不少,最近一次是在这里,计算了对每一个专业有需求的岗位在2023年和2024年的变化。


但每一个专业的平均数据,难以让考生有数据的“体感”。


比如计算机专业,大家都说工资高,有的学生一毕业就两万三万,到了大厂还能有四万五万。


但对于单个考生来说,这么高的平均工资,真的能轮到他吗?


考生甲录取在A校985计算机,考生乙录取在B校二本计算机,面对的就业市场是一样的吗?


归根到底,让考生根据专业的各种平均数来选择专业,就像根据人均GDP来选择去哪个城市生活一样,不能说完全没道理,但也比较有限,对个人的指导作用更加要打一个折扣。


所以我们需要想办法算出每一个城市,每一个学校,每一个专业的学生的工资。有没有这样的数据呢?


有的。


CCSS数据——中国大学生学习与发展追踪研究调查,包括了37172名大学生的来源省份、高考科类、高考成绩、大学院校与专业,以及其就业第一份工作的工资情况。


使用这项数据,我们研究了这样一个问题:


对于同样一个专业来说,不同高考成绩的学生和他们毕业后的工资有什么区别?


我们按照生源地和科类进行分组,对每一个考生计算高考成绩的百分位和工资百分位。


比如你所在省这个科类的有10万名考生,你处在23456名,那么你的成绩百分位就是23.456%。
这10万名考生分赴全国各地,最后毕业后有5万名选择工作并拿到工资,你在这些人当中处在12345名,那么你的工资百分位就是12345÷50000=24.69%。
对于所有毕业后拿到工资的考生考生,我们抽取其中所有成绩百分位大于等于23%且小于24%的考生,计算这些考生毕业后的工资百分位的平均值,就算出了23%百分位考生对应的工资平均百分位。


通过计算每一个成绩百分位的学生就业后第一份工作的平均工资百分位,并将结果画成散点图,会如下图所示:


【高考季】用数据和AI重新定义高考志愿推荐


上图可以看到,高考成绩百分位在23%的考生,其毕业后所处工资在这些考生中位育40.24%的水平。


成绩百分位和毕业后的工资百分位,是高度线性相关的,成绩每高一个百分位,平均工资肯定也会高一些——虽然可能不会高出1个百分位。


仔细观察上图,还能发现一个有趣的现象:去向985的同学,差不多占所有高考考生的2%,但是这批同学却不会人人都拿到前2%的平均工资。如果计算他们的平均值,会比63%左右的同学高,在前37%左右的水平。


相对的,最低百分位成绩的学生,也并不是人人都只能拿到所有应届生中最低的工资,这些考生的平均工资处在前63%左右水平,比37%的同学高。


高考成绩越高,平均来说的工资一定越高,但并不是成绩排名前进1%工资排名也会前进1%,而是大概只有0.26%左右的转化率。


这个转化率在不同的专业也有很大差异,下面三张图列出了文史哲经管理工的成绩百分位与工资百分位散点图。


【高考季】用数据和AI重新定义高考志愿推荐


【高考季】用数据和AI重新定义高考志愿推荐


【高考季】用数据和AI重新定义高考志愿推荐


可以看到,三类学科的成绩百分位-工资百分位都是相关的,但是理工类专业的工资-成绩相关性最高,文史哲专业的工资-成绩相关性最高低,经管类居中,呈现在图表中,就是成绩百分位到工资百分位的斜率更陡。


对于理工科学生来说,高考成绩每增加一分,毕业后的工资的增加幅度要比经管学生大一些,要比文史哲学生要大得多。


但是对于经管来说,在最高的几个百分位中,工资又会有非常大的提升,体现了极强的“头部效应”。


通过这个计算,我们就得到了一个完整的映射关系表—— 在某省、某科类,高考处在x%百分位的学生,最后能拿到的工资平均水平大概是当地应届生某专业需求工资的y%百分位。


使用每一个学校,每一个专业的招生学生,我们就能算出每一所学校,每一个专业在所在城市的百分位。


比如对于北京来说,清华北大的经济学大类学生,在北京的经济学大类本科毕业生中处在1%的水平。
对外经济贸易大学的经济学大类学生,处在31%左右的水平。
北京林业大学经济学专业毕业生,就处在52%左右的水平。
北京物资学院,就在93%左右的水平了。
这样,我们就算出了每一个大学,每一个专业的毕业生在当地的成绩百分位,通过CCSS数据算出的各专业映射表,就能得到他们在毕业后会处在工资的哪一个百分位。


但是,我们又该如何计算每一个百分位的工资水平呢?


我用从2025年前5个月的数千万条劳动力需求数据(感谢香港浸会大学杨阳教授在数据方面的支持),用其中位置在北京,要求本科生,不需要经验年限,且在需求中明确提到要求经济学专业(专业代码0201)毕业生的数据,画出如下所示的工资分布图——


【高考季】用数据和AI重新定义高考志愿推荐


上图中的100%百分位大约是7万元,这是整个北京劳动力市场对于本科生学历的经济学专业毕业生给到的最高工资,但最高的工资并不一定被分数最高的学生拿到。正如我们前面的计算,最高百分位的经济学毕业生,大概拿到63%百分位的工资,在这张表中,大概是12974元。


【高考季】用数据和AI重新定义高考志愿推荐


上图给出了计算机专业(专业代码0809)的工资百分位,可以看到,这个工资分布曲线就要比经济学更为陡峭。再使用针对计算机算出的高考成绩-工资映射表,去对应这条曲线,便能算出最高百分位的计算机系毕业生,大概拿到66%百分位的工资,在这张表中,约为是20186元。


我们通过两次映射,先从成绩百分位映射到工资百分位,再从工资百分位映射到工资,就得到了在北京就学的经济学前1%学生和计算机专业前1%学生的平均工资——基本上都在清华北大——分别是12974和20186元,用类似的方法计算普通高校北京物资学院,可以得到该校经济学毕业生和计算机专业毕业生的平均工资约为8487元和11533元。


这样的数值,我们对所有城市、所有学校、所有专业都做了一次计算——全国所有城市所有学校所有专业,大约22万条,包括本科和专科类,全部都有自己对应的平均工资。


显然,比起每一个专业只有一个数字的“平均工资”来说,这样的数值将有针对性得多。


除了每个学校每一个专业的平均工资之外,使用各个城市各个百分位的劳动力需求数据,我们还计算了一些其他有趣的数字——

1,和你的高考分数相同但专业不同的学生,他们在市场上的平均工资是多少?如果你不知道要选择什么专业,这个指标可以帮助你。

2,选择了某个专业的不同学校的毕业生,在市场上的工资是多少?如果你对某个专业感兴趣,但是在某几所学校之间举棋不定,那这条数据可能可以帮助你。

3,你如果录取到这个学校-专业,那么毕业后面对的劳动力市场需求,有多少要求研究生学位?多少需要1年以上经验?每增加一年经验,工资可能上涨多少?这可能决定了你到底是要考研,拿到更高的学位,还是尽快就业,获得更多经验。

4,你想要去的这个城市-专业,在劳动力市场上的需求是上升了,还是下降了?相对于这个专业的录取学生来说,求人倍率——人才需求除以劳动力供给的比例——是上升了还是下降了?相对于本城市其他专业,或者本专业其他城市来说,你面临的将是竞争更激烈的就业市场,还是相对宽松的就业环境?如果你想要知道这个专业的就业冷热程度,那么这条数据必须参考。

5,我还获取了2024、2025年全国公务员国考和各省省考的所有职位列表,并计算了每一个职位的专业需求,并将每一个职位的数量划分到不同专业中,得到各个省各个专业的毕业生若是想要“上岸”,其国考和省考需求是更宽松还是更紧张了。如果你想要“上岸”,但是不知道哪些地方哪些专业有更高的需求,那么这条数据,就是你必看的独家数据了。


【高考季】用数据和AI重新定义高考志愿推荐


此外,我们还获取了一系列其他数据来帮助考生进行参考——

来自“阳光高考”的真实毕业生投票数据,给出了每一个学校每一个专业的满意度;

来自2025年世界各大排名,例如国内的软科、AWRU(2024)、国外的QS、USNEWS;

来自每个专业的教育部学科评估等第;

……

不管是想要查询就业情况,还是查询学校、学科实力,在数据层面,其他高考志愿推荐工具有的,我们都有;其他系统没有的,我们照样有


▍如何让数据查询更加便捷?


数据有了,但考生该如何从那么多的数据进行分析,选择最合适自己的学校和专业呢?


首先想到的是,可以做一个显卡或者cpu对比的图,各类性能一目了然,让考生们可以像挑选cpu或者显卡一样选志愿:


【高考季】用数据和AI重新定义高考志愿推荐


但很快我们就放弃了这种想法。高考志愿选择,要从能去的几十个志愿中选择,历史分数更高排名更靠前的专业也并没有一个像显卡或者cpu那样公认的“性能”指标,这样的数据罗列和雷达图,只会让整个选择变得更困难。


直到今年五一节,看到Qwen3的面世,以及随后到来的Deepseek-R1-0528,我突然想到——为何不利用AI呢


的确,用AI来推荐志愿,在大模型出现之后就已经不鲜见,但一直以来的用法都是直接向大模型提问——


我这个分数能报什么学校?哪个专业好?哪个学校适合我?


这样的提问,效果不会太好。它的回答质量完全依赖大模型自身拥有的世界知识。当问题特别具体,学校、专业情况也不是特别热门时,大模型的预训练数据集无法给出准确回答。


因此,让大模型直接在几个专业中给出推荐,得到的必定是一个大部分是“常识”,少部分是“幻觉”,还有一部分来自较为陈旧的知识文本的推荐结果。


但这次不一样,我们有完整、科学、时效性最强的数据。把待选专业的数据发给大模型,作为一个知识库供其参考,再让大模型不再用“常识”进行分析,这样的分析结果,就靠谱得多了。


对于大模型的提示词是这样的:


你是一名高考志愿填报咨询师,你能够充分考虑考生的情况和其选择志愿的情况,如果考生没有专门提出需求,你应该从高到低优先考虑以下内容:


1,考生本身提出的需求,以及考生本身信息,包括来源省份、分数、排名。


2,每个专业的2025年预测分数、排位以及历史变动,判断考生今年的考分和排位有多大可能被该专业录取


3,每个专业所在院校2025年的预测分数、排位,以及该院校过去几年分数与排位的变化、波动情况,评价该专业所在院校报考热度趋势和调剂可能性


4,专业的就业状况,包括工资相对水平、工资变化趋势、专业需求趋势、求人倍率、对不同经验或学历的依赖程度、经验的工资增值幅度、就业集中度以及考公需求率等,评价该专业就业去向是否更好


5,院校和专业的学生真实评价,例如生活满意度、学习满意度、就业满意度等,评价该专业的真实学习和求职体验


6,院校和专业的各类榜单和教育部评估结果,评价该专业的学科实力


7,其他你认为比较重要的内容,例如地理位置、城市经济、外部环境等。


对于不同院校-专业-就业的情况分析,你将完全依赖下文给你提供的信息,而不是你自己的经验与知识 请根据考生的情况、需求和各项指标,在以下学校-专业介绍中仔细甄选,给出推荐。 从推荐程度高到底返回至少1个,至多10个专业。 学校-专业介绍如下:{给出待分析专业的所有数据}


此外,我们还需要在后台计算每一个专业的2025年预测录取排位和分数,让大模型的分析能够充分参考预测结果。


对于每一个专业,我们的计算逻辑是这样的:

1,用WLR(加权线性回归)和EWMA(指数加权移动平均),测算每个专业历史录取排位和分数的长期变化趋势。比如金融、新闻逐渐走低、中文、考古逐渐走高。

2,用ARIMA(2, 0, 0),捕捉每个专业的“大小年”,即今年高明年低的波动趋势。事实证明,全国四十多万个专业,有三十万个专业的phi(2)是显著小于0的,高考录取的分数和排位,确实是一个带趋势以及大小年效应的数字。

3,用2018到2023年的数据运行WLR、EWMA和ARIMA(2, 0, 0),用预测结果与2024年的真实排位和分数对比,算出这三个模型的预测结果如何线性组合才能最好的贴近真实录取结果。

4,用每一个模型对2025年的预测和上一步算出的最佳线性组合,算出2025年的录取排位和分数预测。


这个计算的结果最为准确,代价是它的的复杂度比较高。但在整个高考志愿推荐系统中,用各专业的历史排名和分数预测2025年的录取情况,只是消耗时间算力最小的一个环节而已。


更艰巨的任务,还是在于如何让AI根据提供的数据正确给出判断。我们的分析要求十分复杂——要从最多20个待选专业的海量数据以及复杂的考生需求中挑选专业。


经过上百轮测试,Deepseek-r1-0528完全胜任这项工作。高达128k的上下文窗口,以及更细致的推理过程,使得Deepseek-r1-0528几乎不会出现任何幻觉,能够在多达20个专业中,按照考生的要求,选出最合适、“性价比”最高的专业


其推荐效果和真人相比如何呢?今年的高考刚刚结束,让专家们来做做看高考数学,再让Deepseek-r1-0528做做高考数学,相信每个人都能得到答案。


▍所以今年我们做了个什么样的工具?


有了这么好的数据,又有了更好的AI工具,我们今年还找了更好的合作伙伴:知乎AI实验室,一起打造了一款小工具:高考数据通。通过知乎APP搜索“高考数据通”就能找到它。(直接在知乎APP中搜索高考数据、高考录取数据、高考报考工具、高考小程序等关键词也可以找到它,暂时没有网页版)


【高考季】用数据和AI重新定义高考志愿推荐


进入小工具以后,填写生源地、科目和(预估)成绩,就可以开始数据查询了。(排名后台会按照往年情况自动预测)


【高考季】用数据和AI重新定义高考志愿推荐


返回的结果页面列表是按照往年排位给出的,最中间的部分表示你填入的排位,向上滑表示“冲”,列出历年排位更高的专业,录取概率依次降低,向下滑表示“稳”,列出历年排位更低的专业,录取概率依次提高。


【高考季】用数据和AI重新定义高考志愿推荐


点开每一个专业卡片,可以看到详细的学校信息,以及该专业近年的入学和就业情况:


【高考季】用数据和AI重新定义高考志愿推荐


【高考季】用数据和AI重新定义高考志愿推荐


除了基本的信息查询之外,点击列表右下的“AI”按钮,可以进入AI查询功能,在列表里点选感兴趣的专业,并给出想咨询的问题,再点一下右下角的绿色勾号,背后的AI(Deepseek-R1-0528)就会根据这些专业的实际数据以及考生的需求,综合各种情况给出推荐排序啦。


【高考季】用数据和AI重新定义高考志愿推荐


【高考季】用数据和AI重新定义高考志愿推荐


AI会在给出的多个专业中,按照推荐顺序给出排序,并陈述推荐理由和数据依据。


很多人肯定会关心:这么好的产品,要收多少钱啊?


今年和知乎合作之初,知乎就问了我们这个问题。我们的答案是——


不要钱。


今年的数据来自于过去很长一段时间的研究积累,构思产品和在纸上画原型图就花了一个星期。整个产品的雏形是我一个人做的,虽然我一行代码都不会写,但是在codex和cursor的帮助下,只花一天,就完成了整个程序上万行代码的编写。当然,程序优化还有很长的路要走,欢迎大家随时评论报告程序出现的问题!


更关键的是,在做这个高考志愿推荐小程序的过程中,我获得了无与伦比的快乐。


首先是数据平权的快乐,让所有人都能免费且平等地看到他们应该能看到的数据,而不是从某些不靠谱的地方花钱购买,让人有一种成为开仓放粮的侠客的快感


为了保证免费,之前在“数据团+”运行的高考小程序,今年暂时不更新了。运营小程序,以及每次Deepseek-R1-0528给出专业推荐,都要花钱。今年的高考数据小程序,我们决定独家在知乎上发布。同时感谢知乎愿意承担这部分成本,为考生提供一种免费的公共服务。


其次是创造的快乐。以往在设计小工具时,由于我不会写代码,所有的需求都要求助于专业程序员。但是思路变化总是比程序员的手快,到最后,更多的想法和程序员更多的加班之间,总得有一个妥协的结果……


但在AI时代下,想到什么需求,我会马上要求codex修改,就像这样,在手机上打开codex提出需求,看一集漫画,喝杯茶,嘿,codex已经修改好了。不需要有任何负担,修改出来的结果也几乎从未出错。


【高考季】用数据和AI重新定义高考志愿推荐


此外更重要的是,当脑子里不需要考虑“这个功能这么做才能筛选高支付力用户才能挣到钱”这种让人时刻神经紧绷的问题时,做出的东西才能更接近设计的初衷。


真正能够按照自己的想法,在没有种种约束条件下创造出自己想象中最完美的东西,世界上没有比这更快乐的事情了。


让这些年来的高考研究成果从一篇篇千转万赞文章,最终成为这样一项真正能让人使用,能够真正帮助考生消除信息差的产品。这可能也正是今年上海高考作文“专”、“转”、“传”的某种体现吧。从专业文章,到被转载的文章,到真正能给予人们帮助,可以传世的文章,是要迈出这一步的。


▍致刚考完高考的你


最后,对刚走出考场不久的考生们,我们还有一些话想说:


高考,有人有多么幸运,就有人有多么失意。


但正如我们看到的那样,即使是前百分之一的学生,其平均收入百分位也只在前37%;而即使是最后1%的学生,其平均收入百分位也只是排位在63%。


如果对于CCSS数据中三万名学生,直接回归其个人层面的工资百分位和高考成绩百分位,那么其拟合优度只有——


5%


在个人层面,只有5%的工资差异是可以由高考成绩解释的,另外95%,来自成绩以外的那些东西。


所以你的高考成绩,和你的未来,确实是高度相关的,但与此同时,高考并不代表一切。


无论你拿到了什么分数,要做的,都是让自己变得更强大。

充分利用工具,而不是让自己变成好用的工具。

尽情创作作品,而不是成为他人完美的作品。


生逢这样一个可以自由完成自己想法的时代,真的是,太棒了!


文章来自于“城市数据团”,作者“chenqin”。

首页 发现
看过 我的