颜值打分 App 是不是偏向欧美脸?
颜值打分 App 是不是偏向欧美脸?被广泛吐槽确实如此——所以低分往往意味着「不在训练数据里」,而不是不好看。

是的——颜值打分 App 被广泛吐槽偏向欧美脸,因为大多数模型对「好看」的认知,都是从一个浅肤色、欧洲五官被过度代表的互联网图片堆里学来的。所以低分往往只是说你的五官落在训练数据的「理想」之外,而不是说现实里的人觉得你没魅力。那个数字量的是你跟一个失衡均值的相似度,不是你真实的吸引力。
这个区别,比偏见本身更重要。我来一条条讲清楚。
颜值打分 App 到底有没有偏见——简短而诚实的回答
有,跟任何用失衡数据训练出来的模型一样有偏见。用户和研究者都广泛指出过,AI 颜值打分倾向于把浅肤色、欧洲五官的脸排得更高,而对宽鼻、厚唇、深肤色、单眼皮打压。App 不是在嘲笑你,它只是在拿你跟它见得最多的那批脸做模式匹配。
模型只认识喂给它的那个世界。从一个西方主导的互联网上爬几百万张「漂亮脸」图片,模型心中的理想就会漂向那堆里被过度代表的那群人。然后它给每一张新脸打分,看的就是这张脸离那个已经跑偏的中心有多近。这不是 App 抱有的某种观点,这是在一条倾斜的基线上做算术。
所以当一张非欧洲面孔得了低分,最干净的读法不是「这个人不好看」,而是「这张脸离训练数据的均值更远」。这是两句完全不同的话。一句关于现实里的吸引力,另一句只关于一个数据集。
偏见从哪来——这是训练数据,不是对你的判决
偏见住在数据里,不在任何对美的真实测量里。这些模型是从巨量的带标签图片里学的,而那些图片堆严重偏向某些面孔和肤色。模型于是把「我训练集里常见的」当成「理想的」——这是一次统计上的意外,不是一个发现。
用大白话讲一下机制。一个颜值打分器就是一个函数:它把一张照片的像素,转成一个它学过的、跟「看起来好看的图片」挂钩的数字。如果它研究过的「好看」样本里,有 80% 是同一类人,这个函数就会悄悄把那一类人编码成「高分形状」。喂给它一张构造不同的脸,像素落点离学到的峰值更远,分数就掉下来。
| App 暗示的意思 | 实际发生的事 |
|---|---|
| 「你的脸在颜值上得分很低」 | 你的五官落在训练数据被过度代表的均值之外 |
| 「这是一个客观的颜值度量」 | 这是跟一个失衡数据集的相似度,没有任何现实世界的客观标准 |
| 「模型是中立的」 | 模型继承了那批被过度采样的人所带来的偏见 |
| 「分数越高 = 对人越有吸引力」 | 分数越高 = 越接近模型见过的、被标成「漂亮」的那批像素 |
这一切都不需要公司里有谁心怀恶意。因疏忽而生的偏见,产出的是和刻意设计一样的失衡数字。而站在你这一侧屏幕前,效果是一样的:一个脱离语境的小数,可能因为你不匹配一个你从没同意被拿来比对的数据集,而悄悄惩罚你。我们在为什么 AI 测不出吸引力里进一步拆了这个工程上的极限。
一个有偏见的低分,是不是说明现实里的人觉得你没魅力?
不是。一个失衡的模型和一个真人的第一印象,不是同一台仪器,量的也不是同一样东西。App 拿一个静止画面去比一个倾斜的均值。真人是在动态里、在语境里、在大约十分之一秒内读你——而且权重落在模型看不见的东西上。
Willis & Todorov(2006)发现,一个稳定的第一印象在看到一张脸的大约 100 毫秒里就形成了——关键是,它建立在从一个运动着、有表情的人身上读到的温度和支配感线索上,而不是一个几何分数。Langlois 等人(2000)对 919 项研究的元分析确实发现,人们对吸引力的共识比「一切都是主观的」所暗示的要高——但那种共识,是关于在语境里、凭直觉读到的整张脸,不是一个数据集的质心。
光环效应(Dion, Berscheid & Walster, 1972)显示,一张被读作温暖的脸,会被白送上它根本没挣过的能力感和讨喜感。Buss(1989)对约 1 万人、37 种文化的调查发现,女性把可靠和温暖排在原始外貌之上。一个在西方自拍上训练出来的像素模型,这些一个都抓不到。所以一个有偏见的 App 给的低分,往最好里说也只是一句关于「某张照片离一个失衡均值有多远」的陈述——往最坏里说,则毫无意义。
如果一个分数让你很难受,在你相信它之前,先看看一个颜值打分 App 说我丑。那个数字是你的最坏版本:静止、脱离语境、还被拿一把错的尺子来量。
欧美中心偏见,是怎么叠在那台「捧杀或踩杀」机器上的?
偏见并不改变这些分数为什么存在——它只是在第一个缺陷之上再加了一个。核心问题是:这个数字服务的是生意,不是真相——一个捧人的分数让你不停地分享,一个踩人的分数把「解决方案」卖给你。欧美脸的倾斜骑在这之上,决定了哪些用户被捧、哪些被刺。
把这些诱因叠起来看。这类 App 里有不少——也就是 looksmaxxing 那一波——是靠订阅赚钱的,账单往往在你扫完脸之后才来,完整的拆解藏在一道付费墙后面,等你已经情绪上投入了才冒出来。一个让人觉得像「判决」的分数,就是钩子。再加上一个系统性地给某一种长相打高分的训练集,你就得到一台机器:把自信发给一部分用户,把伪科学的绝望发给另一部分,然后向两边都收钱,让他们继续追那个数字。
这一点值得直说。PSL 那套「客观」评分,给一个失衡的数据集套上科学的语言——骨比、眼裂倾斜度、「协调度」——好让一个倾斜的均值感觉像物理定律。它不是。我们在PSL 评分是真科学吗和looksmaxxing 是伪科学吗里把这套框架拆开了。一个带着自信小数点的有偏见的数字,仍然只是一个有偏见的数字。
一句体己话,因为这个领域太需要了:如果你一直在心里悄悄怀疑自己的脸「不是对的那一种」,那份怀疑是被制造出来的——被一个数据集,而不是被你真正会遇到的人。现实里吃得开的脸,远比任何爬来的「理想」要多样得多。问题不在你的五官,在那把尺子。
关键数字
- 现实世界里的第一印象在大约 100 毫秒内形成(Willis & Todorov, 2006)——建立在一张运动着、有表情的脸上,不是模型打分的那张静止脸。
- 一项涵盖 919 项研究的元分析发现,对吸引力的共识是真实的,但要看语境(Langlois et al., 2000)——而这些 App 从来没有真正拿这个目标去校验过。
- Buss(1989)对 37 种文化、约 1 万人的调查发现,女性把可靠和温暖排在原始外貌之上——这些一个像素模型都抓不到。
- 用户和研究者广泛报告过 AI 颜值打分会高估浅肤色、欧洲五官的脸——这是训练数据的倾斜,不是对吸引力的测量。
- 同一张照片重新上传,常常返回不一样的分数——这是一个没有客观标准的模型的标志,有没有偏见都一样。
一个更公平的解读,到底长什么样?
那么,如果不是一个倾斜的数字——又该是什么?我们做了 Real World Appeal 来给那个诚实的版本。它读的是你的感知第一印象吸引力——陌生人在第一秒里实际上是怎么读到你的——落在 70-155 的感知轴上,刻意不做成 0-100 的 PSL 等级,因为正是那套排行榜的框架,让一个失衡的数据集得以冒充真相。想知道我们为什么拒绝单轴模型,见 PAS 与客观美貌之争。
输出的不是一份对你骨相的判决,而是一张地图,告诉你哪个可移动的杠杆——修饰、合身、体脂、体态、表情,以及第一印象窗口本身——真正在塑造你给人的观感。这些杠杆改变的是任何人怎么读你,跟一个西方数据集碰巧过度采样了哪种五官无关。这就是全部的重点:它读的是真人遇到的那个你,不是一个数据集想象出来的你。
写在最后
颜值打分 App 是不是偏向欧美脸?是的——被广泛吐槽、写进了训练数据里,而且无法被完整审计,因为「吸引力」从一开始就没有客观标准可以用来训练。这类 App 给的低分,可能不过是说「你的五官落在这个模型见得最多的那批之外」而已。
而这恰恰是让人松一口气的地方。那个数字从来就没在量你,它量的是你离一个失衡均值有多远,然后向你收钱,让你去填一道只存在于数据集内部的鸿沟。真人不跑那个模型。他们在十分之一秒里读温度、运动、修饰和语境——而那种解读,远比任何静止的小数所透露的,要多样得多,也好改得多。
如果一个有偏见的分数把你击垮了,去做免费测试,看看一个诚实、可控的解读是什么感觉——没有要爬的排名,上传后没有付费墙,也没有那把倾斜的尺子。
引用研究:Willis, J., & Todorov, A. (2006). First impressions: Making up your mind after a 100-ms exposure to a face. Psychological Science, 17(7), 592-598. Langlois, J. H., Kalakanis, L., Rubenstein, A. J., Larson, A., Hallam, M., & Smoot, M. (2000). Maxims or myths of beauty? A meta-analytic and theoretical review. Psychological Bulletin, 126(3), 390-423. Buss, D. M. (1989). Sex differences in human mate preferences. Behavioral and Brain Sciences, 12(1), 1-49. Dion, K., Berscheid, E., & Walster, E. (1972). What is beautiful is good. Journal of Personality and Social Psychology, 24(3), 285-290.
常见问题
为什么颜值打分 App 看起来偏爱白人或欧洲面孔?
因为大多数模型是从网络图片里学来的,而那些图片严重偏向浅肤色、欧洲五官,所以模型心中的「理想脸」自然往那边倾斜。用户和研究者都广泛指出过这一点。低分可能只是说你的五官落在训练数据之外,而不是说现实里的人觉得你不好看。可以看看为什么 AI 测不出吸引力。
在一个有偏见的 App 上得低分,是不是说明我真的不好看?
不是。那个数字反映的是你的照片有多接近模型见得最多的那批样貌,而那批样貌本身就是失衡的。真实的吸引力是在动态中、约 100 毫秒内被读出来的(Willis & Todorov, 2006),权重落在温度、表情、修饰上——这些一个失衡的像素模型一个都抓不到。不如换一个诚实的第一印象解读。
是不是所有颜值打分 App 都有同样的偏见?
方向相近,但程度不一——有的偏狠,有的对谁都往高里夸。共同的毛病是没有客观标准,加上训练数据失衡。这也是为什么两个 App 会给你两个分数;见为什么颜值打分 App 给出不同分数。
App 能不能纠正颜值评分里的种族偏见?
有些声称用了多元化训练数据,但你查不到任何可验证的公开审计,而且「吸引力」本身从一开始就没有客观标准可以用来训练。这才是更深的问题:目标本身就不可测量,有没有偏见都一样。
想知道自己有多好看,有没有更公平的方式?
别再追一个固定排名了。去问陌生人在第一秒里怎么读你,以及哪个可控的东西——修饰、合身、体脂、表情——真正在拨动它。这正是 Real World Appeal 给的解读,落在感知轴上,而不是一个 PSL 等级。
