为什么颜值打分 App 看起来偏爱白人或欧洲面孔？

因为大多数模型是从网络图片里学来的，而那些图片严重偏向浅肤色、欧洲五官，所以模型心中的「理想脸」自然往那边倾斜。用户和研究者都广泛指出过这一点。低分可能只是说你的五官落在训练数据之外，而不是说现实里的人觉得你不好看。可以看看为什么 AI 测不出吸引力。

在一个有偏见的 App 上得低分，是不是说明我真的不好看？

不是。那个数字反映的是你的照片有多接近模型见得最多的那批样貌，而那批样貌本身就是失衡的。真实的吸引力是在动态中、约 100 毫秒内被读出来的（Willis & Todorov, 2006），权重落在温度、表情、修饰上——这些一个失衡的像素模型一个都抓不到。不如换一个诚实的第一印象解读。

是不是所有颜值打分 App 都有同样的偏见？

方向相近，但程度不一——有的偏狠，有的对谁都往高里夸。共同的毛病是没有客观标准，加上训练数据失衡。这也是为什么两个 App 会给你两个分数；见为什么颜值打分 App 给出不同分数。

App 能不能纠正颜值评分里的种族偏见？

有些声称用了多元化训练数据，但你查不到任何可验证的公开审计，而且「吸引力」本身从一开始就没有客观标准可以用来训练。这才是更深的问题：目标本身就不可测量，有没有偏见都一样。

想知道自己有多好看，有没有更公平的方式？

别再追一个固定排名了。去问陌生人在第一秒里怎么读你，以及哪个可控的东西——修饰、合身、体脂、表情——真正在拨动它。这正是 Real World Appeal 给的解读，落在感知轴上，而不是一个 PSL 等级。

颜值打分 App 是不是偏向欧美脸？

是的——颜值打分 App 被广泛吐槽偏向欧美脸，因为大多数模型对「好看」的认知，都是从一个浅肤色、欧洲五官被过度代表的互联网图片堆里学来的。所以低分往往只是说你的五官落在训练数据的「理想」之外，而不是说现实里的人觉得你没魅力。那个数字量的是你跟一个失衡均值的相似度，不是你真实的吸引力。

这个区别，比偏见本身更重要。我来一条条讲清楚。

颜值打分 App 到底有没有偏见——简短而诚实的回答

有，跟任何用失衡数据训练出来的模型一样有偏见。用户和研究者都广泛指出过，AI 颜值打分倾向于把浅肤色、欧洲五官的脸排得更高，而对宽鼻、厚唇、深肤色、单眼皮打压。App 不是在嘲笑你，它只是在拿你跟它见得最多的那批脸做模式匹配。

模型只认识喂给它的那个世界。从一个西方主导的互联网上爬几百万张「漂亮脸」图片，模型心中的理想就会漂向那堆里被过度代表的那群人。然后它给每一张新脸打分，看的就是这张脸离那个已经跑偏的中心有多近。这不是 App 抱有的某种观点，这是在一条倾斜的基线上做算术。

所以当一张非欧洲面孔得了低分，最干净的读法不是「这个人不好看」，而是「这张脸离训练数据的均值更远」。这是两句完全不同的话。一句关于现实里的吸引力，另一句只关于一个数据集。

偏见从哪来——这是训练数据，不是对你的判决

偏见住在数据里，不在任何对美的真实测量里。这些模型是从巨量的带标签图片里学的，而那些图片堆严重偏向某些面孔和肤色。模型于是把「我训练集里常见的」当成「理想的」——这是一次统计上的意外，不是一个发现。

用大白话讲一下机制。一个颜值打分器就是一个函数：它把一张照片的像素，转成一个它学过的、跟「看起来好看的图片」挂钩的数字。如果它研究过的「好看」样本里，有 80% 是同一类人，这个函数就会悄悄把那一类人编码成「高分形状」。喂给它一张构造不同的脸，像素落点离学到的峰值更远，分数就掉下来。

App 暗示的意思	实际发生的事
「你的脸在颜值上得分很低」	你的五官落在训练数据被过度代表的均值之外
「这是一个客观的颜值度量」	这是跟一个失衡数据集的相似度，没有任何现实世界的客观标准
「模型是中立的」	模型继承了那批被过度采样的人所带来的偏见
「分数越高 = 对人越有吸引力」	分数越高 = 越接近模型见过的、被标成「漂亮」的那批像素

这一切都不需要公司里有谁心怀恶意。因疏忽而生的偏见，产出的是和刻意设计一样的失衡数字。而站在你这一侧屏幕前，效果是一样的：一个脱离语境的小数，可能因为你不匹配一个你从没同意被拿来比对的数据集，而悄悄惩罚你。我们在为什么 AI 测不出吸引力里进一步拆了这个工程上的极限。

一个有偏见的低分，是不是说明现实里的人觉得你没魅力？

不是。一个失衡的模型和一个真人的第一印象，不是同一台仪器，量的也不是同一样东西。App 拿一个静止画面去比一个倾斜的均值。真人是在动态里、在语境里、在大约十分之一秒内读你——而且权重落在模型看不见的东西上。

Willis & Todorov（2006）发现，一个稳定的第一印象在看到一张脸的大约 100 毫秒里就形成了——关键是，它建立在从一个运动着、有表情的人身上读到的温度和支配感线索上，而不是一个几何分数。Langlois 等人（2000）对 919 项研究的元分析确实发现，人们对吸引力的共识比「一切都是主观的」所暗示的要高——但那种共识，是关于在语境里、凭直觉读到的整张脸，不是一个数据集的质心。

光环效应（Dion, Berscheid & Walster, 1972）显示，一张被读作温暖的脸，会被白送上它根本没挣过的能力感和讨喜感。Buss（1989）对约 1 万人、37 种文化的调查发现，女性把可靠和温暖排在原始外貌之上。一个在西方自拍上训练出来的像素模型，这些一个都抓不到。所以一个有偏见的 App 给的低分，往最好里说也只是一句关于「某张照片离一个失衡均值有多远」的陈述——往最坏里说，则毫无意义。

如果一个分数让你很难受，在你相信它之前，先看看一个颜值打分 App 说我丑。那个数字是你的最坏版本：静止、脱离语境、还被拿一把错的尺子来量。

欧美中心偏见，是怎么叠在那台「捧杀或踩杀」机器上的？

偏见并不改变这些分数为什么存在——它只是在第一个缺陷之上再加了一个。核心问题是：这个数字服务的是生意，不是真相——一个捧人的分数让你不停地分享，一个踩人的分数把「解决方案」卖给你。欧美脸的倾斜骑在这之上，决定了哪些用户被捧、哪些被刺。

把这些诱因叠起来看。这类 App 里有不少——也就是 looksmaxxing 那一波——是靠订阅赚钱的，账单往往在你扫完脸之后才来，完整的拆解藏在一道付费墙后面，等你已经情绪上投入了才冒出来。一个让人觉得像「判决」的分数，就是钩子。再加上一个系统性地给某一种长相打高分的训练集，你就得到一台机器：把自信发给一部分用户，把伪科学的绝望发给另一部分，然后向两边都收钱，让他们继续追那个数字。

这一点值得直说。PSL 那套「客观」评分，给一个失衡的数据集套上科学的语言——骨比、眼裂倾斜度、「协调度」——好让一个倾斜的均值感觉像物理定律。它不是。我们在PSL 评分是真科学吗和looksmaxxing 是伪科学吗里把这套框架拆开了。一个带着自信小数点的有偏见的数字，仍然只是一个有偏见的数字。

一句体己话，因为这个领域太需要了：如果你一直在心里悄悄怀疑自己的脸「不是对的那一种」，那份怀疑是被制造出来的——被一个数据集，而不是被你真正会遇到的人。现实里吃得开的脸，远比任何爬来的「理想」要多样得多。问题不在你的五官，在那把尺子。

关键数字

现实世界里的第一印象在大约 100 毫秒内形成（Willis & Todorov, 2006）——建立在一张运动着、有表情的脸上，不是模型打分的那张静止脸。
一项涵盖 919 项研究的元分析发现，对吸引力的共识是真实的，但要看语境（Langlois et al., 2000）——而这些 App 从来没有真正拿这个目标去校验过。
Buss（1989）对 37 种文化、约 1 万人的调查发现，女性把可靠和温暖排在原始外貌之上——这些一个像素模型都抓不到。
用户和研究者广泛报告过 AI 颜值打分会高估浅肤色、欧洲五官的脸——这是训练数据的倾斜，不是对吸引力的测量。
同一张照片重新上传，常常返回不一样的分数——这是一个没有客观标准的模型的标志，有没有偏见都一样。

一个更公平的解读，到底长什么样？

那么，如果不是一个倾斜的数字——又该是什么？我们做了 Real World Appeal 来给那个诚实的版本。它读的是你的感知第一印象吸引力——陌生人在第一秒里实际上是怎么读到你的——落在 70-155 的感知轴上，刻意不做成 0-100 的 PSL 等级，因为正是那套排行榜的框架，让一个失衡的数据集得以冒充真相。想知道我们为什么拒绝单轴模型，见 PAS 与客观美貌之争。

输出的不是一份对你骨相的判决，而是一张地图，告诉你哪个可移动的杠杆——修饰、合身、体脂、体态、表情，以及第一印象窗口本身——真正在塑造你给人的观感。这些杠杆改变的是任何人怎么读你，跟一个西方数据集碰巧过度采样了哪种五官无关。这就是全部的重点：它读的是真人遇到的那个你，不是一个数据集想象出来的你。

写在最后

颜值打分 App 是不是偏向欧美脸？是的——被广泛吐槽、写进了训练数据里，而且无法被完整审计，因为「吸引力」从一开始就没有客观标准可以用来训练。这类 App 给的低分，可能不过是说「你的五官落在这个模型见得最多的那批之外」而已。

而这恰恰是让人松一口气的地方。那个数字从来就没在量你，它量的是你离一个失衡均值有多远，然后向你收钱，让你去填一道只存在于数据集内部的鸿沟。真人不跑那个模型。他们在十分之一秒里读温度、运动、修饰和语境——而那种解读，远比任何静止的小数所透露的，要多样得多，也好改得多。

如果一个有偏见的分数把你击垮了，去做免费测试，看看一个诚实、可控的解读是什么感觉——没有要爬的排名，上传后没有付费墙，也没有那把倾斜的尺子。

引用研究：Willis, J., & Todorov, A. (2006). First impressions: Making up your mind after a 100-ms exposure to a face. Psychological Science, 17(7), 592-598. Langlois, J. H., Kalakanis, L., Rubenstein, A. J., Larson, A., Hallam, M., & Smoot, M. (2000). Maxims or myths of beauty? A meta-analytic and theoretical review. Psychological Bulletin, 126(3), 390-423. Buss, D. M. (1989). Sex differences in human mate preferences. Behavioral and Brain Sciences, 12(1), 1-49. Dion, K., Berscheid, E., & Walster, E. (1972). What is beautiful is good. Journal of Personality and Social Psychology, 24(3), 285-290.