AI 能测出你有多帅吗?它看不见的东西
AI 能测吸引力吗?它只能算照片里的几何,算不出真正的「被感知吸引力」——那是动态的、看场合的,从一个活人身上读出来,而非一帧定格。

从狭义上说,AI 确实能测吸引力——它能给照片里的几何、对称、皮肤打分,也能算出你的像素和训练集有多接近。但它测不出你真正想知道的那个东西:被感知的吸引力。因为那是从一个动态、有表情、处在具体场合里的人身上读出来的,不是一帧冻住的画面。那个数字对照片本身没说错,它只是在回答另一个问题——不是你问的那个。
这道缝就是全部的故事。我带你看清它到底藏在哪。
AI 能测吸引力吗——诚实的回答
部分能。对那些在单张图片里确实可测的东西,AI 是真的擅长:面部对称、五官之间的比例、皮肤干净度,甚至你的脸和某个数据集的平均长得有多像。这些都是真实的计算。问题在于,它们没有一个等于「你对一个真人有多大吸引力」。
把它想成精确和有效的区别。一个模型可以很精确——可重复、能算到「内眦角倾斜度」的小数点后——却依然无效,就像一台永远多读 12 磅的秤,精确,而且永远是错的。颜值打分 App 就活在这道缝里。机器在转。输出很自信。可它声称要测的那个东西,从一开始就没接到任何真实的参照上。
所以当某个 App 甩给你一个 74,先问它到底算了什么。它算的是相似度——你照片的像素离它学来的「好看」图片有多近。那是个真实的数字。它只是不构成对你的判决。
AI 真正能从一张脸上测出什么?
在拆它之前,先对技术公道一点。那里面确实有真实的信号,假装没有,本身也是一种逃避。AI 能稳定地从照片里读出几样东西——只不过它们是照片的事实,不是吸引力的事实。
- 对称——五官的左右平衡。可测,可重复,真实。
- 比例和尺寸关系——眼距、中面高、下颌宽。模型能从特征点上算出来的几何。
- 皮肤干净度和均匀度——好光线下的质地与色调。
- 和学来的「平均脸」有多像——相对它训练过的那套图,你的五官有多典型或多独特。
- 照片质量——光线、清晰度、角度。更清楚、打光更好的一张,分数确实更高。
注意每一项的共同点:它们全都活在一帧静态画面里。这就是天花板。模型能相当准确地描述它面前的像素。麻烦从它假装这些像素加起来就等于你的吸引力那一刻开始。平均脸有一点点真实效应(Little),对称也被轻微偏好——但实验室里、静态脸上的「轻微」,离一个 App 卖给你的那种判决,差得很远。
为什么 AI 测不出被感知的吸引力?
因为被感知的吸引力不是你脸上的一个属性。它是一件发生在你和观察者之间的事,在动态里,在场合里。一个只看静态图的模型,对决定它的四件事是结构性失明的,而且再多的算力也补不上一个缺失的输入。
它是动态的,不是冻住的。 Willis & Todorov(2006)发现,一个稳定的第一印象在约 100 毫秒内形成——但那个读取,是从一个动起来、有表情的人身上建立的:微表情、你眼神怎么搭上去、你的脸用半秒钟暖成一个笑容。一张定格自拍把这些全删了。我们在 为什么自拍是你最差的版本 里讲得更深。
它发生在观察者那一侧。 吸引力是一个发生在别人脑子里的判断。光环效应(Dion, Berscheid & Walster, 1972)显示,一张被读成温暖的脸,会被白送上它根本没挣来的能力感和讨喜——那是观察者在投射,不是几何在发射。模型没有观察者。它在黑暗里独自测一张照片。
它看场合。 同一张脸,在酒吧、在面试、在交友资料上读起来都不一样,看的人不同也不一样。Buss(1989)跨 37 种文化、约 1 万人的调查发现,女性把可靠和温暖排在纯外貌之上——这是模型看不见的场合,因为场合不在那个文件里。
它取决于行为。 Ambady & Rosenthal(1992)证明,行为的「薄切片」——几秒钟内一个人怎么动、怎么反应——能惊人准确地预测真实的人际结果。体态、对视、你怎么撑起一个房间:没有一样存在于一张 JPEG 里。一个只看静态图的模型,恰恰对干了大部分活的那条通道是瞎的。
如果分数会变,它真能在测你吗?
这里有机械层面的证据,也是最干净的破绽。把同一张自拍传两次,这些 App 经常返回两个不同的数字。用户一直在反映:同一个文件、传两三次、几乎每次一个分数。改一下光或角度,摆动就更大。
很多人由此得出结论:App 只是需要更稳定,好像一个每次都返回 74 的版本就终于可信了。它不会。但这种不稳定本身就是破绽。一台每次测同一个东西都给不同读数的仪器,是坏的——一支三十秒里闪三个温度的温度计该被扔掉,而不是拿来取平均。
原因是结构性的。模型对你的脸没有一个稳定 3D 物体的表征。它只有一个函数,把一张图片的像素映射成一个数字,而光线、角度、裁切、镜头距离、还有它自己内部的随机性,全都在挪动那些像素。这也是为什么两个不同的 App 给你两个不同的分——各自学到了一套不同的、被扭曲的平均,彼此之间没有共同的真值可以达成一致。
| App 暗示的 | 它实际算出来的 |
|---|---|
| 「你的吸引力是 74」 | 你照片的像素离一个学来的平均有这么远 |
| 「这是一个客观的颜值分」 | 和一个被扭曲数据集的相似度,没有任何现实校验 |
| 「分越高 = 对人越有吸引力」 | 分越高 = 离被标成「好看」的图片更近 |
| 「这测的是你」 | 这测的是一帧画面,外加它的光线和裁切 |
AI 有真值可以拿来训练吗?
这正是杀死「AI 早晚能做到」这个念想的部分。每一个能用的 AI 测量都有一个真值——一个真实的答案,让模型拿来训练和检验。垃圾邮件过滤器有被标好的垃圾邮件。医学模型有活检结果。颜值打分器什么都没有,因为被感知的吸引力没有一个客观的、不依赖观察者的数值可以拿来校验。
那这些模型实际上在训练什么?人对照片的打分——而这些打分本身就看场合、带偏见,还是从定格画面里收来的。模型学的不是「吸引力」。它学的是去模仿一堆关于照片的、被扭曲的意见,然后给这份模仿套上一个自信的小数。这就是为什么 偏欧洲中心的倾斜这么常见:模型继承了谁被过度采样,就把谁当成理想。
PSL 那套「客观」评分把这件事弄得更糟——它用伪科学包装猜测:骨骼比例、内眦倾斜、「协调度」,让一个倾斜的平均显得像物理。它不是。我们在 PSL 评分是真科学吗 和 面部对称等于好看吗 里把这套框架拆开讲。一个用同样不靠谱标签训练出来的更强模型,只是更快地产出一个更自信的错误答案。
AI 测不出来,那这个分为什么还在卖?
因为这个数字干的是商业的活,不是测量的活。一个让你感觉良好的分,是你会截图、会分享、会付费去继续追的。一个扎人的分——后面跟着「+12 潜力,解锁看怎么做到」——卖给你的是升级。
很多这类 App 的钱,是在你已经扫完脸之后靠订阅赚的,完整解析锁在一道付费墙后面,等你情绪上已经投入了才出现。把这些动机叠起来,你得到的是同一个陷阱的两种口味:一类把所有人都捧高,好把你勾住;一类发放冷酷的 PSL 数字,好卖给你各种手术。两类都让你盯着一个毫无意义的小数,没学到任何你能动手去做的东西。我们在 AI 颜值打分 vs 现实生活 里比较了那个诚实的替代方案。
一句温和的话,因为这个领域需要它:如果一个低分让你悄悄确信自己的脸有点问题,那个确信是被一个模型制造出来的——而这个模型看不见你身上大部分让你「立得住」的东西。你真正会遇到的人,读的是温暖、动作和打理——恰恰是分数瞎掉的那些通道。如果一个分把你击垮了,在你相信它之前,先读 一个颜值打分 App 说我丑。
关键数字
- 现实里的第一印象在约 100 毫秒内形成(Willis & Todorov, 2006)——它建立在一张动起来、有表情的脸上,恰恰是静态图模型看不见的那个东西。
- 一项囊括 919 项研究的元分析发现,吸引力上的共识真实存在,但看场合(Langlois et al., 2000)——读的是场合里的整张脸,从来不是这些 App 被校验过的目标。
- Buss(1989)对 37 种文化、约 1 万人的调查发现,女性把可靠和温暖排在纯外貌之上——这些没有一样存在于一张 JPEG 里。
- 仅 几秒钟长的行为薄切片,就能预测真实的人际结果(Ambady & Rosenthal, 1992)——而静态照片把行为整个删掉了。
- 同一张照片重传一次,常常返回一个不同的分数——这是一个没有真值的模型的招牌特征。
一个诚实的读法,到底长什么样?
那么,如果 AI 测不出吸引力——任何分数到底还有什么意义?我们做 Real World Appeal 就是为了干那个诚实的版本。它读的是你的被感知第一印象吸引力——一个陌生人在第一秒实际上怎么看你——落在 70–155 这条被感知的轴上,刻意不做成 0–100 的 PSL 分级,因为正是那种排行榜框架,才让一个像素模型得以冒充真相。我们为什么拒绝单轴模型,见 PAS 与客观美的区别。
输出不是对你骨头的判决。它是一张地图,告诉你哪个能动的杠杆——打理、衣服合不合身、体脂、体态、表情——正在真正塑造你怎么「落地」,以及每个大概值多少。这恰恰是几何分埋掉的部分,也是唯一你能动手去改的部分。
写在最后
AI 能测吸引力吗?它能测照片的几何——对称、比例、皮肤、和训练集的相似度——而且是真精确。但它测不出被感知的吸引力,因为那是动态的、发生在观察者那侧的、看场合的、取决于行为的,而这些没有一样活在一帧冻住的画面里。瓶颈不是模型的强弱。是根本没有一个客观的目标可以让模型去对准。
而这恰恰是让人松一口气的地方。那个数字从来没在读你。它读的是一张最差版本的定格,对着一个被扭曲的平均,然后收你的钱,去追一道大半只存在于数据集里的差距。真人跑的是另一个模型——更快,也宽容得多——而推动它的大部分东西,都在你自己手里。
如果一个分把你打蒙了,做一次免费测试,去感受一个诚实、可控的读法是什么样:没有要爬的排名,上传后没有付费墙,没有假装出来的精确。
参考研究:Willis, J., & Todorov, A. (2006). First impressions: Making up your mind after a 100-ms exposure to a face. Psychological Science, 17(7), 592-598. Langlois, J. H., Kalakanis, L., Rubenstein, A. J., Larson, A., Hallam, M., & Smoot, M. (2000). Maxims or myths of beauty? A meta-analytic and theoretical review. Psychological Bulletin, 126(3), 390-423. Buss, D. M. (1989). Sex differences in human mate preferences. Behavioral and Brain Sciences, 12(1), 1-49. Dion, K., Berscheid, E., & Walster, E. (1972). What is beautiful is good. Journal of Personality and Social Psychology, 24(3), 285-290. Ambady, N., & Rosenthal, R. (1992). Thin slices of expressive behavior as predictors of interpersonal consequences. Psychological Bulletin, 111(2), 256-274.
常见问题
AI 能准确测出我有多帅吗?
AI 能测出一张照片里可测的东西——对称、比例、皮肤干净度、你的像素和训练集有多接近。但它测不出「被感知吸引力」,因为那是从一个动态、有表情、在具体场合里的人身上读出来的,只要约 100 毫秒(Willis & Todorov, 2006)。这两个根本不是同一个目标。见 PAS 与客观美的区别。
为什么 AI 颜值打分 App 给出的分数差那么多?
因为它们根本没有一个客观的东西去对照——每个模型都从不同的图片集里,各自学到一套被扭曲的「好看」标准,还各带各的随机性。同一张照片重传一次,分数常常就变了。我们在 颜值打分 App 为什么分数不一样 里拆开讲。
如果 AI 测不出吸引力,那这个分数到底在读什么?
它读的是你照片的像素和模型见过、被标成「好看」的图案之间的距离——再加上你的光线、角度和裁切。那是关于一帧画面的信息,不是对你这个人的判决。一张定格自拍是你最差版本的样子,真人看到的是动起来的你。
AI 越做越强,以后能测出真正的吸引力吗?
不能,而且瓶颈不在算力,在目标本身。被感知的吸引力发生在观察者那一侧,看场合,由静态图里压根不存在的线索拼起来:声音、动作、你怎么对视、整个空间怎么读你。模型再强,也没有真实的东西可以拿来校准。
想知道自己有多帅,有没有更诚实的办法?
别再要一个固定的排名了。该问的是:一个陌生人在第一秒怎么读你,以及哪个你能改的东西——打理、衣服合不合身、体脂、表情——正在影响它。这正是 Real World Appeal 给的那种读法,落在「被感知」这条轴上,而不是一个 PSL 分级。
