AI 能准确测出我有多帅吗？

AI 能测出一张照片里可测的东西——对称、比例、皮肤干净度、你的像素和训练集有多接近。但它测不出「被感知吸引力」，因为那是从一个动态、有表情、在具体场合里的人身上读出来的，只要约 100 毫秒（Willis & Todorov, 2006）。这两个根本不是同一个目标。见 PAS 与客观美的区别。

为什么 AI 颜值打分 App 给出的分数差那么多？

因为它们根本没有一个客观的东西去对照——每个模型都从不同的图片集里，各自学到一套被扭曲的「好看」标准，还各带各的随机性。同一张照片重传一次，分数常常就变了。我们在颜值打分 App 为什么分数不一样里拆开讲。

如果 AI 测不出吸引力，那这个分数到底在读什么？

它读的是你照片的像素和模型见过、被标成「好看」的图案之间的距离——再加上你的光线、角度和裁切。那是关于一帧画面的信息，不是对你这个人的判决。一张定格自拍是你最差版本的样子，真人看到的是动起来的你。

AI 越做越强，以后能测出真正的吸引力吗？

不能，而且瓶颈不在算力，在目标本身。被感知的吸引力发生在观察者那一侧，看场合，由静态图里压根不存在的线索拼起来：声音、动作、你怎么对视、整个空间怎么读你。模型再强，也没有真实的东西可以拿来校准。

想知道自己有多帅，有没有更诚实的办法？

别再要一个固定的排名了。该问的是：一个陌生人在第一秒怎么读你，以及哪个你能改的东西——打理、衣服合不合身、体脂、表情——正在影响它。这正是 Real World Appeal 给的那种读法，落在「被感知」这条轴上，而不是一个 PSL 分级。

AI 能测出你有多帅吗？它看不见的东西

从狭义上说，AI 确实能测吸引力——它能给照片里的几何、对称、皮肤打分，也能算出你的像素和训练集有多接近。但它测不出你真正想知道的那个东西：被感知的吸引力。因为那是从一个动态、有表情、处在具体场合里的人身上读出来的，不是一帧冻住的画面。那个数字对照片本身没说错，它只是在回答另一个问题——不是你问的那个。

这道缝就是全部的故事。我带你看清它到底藏在哪。

AI 能测吸引力吗——诚实的回答

部分能。对那些在单张图片里确实可测的东西，AI 是真的擅长：面部对称、五官之间的比例、皮肤干净度，甚至你的脸和某个数据集的平均长得有多像。这些都是真实的计算。问题在于，它们没有一个等于「你对一个真人有多大吸引力」。

把它想成精确和有效的区别。一个模型可以很精确——可重复、能算到「内眦角倾斜度」的小数点后——却依然无效，就像一台永远多读 12 磅的秤，精确，而且永远是错的。颜值打分 App 就活在这道缝里。机器在转。输出很自信。可它声称要测的那个东西，从一开始就没接到任何真实的参照上。

所以当某个 App 甩给你一个 74，先问它到底算了什么。它算的是相似度——你照片的像素离它学来的「好看」图片有多近。那是个真实的数字。它只是不构成对你的判决。

AI 真正能从一张脸上测出什么？

在拆它之前，先对技术公道一点。那里面确实有真实的信号，假装没有，本身也是一种逃避。AI 能稳定地从照片里读出几样东西——只不过它们是照片的事实，不是吸引力的事实。

对称——五官的左右平衡。可测，可重复，真实。
比例和尺寸关系——眼距、中面高、下颌宽。模型能从特征点上算出来的几何。
皮肤干净度和均匀度——好光线下的质地与色调。
和学来的「平均脸」有多像——相对它训练过的那套图，你的五官有多典型或多独特。
照片质量——光线、清晰度、角度。更清楚、打光更好的一张，分数确实更高。

注意每一项的共同点：它们全都活在一帧静态画面里。这就是天花板。模型能相当准确地描述它面前的像素。麻烦从它假装这些像素加起来就等于你的吸引力那一刻开始。平均脸有一点点真实效应（Little），对称也被轻微偏好——但实验室里、静态脸上的「轻微」，离一个 App 卖给你的那种判决，差得很远。

为什么 AI 测不出被感知的吸引力？

因为被感知的吸引力不是你脸上的一个属性。它是一件发生在你和观察者之间的事，在动态里，在场合里。一个只看静态图的模型，对决定它的四件事是结构性失明的，而且再多的算力也补不上一个缺失的输入。

它是动态的，不是冻住的。 Willis & Todorov（2006）发现，一个稳定的第一印象在约 100 毫秒内形成——但那个读取，是从一个动起来、有表情的人身上建立的：微表情、你眼神怎么搭上去、你的脸用半秒钟暖成一个笑容。一张定格自拍把这些全删了。我们在为什么自拍是你最差的版本里讲得更深。

它发生在观察者那一侧。 吸引力是一个发生在别人脑子里的判断。光环效应（Dion, Berscheid & Walster, 1972）显示，一张被读成温暖的脸，会被白送上它根本没挣来的能力感和讨喜——那是观察者在投射，不是几何在发射。模型没有观察者。它在黑暗里独自测一张照片。

它看场合。 同一张脸，在酒吧、在面试、在交友资料上读起来都不一样，看的人不同也不一样。Buss（1989）跨 37 种文化、约 1 万人的调查发现，女性把可靠和温暖排在纯外貌之上——这是模型看不见的场合，因为场合不在那个文件里。

它取决于行为。 Ambady & Rosenthal（1992）证明，行为的「薄切片」——几秒钟内一个人怎么动、怎么反应——能惊人准确地预测真实的人际结果。体态、对视、你怎么撑起一个房间：没有一样存在于一张 JPEG 里。一个只看静态图的模型，恰恰对干了大部分活的那条通道是瞎的。

如果分数会变，它真能在测你吗？

这里有机械层面的证据，也是最干净的破绽。把同一张自拍传两次，这些 App 经常返回两个不同的数字。用户一直在反映：同一个文件、传两三次、几乎每次一个分数。改一下光或角度，摆动就更大。

很多人由此得出结论：App 只是需要更稳定，好像一个每次都返回 74 的版本就终于可信了。它不会。但这种不稳定本身就是破绽。一台每次测同一个东西都给不同读数的仪器，是坏的——一支三十秒里闪三个温度的温度计该被扔掉，而不是拿来取平均。

原因是结构性的。模型对你的脸没有一个稳定 3D 物体的表征。它只有一个函数，把一张图片的像素映射成一个数字，而光线、角度、裁切、镜头距离、还有它自己内部的随机性，全都在挪动那些像素。这也是为什么两个不同的 App 给你两个不同的分——各自学到了一套不同的、被扭曲的平均，彼此之间没有共同的真值可以达成一致。

App 暗示的	它实际算出来的
「你的吸引力是 74」	你照片的像素离一个学来的平均有这么远
「这是一个客观的颜值分」	和一个被扭曲数据集的相似度，没有任何现实校验
「分越高 = 对人越有吸引力」	分越高 = 离被标成「好看」的图片更近
「这测的是你」	这测的是一帧画面，外加它的光线和裁切

AI 有真值可以拿来训练吗？

这正是杀死「AI 早晚能做到」这个念想的部分。每一个能用的 AI 测量都有一个真值——一个真实的答案，让模型拿来训练和检验。垃圾邮件过滤器有被标好的垃圾邮件。医学模型有活检结果。颜值打分器什么都没有，因为被感知的吸引力没有一个客观的、不依赖观察者的数值可以拿来校验。

那这些模型实际上在训练什么？人对照片的打分——而这些打分本身就看场合、带偏见，还是从定格画面里收来的。模型学的不是「吸引力」。它学的是去模仿一堆关于照片的、被扭曲的意见，然后给这份模仿套上一个自信的小数。这就是为什么偏欧洲中心的倾斜这么常见：模型继承了谁被过度采样，就把谁当成理想。

PSL 那套「客观」评分把这件事弄得更糟——它用伪科学包装猜测：骨骼比例、内眦倾斜、「协调度」，让一个倾斜的平均显得像物理。它不是。我们在 PSL 评分是真科学吗和面部对称等于好看吗里把这套框架拆开讲。一个用同样不靠谱标签训练出来的更强模型，只是更快地产出一个更自信的错误答案。

AI 测不出来，那这个分为什么还在卖？

因为这个数字干的是商业的活，不是测量的活。一个让你感觉良好的分，是你会截图、会分享、会付费去继续追的。一个扎人的分——后面跟着「+12 潜力，解锁看怎么做到」——卖给你的是升级。

很多这类 App 的钱，是在你已经扫完脸之后靠订阅赚的，完整解析锁在一道付费墙后面，等你情绪上已经投入了才出现。把这些动机叠起来，你得到的是同一个陷阱的两种口味：一类把所有人都捧高，好把你勾住；一类发放冷酷的 PSL 数字，好卖给你各种手术。两类都让你盯着一个毫无意义的小数，没学到任何你能动手去做的东西。我们在 AI 颜值打分 vs 现实生活里比较了那个诚实的替代方案。

一句温和的话，因为这个领域需要它：如果一个低分让你悄悄确信自己的脸有点问题，那个确信是被一个模型制造出来的——而这个模型看不见你身上大部分让你「立得住」的东西。你真正会遇到的人，读的是温暖、动作和打理——恰恰是分数瞎掉的那些通道。如果一个分把你击垮了，在你相信它之前，先读一个颜值打分 App 说我丑。

关键数字

现实里的第一印象在约 100 毫秒内形成（Willis & Todorov, 2006）——它建立在一张动起来、有表情的脸上，恰恰是静态图模型看不见的那个东西。
一项囊括 919 项研究的元分析发现，吸引力上的共识真实存在，但看场合（Langlois et al., 2000）——读的是场合里的整张脸，从来不是这些 App 被校验过的目标。
Buss（1989）对 37 种文化、约 1 万人的调查发现，女性把可靠和温暖排在纯外貌之上——这些没有一样存在于一张 JPEG 里。
仅 几秒钟长的行为薄切片，就能预测真实的人际结果（Ambady & Rosenthal, 1992）——而静态照片把行为整个删掉了。
同一张照片重传一次，常常返回一个不同的分数——这是一个没有真值的模型的招牌特征。

一个诚实的读法，到底长什么样？

那么，如果 AI 测不出吸引力——任何分数到底还有什么意义？我们做 Real World Appeal 就是为了干那个诚实的版本。它读的是你的被感知第一印象吸引力——一个陌生人在第一秒实际上怎么看你——落在 70–155 这条被感知的轴上，刻意不做成 0–100 的 PSL 分级，因为正是那种排行榜框架，才让一个像素模型得以冒充真相。我们为什么拒绝单轴模型，见 PAS 与客观美的区别。

输出不是对你骨头的判决。它是一张地图，告诉你哪个能动的杠杆——打理、衣服合不合身、体脂、体态、表情——正在真正塑造你怎么「落地」，以及每个大概值多少。这恰恰是几何分埋掉的部分，也是唯一你能动手去改的部分。

写在最后

AI 能测吸引力吗？它能测照片的几何——对称、比例、皮肤、和训练集的相似度——而且是真精确。但它测不出被感知的吸引力，因为那是动态的、发生在观察者那侧的、看场合的、取决于行为的，而这些没有一样活在一帧冻住的画面里。瓶颈不是模型的强弱。是根本没有一个客观的目标可以让模型去对准。

而这恰恰是让人松一口气的地方。那个数字从来没在读你。它读的是一张最差版本的定格，对着一个被扭曲的平均，然后收你的钱，去追一道大半只存在于数据集里的差距。真人跑的是另一个模型——更快，也宽容得多——而推动它的大部分东西，都在你自己手里。

如果一个分把你打蒙了，做一次免费测试，去感受一个诚实、可控的读法是什么样：没有要爬的排名，上传后没有付费墙，没有假装出来的精确。

参考研究：Willis, J., & Todorov, A. (2006). First impressions: Making up your mind after a 100-ms exposure to a face. Psychological Science, 17(7), 592-598. Langlois, J. H., Kalakanis, L., Rubenstein, A. J., Larson, A., Hallam, M., & Smoot, M. (2000). Maxims or myths of beauty? A meta-analytic and theoretical review. Psychological Bulletin, 126(3), 390-423. Buss, D. M. (1989). Sex differences in human mate preferences. Behavioral and Brain Sciences, 12(1), 1-49. Dion, K., Berscheid, E., & Walster, E. (1972). What is beautiful is good. Journal of Personality and Social Psychology, 24(3), 285-290. Ambady, N., & Rosenthal, R. (1992). Thin slices of expressive behavior as predictors of interpersonal consequences. Psychological Bulletin, 111(2), 256-274.