同一张照片为什么会打出不同的分？

因为模型评的是这个图片文件，不是你的脸。哪怕上传一模一样的图，内部采样的随机性和细微的二次压缩也会让结果晃动；只要光线或角度稍微变一点，波动就更大。这个数字跟着照片走，跟一个稳定特征无关——所以分数变来变去，其实是 App 在不经意间告诉你：它根本不知道。参见人脸评分 App 到底靠不靠谱。

哪个人脸评分 App 最准？

按你想要的那种「准」来说，一个都不准——也就是没有一个跟真人对你的真实反应对齐过。它们对同一张照片都互相打架，这就证明没有哪个手里握着真分数。真正有用的解读不是一个更稳的 0-100 分，而是一份诚实的第一印象解读，告诉你那几件你真能改的事。

为什么不同 App 给我的分数差得离谱？

每个 App 是在不同的一堆照片、不同的标注上训练出来的，所以各自学到了一套「什么样的像素算好看」的私人观点。它们之间没有一把共用的尺子在量。这种不一致不是个等它修好的 bug——它恰恰是最清楚的信号：这个数字从一开始就没和现实挂上钩。

换一张更好的照片分数高了，是不是说明我变好看了？

不是。是照片变好了——光更柔、角度更友好、表情更暖。这是关于你照片的真实有用信息，但不是关于你骨相的。一张定格自拍接近你的最差版本；真人是在动态中、大约 100 毫秒内读你的（Willis & Todorov, 2006）。

我是不是该一直重传，直到刷出一个满意的数字？

你可以，大多数人也确实这么干——但你收集的是噪声，不是数据。如果低分刺痛了你，那需要的是一个温柔的重新框定，而不是再摇一次骰子。读读人脸评分 App 说我丑，然后去做一次诚实的解读吧。

同一张照片，为什么每次打分都不一样？

你上传一张自拍，得了 67 分；把同一个文件再传一次，回来变成 72。或者把这张照片塞进三个不同的 App，分别拿到 6.5、8，还有一句「高阶 normie」。那到底哪个是真的？一个都不是。 同一张照片打分会变，恰恰证明这个工具量的是图片——光线、角度、压缩，再加一把内部随机性的骰子——而不是你这张脸的某个稳定事实。

这就是全部答案。这页剩下的内容，是讲它为什么会这样、为什么「更稳定」也救不了它，以及一份诚实的解读应该长什么样。

同一张照片为什么会得到不同的分数？

这个 App 手里没有一个关于你这张脸的模型。它手里的，是一个把某张图片里的像素变成一个数字的模型。同一个文件再传一次，小东西照样会变——内部采样的随机性、一次重新压缩、一次新的裁切——于是输出就晃。这个数字跟着照片走，不跟着你。

下面是大多数人没意识到的地方。一张脸是一个稳定的 3D 物体。一张照片是这个物体在某一组特定条件下的平面投影，而这些条件里几乎没有一项是「你的脸」：

光线重新画出你下颌、颧骨、眼下的每一道阴影。被评分的那些「结构」，很多其实只是阴影。
角度改变你下颌的视觉形态、鼻子的投影、额头到下巴的比例。同一个头骨，打到传感器上的几何却不同。
距离和镜头在 30 厘米处畸变很凶，在 80 厘米处则温和得多。App 把这种畸变读成了你的脸。
模型自带的随机性意味着，哪怕是一模一样的文件，也会重新摇出一个略有差别的输出。

所以当同一张照片先 67 后 72，App 并不是在对你犹豫不决。它是对同一张图给了两个读数。（一句诚实的补充：不是所有变化都是噪声。一张确实打光更好的照片，读出来真的会更高——这是关于你照片的真实信息，详见人脸评分 App 到底靠不靠谱，但它不是关于你骨相的。）

为什么不同 App 给的分数差得离谱？

因为每个 App 学到的是一套不同的观点。每个人脸评分模型，都是在不同的一堆照片、不同的标注上训练出来的，所以各自吸收了自己关于「什么样的像素算好看」的想法。它们之间没有一把共用的尺子在读。不一致不是故障——它是天生就刻在里面的。

想想看，要让它们达成一致，得满足什么条件。它们得用同一批训练人脸、同一套人工评分、同一个对「被评对象」的定义。这些它们一样都没有。一个 App 偏向讨好你，好让你一直打开它；另一个偏向严苛，好显得「科学」、好向你推销该修哪儿。于是同一张自拍，在这个里能拿个自信的 8，在下一个里就摔成一个残忍的 4。

这个数字在对什么起反应	重传后稳定吗？	跟你的脸有关系吗？
光线 / 阴影	否	几乎没有——它量的就是阴影
拍摄角度 / 距离	否	会让它畸变
JPEG 压缩 / 重新裁切	否	否
模型内部的随机性	否	否
你用了哪个 App	否	否
你真实的骨相	是	是——但它是权重最小的那个输入

这张表里唯一真正稳定的那一项，恰恰是这些 App 看得最轻的那个输入。

更稳定的 App，不就是更准的 App 吗？

不是——而这正是陷阱所在。稳定和准确是两种不同的性质。一个 App 完全可以对同一张照片每次都吐出一模一样的数字，却依然彻彻底底是错的，因为「自己重复自己」和「说对了」根本不是一回事。

一台总是多读 12 斤的浴室秤，稳定得很。它也每一次都是错的。稳定意味着一件仪器会重复自己。有效意味着它量的确实是它声称要量的东西。一个人脸分数可以稳如磐石，却跟真人对你的反应毫无关联。

所以去问那个没人问 App 的问题：这个数字当初到底是拿什么校准的？要让「67 分（满分 100）」有任何意义，得有人拿真实的人脸、收集真实的人工评分、再把模型调到与之吻合。没有任何证据表明这些 App 这么做了。这个分数，是模型对一张图片的私人观点，被打扮成了一次测量。

讽刺的是，那种晃动反而是诚实的部分。它是系统在悄悄承认：它不知道。

为什么「更好的」照片分数更高——这是真的吗？

部分是真的，但多数不是你想的那样。一张更讨好的照片分数更高，意思是照片变好了——光更柔、角度更友好、表情更暖——不是说你的脸在周二到周四之间变了。这是关于你照片的有用反馈，不是对你本人的测量。

这一点很重要，因为一张定格自拍接近你的最差版本。真人不会在应用商店式的打光下遇见一张静止图像。他们是在动态中读你的，大约100 毫秒（Willis & Todorov, 2006），表情、眼神接触、动作同时开火——这些没有一项能被单独一帧抓住。App 给你打分用的，是你最不讨好、最不具代表性的那个格式，还把它当成判决书。

如果你想改那些可控的东西，理解第一印象窗口给你的，会比再摇一次数字多得多。

关键数字

第一印象在大约 100 毫秒内成形（Willis & Todorov, 2006）——比任何 App 跑完加载条还快，而且依据的是一张动着的脸，不是静止图。
一项汇总 919 项研究的元分析发现，人们对吸引力的看法远比「这都是主观的」这句俗话所说的要一致得多（Langlois et al., 2000）——而没有任何单一 App 的数字是拿这种一致性来校准的。
同一条研究脉络确立了光环效应（「美即好」，Dion, Berscheid & Walster, 1972）：一张温暖、开放的脸，会被赠予一些它根本没挣来的特质——而那份温暖活在表情里，不在几何里。
行为的薄片——几秒钟的无声片段——惊人地能预测真实的社交结果（Ambady & Rosenthal, 1992）。一张定格画面，一片都没有。
在应用商店评论和 Reddit 帖子里，关于这类 App 被重复最多的那条抱怨，就是「同一张照片，每次分数都不一样」的各种版本——用户对一个又一个 App 都这么反映。

我们的做法不一样

我们做了 Real World Appeal，是因为这件事的诚实版本，比那个魔法数字版本更有用——而且说实话，伤害也更小。用户和临床工作者都广泛指出过，看脸打分类 App 可能在更年轻的用户身上喂养外貌焦虑，而把一个毫无上下文、又锁在付费墙后的数字，递给一个青少年，是件有风险的事。

所以我们不玩魔法数字：

没有 PSL 式的「满分 100」。 被感知到的吸引力不是排行榜——它是按阈值在动的，过了某个区间，多刷「几何」几乎买不到什么。我们在 PAS 对比客观美里拆解了，为什么单一绝对轴是错的模型。
一份被感知到的第一印象解读，不是骨相几何玄学。 报告讲的是女性真正觉得有吸引力的东西那套语言——温暖、表情、那些真能起作用的杠杆。
上传之后没有付费墙。 你先看到解读，再决定任何事，这跟用户抱怨的看脸打分付费墙套路正好相反。
如果一个分数把你击垮了，从这里开始： 那个数字，是一个系统对一张打光糟糕的照片的读数，而这个系统对同一张照片下次就会给出不同的判决。参见人脸评分 App 说我丑。

这跟问该不该信人脸评分 App背后是同一个逻辑：去信那个告诉你「什么是可动的」的解读，而不是那个甩给你一个小数和一个结账页面的。

写在最后

你的人脸分数每次都变，是因为 App 评的是照片，不是脸——光线、角度、压缩，再加一点内部随机性，没有一项是稳定特征。不同 App 互相打架，是同一个原因再往外一步：每个都学了自己的观点，而没有一个曾被锚定在真人对你的反应上。一个更稳的数字，不会因此就更真。

你的脸没有分数。它对人有一种效果——比一个定格的小数所能容纳的，更快、更暖、也更可变。去做一次免费测试：上传后没有付费墙，没有排行榜，只有一份关于「什么真在起作用、什么真能改」的解读。

Studies referenced: Willis, J., & Todorov, A. (2006). First impressions: Making up your mind after a 100-ms exposure to a face. Psychological Science, 17(7), 592-598. Langlois, J. H., Kalakanis, L., Rubenstein, A. J., Larson, A., Hallam, M., & Smoot, M. (2000). Maxims or myths of beauty? A meta-analytic and theoretical review. Psychological Bulletin, 126(3), 390-423. Dion, K., Berscheid, E., & Walster, E. (1972). What is beautiful is good. Journal of Personality and Social Psychology, 24(3), 285-290. Ambady, N., & Rosenthal, R. (1992). Thin slices of expressive behavior as predictors of interpersonal consequences. Psychological Bulletin, 111(2), 256-274.