Real World Appeal
Attraction science2026年6月26日9 分钟阅读

同一张照片,为什么每次打分都不一样?

为什么同一张照片每次上传分数都变?因为这些 App 评的是图片本身——光线、角度、压缩——而不是你真正的那张脸。

在手机上对比两张照片
Photo: Luis Quintero

你上传一张自拍,得了 67 分;把同一个文件再传一次,回来变成 72。或者把这张照片塞进三个不同的 App,分别拿到 6.5、8,还有一句「高阶 normie」。那到底哪个是真的?一个都不是。 同一张照片打分会变,恰恰证明这个工具量的是图片——光线、角度、压缩,再加一把内部随机性的骰子——而不是你这张脸的某个稳定事实。

这就是全部答案。这页剩下的内容,是讲它为什么会这样、为什么「更稳定」也救不了它,以及一份诚实的解读应该长什么样。

同一张照片为什么会得到不同的分数?

这个 App 手里没有一个关于你这张脸的模型。它手里的,是一个把某张图片里的像素变成一个数字的模型。同一个文件再传一次,小东西照样会变——内部采样的随机性、一次重新压缩、一次新的裁切——于是输出就晃。这个数字跟着照片走,不跟着你。

下面是大多数人没意识到的地方。一张脸是一个稳定的 3D 物体。一张照片是这个物体在某一组特定条件下的平面投影,而这些条件里几乎没有一项是「你的脸」:

  • 光线重新画出你下颌、颧骨、眼下的每一道阴影。被评分的那些「结构」,很多其实只是阴影。
  • 角度改变你下颌的视觉形态、鼻子的投影、额头到下巴的比例。同一个头骨,打到传感器上的几何却不同。
  • 距离和镜头在 30 厘米处畸变很凶,在 80 厘米处则温和得多。App 把这种畸变读成了你的脸。
  • 模型自带的随机性意味着,哪怕是一模一样的文件,也会重新摇出一个略有差别的输出。

所以当同一张照片先 67 后 72,App 并不是在对犹豫不决。它是对同一张图给了两个读数。(一句诚实的补充:不是所有变化都是噪声。一张确实打光更好的照片,读出来真的会更高——这是关于你照片的真实信息,详见人脸评分 App 到底靠不靠谱,但它不是关于你骨相的。)

为什么不同 App 给的分数差得离谱?

因为每个 App 学到的是一套不同的观点。每个人脸评分模型,都是在不同的一堆照片、不同的标注上训练出来的,所以各自吸收了自己关于「什么样的像素算好看」的想法。它们之间没有一把共用的尺子在读。不一致不是故障——它是天生就刻在里面的。

想想看,要让它们达成一致,得满足什么条件。它们得用同一批训练人脸、同一套人工评分、同一个对「被评对象」的定义。这些它们一样都没有。一个 App 偏向讨好你,好让你一直打开它;另一个偏向严苛,好显得「科学」、好向你推销该修哪儿。于是同一张自拍,在这个里能拿个自信的 8,在下一个里就摔成一个残忍的 4。

这个数字在对什么起反应重传后稳定吗?跟你的脸有关系吗?
光线 / 阴影几乎没有——它量的就是阴影
拍摄角度 / 距离会让它畸变
JPEG 压缩 / 重新裁切
模型内部的随机性
你用了哪个 App
你真实的骨相是——但它是权重最小的那个输入

这张表里唯一真正稳定的那一项,恰恰是这些 App 看得最轻的那个输入。

更稳定的 App,不就是更准的 App 吗?

不是——而这正是陷阱所在。稳定和准确是两种不同的性质。一个 App 完全可以对同一张照片每次都吐出一模一样的数字,却依然彻彻底底是错的,因为「自己重复自己」和「说对了」根本不是一回事。

一台总是多读 12 斤的浴室秤,稳定得很。它也每一次都是错的。稳定意味着一件仪器会重复自己。有效意味着它量的确实是它声称要量的东西。一个人脸分数可以稳如磐石,却跟真人对你的反应毫无关联。

所以去问那个没人问 App 的问题:这个数字当初到底是拿什么校准的?要让「67 分(满分 100)」有任何意义,得有人拿真实的人脸、收集真实的人工评分、再把模型调到与之吻合。没有任何证据表明这些 App 这么做了。这个分数,是模型对一张图片的私人观点,被打扮成了一次测量。

讽刺的是,那种晃动反而是诚实的部分。它是系统在悄悄承认:它不知道。

为什么「更好的」照片分数更高——这是真的吗?

部分是真的,但多数不是你想的那样。一张更讨好的照片分数更高,意思是照片变好了——光更柔、角度更友好、表情更暖——不是说你的脸在周二到周四之间变了。这是关于你照片的有用反馈,不是对你本人的测量。

这一点很重要,因为一张定格自拍接近你的最差版本。真人不会在应用商店式的打光下遇见一张静止图像。他们是在动态中读你的,大约100 毫秒(Willis & Todorov, 2006),表情、眼神接触、动作同时开火——这些没有一项能被单独一帧抓住。App 给你打分用的,是你最不讨好、最不具代表性的那个格式,还把它当成判决书。

如果你想改那些可控的东西,理解第一印象窗口给你的,会比再摇一次数字多得多。

关键数字

  • 第一印象在大约 100 毫秒内成形(Willis & Todorov, 2006)——比任何 App 跑完加载条还快,而且依据的是一张动着的脸,不是静止图。
  • 一项汇总 919 项研究的元分析发现,人们对吸引力的看法远比「这都是主观的」这句俗话所说的要一致得多(Langlois et al., 2000)——而没有任何单一 App 的数字是拿这种一致性来校准的。
  • 同一条研究脉络确立了光环效应(「美即好」,Dion, Berscheid & Walster, 1972):一张温暖、开放的脸,会被赠予一些它根本没挣来的特质——而那份温暖活在表情里,不在几何里。
  • 行为的薄片——几秒钟的无声片段——惊人地能预测真实的社交结果(Ambady & Rosenthal, 1992)。一张定格画面,一片都没有。
  • 在应用商店评论和 Reddit 帖子里,关于这类 App 被重复最多的那条抱怨,就是「同一张照片,每次分数都不一样」的各种版本——用户对一个又一个 App 都这么反映。

我们的做法不一样

我们做了 Real World Appeal,是因为这件事的诚实版本,比那个魔法数字版本更有用——而且说实话,伤害也更小。用户和临床工作者都广泛指出过,看脸打分类 App 可能在更年轻的用户身上喂养外貌焦虑,而把一个毫无上下文、又锁在付费墙后的数字,递给一个青少年,是件有风险的事。

所以我们不玩魔法数字:

  • 没有 PSL 式的「满分 100」。 被感知到的吸引力不是排行榜——它是按阈值在动的,过了某个区间,多刷「几何」几乎买不到什么。我们在 PAS 对比客观美里拆解了,为什么单一绝对轴是错的模型。
  • 一份被感知到的第一印象解读,不是骨相几何玄学。 报告讲的是女性真正觉得有吸引力的东西那套语言——温暖、表情、那些真能起作用的杠杆。
  • 上传之后没有付费墙。 你先看到解读,再决定任何事,这跟用户抱怨的看脸打分付费墙套路正好相反。
  • 如果一个分数把你击垮了,从这里开始: 那个数字,是一个系统对一张打光糟糕的照片的读数,而这个系统对同一张照片下次就会给出不同的判决。参见人脸评分 App 说我丑

这跟问该不该信人脸评分 App背后是同一个逻辑:去信那个告诉你「什么是可动的」的解读,而不是那个甩给你一个小数和一个结账页面的。

写在最后

你的人脸分数每次都变,是因为 App 评的是照片,不是脸——光线、角度、压缩,再加一点内部随机性,没有一项是稳定特征。不同 App 互相打架,是同一个原因再往外一步:每个都学了自己的观点,而没有一个曾被锚定在真人对你的反应上。一个更稳的数字,不会因此就更真。

你的脸没有分数。它对人有一种效果——比一个定格的小数所能容纳的,更快、更暖、也更可变。去做一次免费测试:上传后没有付费墙,没有排行榜,只有一份关于「什么真在起作用、什么真能改」的解读。


Studies referenced: Willis, J., & Todorov, A. (2006). First impressions: Making up your mind after a 100-ms exposure to a face. Psychological Science, 17(7), 592-598. Langlois, J. H., Kalakanis, L., Rubenstein, A. J., Larson, A., Hallam, M., & Smoot, M. (2000). Maxims or myths of beauty? A meta-analytic and theoretical review. Psychological Bulletin, 126(3), 390-423. Dion, K., Berscheid, E., & Walster, E. (1972). What is beautiful is good. Journal of Personality and Social Psychology, 24(3), 285-290. Ambady, N., & Rosenthal, R. (1992). Thin slices of expressive behavior as predictors of interpersonal consequences. Psychological Bulletin, 111(2), 256-274.

常见问题

同一张照片为什么会打出不同的分?

因为模型评的是这个图片文件,不是你的脸。哪怕上传一模一样的图,内部采样的随机性和细微的二次压缩也会让结果晃动;只要光线或角度稍微变一点,波动就更大。这个数字跟着照片走,跟一个稳定特征无关——所以分数变来变去,其实是 App 在不经意间告诉你:它根本不知道。参见人脸评分 App 到底靠不靠谱

哪个人脸评分 App 最准?

按你想要的那种「准」来说,一个都不准——也就是没有一个跟真人对你的真实反应对齐过。它们对同一张照片都互相打架,这就证明没有哪个手里握着真分数。真正有用的解读不是一个更稳的 0-100 分,而是一份诚实的第一印象解读,告诉你那几件你真能改的事。

为什么不同 App 给我的分数差得离谱?

每个 App 是在不同的一堆照片、不同的标注上训练出来的,所以各自学到了一套「什么样的像素算好看」的私人观点。它们之间没有一把共用的尺子在量。这种不一致不是个等它修好的 bug——它恰恰是最清楚的信号:这个数字从一开始就没和现实挂上钩。

换一张更好的照片分数高了,是不是说明我变好看了?

不是。是照片变好了——光更柔、角度更友好、表情更暖。这是关于你照片的真实有用信息,但不是关于你骨相的。一张定格自拍接近你的最差版本;真人是在动态中、大约 100 毫秒内读你的(Willis & Todorov, 2006)。

我是不是该一直重传,直到刷出一个满意的数字?

你可以,大多数人也确实这么干——但你收集的是噪声,不是数据。如果低分刺痛了你,那需要的是一个温柔的重新框定,而不是再摇一次骰子。读读人脸评分 App 说我丑,然后去做一次诚实的解读吧。

测一测自己的第一眼吸引力

1 分钟、3 张照片 + 几道问卷。给出按「真正能拉分多少」排序的具体改进杠杆。

开始测试

相关阅读