Umax 准吗？为什么同一张照片每次分数都不一样

你传了张自拍。Umax 转了几秒，卡在 91% 那一下，然后甩给你一个数——比如 67 分，下面挂着下颌线子分、"男性度"子分。你盯着看了会儿。然后做了所有人都会做的事：把同一张照片又传了一遍，就想看看。

这回回来个 71。

那到底哪个是真的？

把大多数人带到这篇文章的，就是这个问题。在讲任何别的之前，它值得一个直给的答案：两个数都不"真"，而它们之间那道缝，反倒是这个 app 这辈子给你看过的最诚实的东西。 一步步说为什么。

关键数字

Umax 累计下载量据报道 700 万+，月订阅收入约 50 万美元（出自创始人 Blake Anderson，《Fortune》报道）。
订阅约 3.99 美元/周，而完整分数被锁在付费墙后面——是在你已经上传并扫描完之后才弹出来。
用户反复反映同一张自拍返回不同的分；一条 App Store 评论描述同一张照片传了三次，"几乎每次都是不同的数字"。
现实里第一眼判断在约 100 毫秒内就成型了（Willis & Todorov, 2006）——比任何 app 加载完都快。
一项汇总 919 项研究的元分析发现，人类对吸引力的评分一致度远高于"美是主观的"这句俗话所暗示的（Langlois et al., 2000）——而 Umax 那个分，从没拿这种一致度校过表。

先直接回答：Umax 一致吗？

不一致——而且这种不一致是有据可查的，不是你这边的偶然。

围绕这类 app 最集中的抱怨，跨 App Store 评论和第三方测评，恰恰就是你注意到的那条。"同一张照片传了 3 次，得到不一样的数。"评论里说结果"完全不准"，说扫描"很容易卡死、闪退"，还说拿到的分跟 TikTok 广告里承诺的"变帅"对不上。（这里我们引的是评论者的原话，不是我们自己下的判断——你的体验可能不同，而单凭一张低分截图也证明不了太多。）

但有个坑值得早点点破：人们看到"每次数字都不一样"，会得出这 app 只是需要更稳定一点的结论。好像哪天它每次都返回 67，就终于可信了。

并不会。而想明白为什么不会，正是这篇的全部重点。

算法到底在量什么

把机制讲白。

Umax 手里没有你这张脸的模型。它做不到。它手里是一个模型，把一张图里的像素映射成一个数——这个数是它在训练集里学来跟"看起来好看的照片"挂钩的。这两件事不是一回事。

脸是个稳定的三维物体。照片是这个物体在某一组特定条件下的一张平面投影——而这些条件里几乎没一样是你的脸：

**光。**窗光、顶光、手机闪光灯，会把你下颌、眼下、颧骨上的每一道阴影重画一遍。app 评的那个"骨相结构"，大半是阴影。
**角度。**相机举在胸口高、眼睛高、还是略高于头顶，会改变你下颌的观感、鼻子的投影、额头到下巴的比例。同一个头骨，落在传感器上是不同的几何。
**裁切和距离。**30 厘米处的镜头畸变很凶，80 厘米处则温和。app 把畸变读成了你的脸。
**微表情，以及模型自己的随机性。**同一个文件重跑一遍，很多这类系统还是会抖，因为它产出结果的过程里本就埋着采样噪声。

所以当同一张照片打出 67 又打出 71，app 不是在对你犹豫。它给的是同一张图的两次读数——重新上传时，哪怕一点点重新压缩、或内部随机性的一次重掷，都足以让指针动一下。光或角度稍微变一点，这个数摆得还要大得多。它追踪的是那张照片。你在意的是你的脸。app 悄悄把两者混为一谈，那道抖动，就是接缝露了出来。（要说明白：不是每次分数变化都是噪声——一张真的打光更好、角度更好的照片确实会读得更高，这是真实且有用的信息，只是它跟你的骨相无关。）

一致，不等于准

现在说真正要命的部分。

设想 Umax 明天把抖动修好了。同一张照片，每次同一个数，锁死。那这个数就真了吗？

不。因为一致性和有效性是两种不同的属性，而这个 app 从头到尾只碰了第一种。

一台总是多读 12 斤的体重秤，一致性堪称完美。它也每次都错，朝同一个方向错。一致只意味着仪器会重复自己。有效性意味着它量的就是它声称在量的那个东西。一个分可以稳如磐石，同时跟现实毫无关系。

于是这个没人去问 app 的问题就来了：那个 67，到底拿什么校过表？

要让这个数真的意味着"吸引力 67 分"，得有人拿真实的脸、收集真人对这些脸的真实评分，再把模型调到它的输出跟人们实际觉得有吸引力的对得上。没有证据表明这类 app 做过这件事。那个分是模型对一张图的内部意见，打扮成了一次测量，再配上一个看着很精密的小数点，好让它显得科学。一个稳定的 67 不会更准。它只会是一个更自信的猜测。

那个不一致，反而才是更诚实的信号。是系统不小心承认了：它其实不知道。

吸引力真正勾住的东西——以及一个数为什么装不下它

退一步，看吸引力在真实世界里怎么运作，因为那才是你真正想改善的东西。

这个判断是真的，而且快。Willis & Todorov（2006）发现，人对一张脸的印象——可信度、能力感、吸引力——在约 100 毫秒内就稳定下来，看更久主要只是加深对这个瞬间判断的信心。Ambady & Rosenthal（1992）发现，行为的薄切片，几秒钟无声的片段，对结果的预测好得惊人。第一印象不是噪声。

但被判断的，不是一个几何分。它是一个整体格式塔——而其中相当大一块，根本就不是固定的面部结构：

表情和眼睛分量极重。Todorov 的研究表明，表情里极细微的变化，就能大幅移动可信度和暖意的观感——而暖意直接喂给吸引力。
光环效应（Dion, Berscheid & Walster, 1972）意味着一张被读作温暖、开放的脸，会被白送上它本不必赚来的能力感和讨喜度——反过来，一张"客观对称"却冷的脸会被往下拖。
**情境会渗进来。**Dutton & Aron（1974）那个晃桥实验显示，环境带来的生理唤起，会被错归成对眼前那个人的吸引。这些，你的自拍里一样都没有。
**一致是真的，主观被夸大了。**Langlois 等人 2000 年汇总 919 项研究的元分析发现，人们对吸引力的一致程度远高于"全凭主观"那套说法——而且那种一致针对的是情境里的整张脸，不是孤立的下颌角度。（要说明白：一致很强，但不是百分百——文化和个人偏好仍会移动边缘，这恰恰是为什么单一绝对分是错的计量单位。）

一个 0-100 的单一分，得把这一切压成一位数，再把真正能动的那部分扔掉。这不是换个更好的算法就能修的精度问题。这是用错了类别。

我们的做法不一样

我们做 Real World Appeal，是因为这件事的诚实版本比魔法数字版本更有用——坦白说，也更不容易伤人。（被《Fortune》和 Yahoo Finance 引用的心理学家警告过，颜值打分类 app 会在年纪更小的用户里助长躯体变形障碍；把一个没有任何语境、后面还藏着付费墙的数字，递给一个 15 岁的人，是件实实在在有风险的事。）

所以我们不玩魔法数字。具体说：

**不搞 PSL 那套绝对"满分制"。**感知吸引力不是线性的，也不是排行榜——它是一组阈值，越过某个区间，更多"几何"几乎买不到任何东西。我们在 PAS 与"客观美" 里拆了为什么把脸按单一轴排名是错的模型。
**反馈扎根于感知研究，而非骨相玄学。**报告说的是女性真正觉得有吸引力的是什么那套语言——表情、暖意、第一印象窗口——是真正能动的杠杆，不是你改不了的那些。
**免费，上传之后也没有付费墙。**你在决定任何事之前，先看到那份读数。
**如果你来这儿，是因为 Umax 甩给你一个扎心的数：先读这一段。**那个把你击垮的分，是一个系统对一张光打得很糟的照片的读数——而这个系统，下一次对同一张照片会给出不同的判决。这一点在 Umax 分数 vs 现实和 Umax 低分到底意味着什么里讲透了。它不是对你这个人的判决。

如果你想拿点具体的东西来比，比如这类 app 倚重的眼角倾斜几何，眼角倾斜自测完全在你的浏览器里跑——照片永不离开你的设备——而我们也坦白：这一个单项测量，其实预测不了多少。

那么——Umax 准吗？

它一致得足以显得科学，又不一致得足以露馅，而且它从没拿它声称在评的那个东西校过表。同一张照片得到不同的数，是因为模型读的是图，不是脸，而那些数里没有任何一个，被锚在真人在真实房间里对你的反应上。

你的脸没有分。它对人有一种效应——而那种效应，比一个冻住的小数能装下的，更快、更暖、也更可改变得多。

做免费测试。上传后没有付费墙，没有排行榜，没有一个假装是真相的数字——只有一份读数，告诉你什么在真正起作用、什么是真正能动的。

引用研究：Willis, J., & Todorov, A. (2006). First impressions: Making up your mind after a 100-ms exposure to a face. Psychological Science, 17(7), 592-598. Langlois, J. H., Kalakanis, L., Rubenstein, A. J., Larson, A., Hallam, M., & Smoot, M. (2000). Maxims or myths of beauty? A meta-analytic and theoretical review. Psychological Bulletin, 126(3), 390-423. Dion, K., Berscheid, E., & Walster, E. (1972). What is beautiful is good. Journal of Personality and Social Psychology, 24(3), 285-290. Ambady, N., & Rosenthal, R. (1992). Thin slices of expressive behavior as predictors of interpersonal consequences. Psychological Bulletin, 111(2), 256-274. Dutton, D. G., & Aron, A. P. (1974). Some evidence for heightened sexual attraction under conditions of high anxiety. Journal of Personality and Social Psychology, 30(4), 510-517. Umax 数据（下载量、收入、定价）出自《Fortune》（2024 年 7 月）与 Yahoo Finance 报道。 </content> </invoke>