它为什么给所有人都打这么高？

讨好人的分数能让人不断回来、不断截图分享。一个会告诉大多数用户「你只是普通」的工具，会被很快卸载。这种通胀是一种留存设计，不是校准选择——这一点在为什么颜值打分应用给人人都打高分里讲过。

为什么同一张照片分数会不一样？

这类工具打的是一张图片里的像素，不是你的脸。重新上传同一张自拍，轻微的重新压缩加上模型自带的随机性就会让数字变动；换个光线或角度，摆动会大得多。见为什么脸部打分应用每次分数都不同。

一个高的颜值测试分数是好消息吗？

读着舒服，但意义很小。模型被调成偏善意的，所以高分是默认值，不是成就。真正预测现实反应的，是你被光照亮、会动、有表情的脸——而这恰恰是一张静态照片和一个慷慨算法都看不到的部分。

有没有更诚实的替代选择？

一个建立在感知研究上、而不是建立在讨好或残忍数字上的解读。Real World Appeal 从一个真实女性的视角读出你被感知到的第一印象吸引力，免费，上传后没有付费墙。也可以看looksmaxxing 应用最诚实的替代选择。

attractivenesstest.com 准不准？为什么人人都 7 分起

Q: attractivenesstest.com 准吗？

在任何有用的意义上都不准。Reddit 上的用户把它形容成「蓝丸」，因为它几乎给所有人打 7 分以上——所以高分说明的是这个模型很慷慨，而不是说明你真的有 7 分。一个几乎没人会不及格的量表，不是测量，是恭维。想要一个对齐真实第一印象的解读，来做这个测试。

短答案：不准——而原因恰好和大多数打分应用栽的跟头相反。attractivenesstest.com 不残忍，它慷慨。Reddit 上的用户把它叫作「蓝丸」，因为它似乎几乎给所有人打 7 分以上，这意味着一个高分告诉你的是这个模型很善意，而不是你真的有 7 分。一个几乎没人会不及格的数字不是测量。它是一句带小数点的恭维。

这种感觉能爽大约一天。然后它对你毫无用处，因为讨好和反馈是两回事——而你来这儿是为了找反馈。

attractivenesstest.com 是什么？

它是一个免费网页工具：上传一张照片，返回一个吸引力评分，通常是 1 到 10 分制，有时还附带几个分项标签。不用下载，基础分数也不用注册账号。你丢进去一张自拍，等几秒，拿到一个数字。

它和那些 looksmaxxing 应用属于同一类——Umax、LooksMax AI 之类——只是换了张更友善的脸。PSL 社区会甩给你残忍的「4 分以下」判决，好向你兜售各种手术；而这种浏览器工具走的是反方向：高分、快速、零摩擦。两种不同的商业模式，同一个坏掉的内核。一个卖你残忍，一个卖你安慰，而两者都没有在读你真正想被读的那个东西。我们在为什么颜值打分应用给人人都打高分里拆解了整个光谱。

attractivenesstest.com 是准，还是只是友善？

它友善。准确是另一回事，而没有任何证据表明这个数字够得上。

有一个能把两者区分开的测试。一个准确的测量，必须有能力给你坏消息。一支永远只显示「舒适」的温度计不是在测温度——它是张贴纸。当 Reddit 各个讨论串里的用户报告说这个工具给「所有人」都打 7 分以上、并因此叫它「蓝丸」时，他们描述的正是这个：一个低分端纯属装饰的量表。（我们是在转述用户的吐槽，而不是自己断言确切的分数分布——你拿到的解读可能不一样，单张截图也证明不了什么。）

一个几乎没人会不及格的分数，几乎不携带任何信息。如果我告诉你，你通过了一场 99% 的人都能通过的考试，你对自己没学到任何东西——只学到了这场考试很简单。那个 7 分不是对你脸的判决。它是一台慷慨机器的地板。

而慷慨是有原因的。一个会告诉大多数用户「你是 4 分」的工具，会被卸载、被群嘲。一个告诉大多数用户「你是 7 分朝 8 分走」的工具，会被截图、被分享、被反复打开。这种通胀不是校准上的 bug。它就是留存策略本身。

双面陷阱：讨好和残忍是同一枚硬币

这是大多数测评忽略的部分。人们把通胀的应用和刻薄的应用当成对立面——一个太软，一个太硬，真相在中间某处。这是错的。它们是同一枚坏硬币的两面。

	讨好型工具（attractivenesstest.com）	残忍型工具（PSL 打分）
分数给人的感觉	高、暖、令人安心	低、残酷、「诚实」
它卖的是什么	「你已经到顶了」的幻想	「你没救了」的幻想
商业模式	互动、分享、复访	焦虑，然后是付费「逆袭」
与真实吸引力的关联	无	无
对你的真实生活有什么用	没有	没有

通胀的工具卖给你的幻想是：你是顶级的，只是世界还没反应过来。残忍的 PSL 论坛卖的是反向幻想：你是底层的、注定完蛋，除非你去刷它那套流程。两者都是幻想，因为两者都出自同一台机器——一个和「真实的人到底如何回应你」毫无接触的模型，被打扮成了一次测量。

一个讨好的数字并不比一个残忍的数字更安全。它只是让你失望得更愉快一些。你飘在 7.8 分上爽了一个星期，现实生活没变，然后你比之前更困惑了——因为现在数据和约会结果对不上，而你信错了那一个。我们在该不该相信脸部打分应用里深入聊了这种对称性。

同一张照片，不同分数——还有一个偏欧美的模板

除了通胀，这类工具还露出另外两道裂缝。

**同一张照片，不同数字。**这些模型打的是一张图片里的像素，不是你的脸。脸是一个稳定的 3D 物体；照片是一次性条件下的平面投影——光线、角度、裁切、镜头距离——这里面几乎没有一项是你。重新上传一模一样的自拍，轻微的重新压缩加上模型内部的随机性就能推动那个数字；换个光线，它就大幅摆动。系统读的是那张照片，却把它叫作你的脸。这套机制在为什么脸部打分应用每次分数都不同里有更多解释。

**一个狭窄的训练模板。**模型在训练里给什么打高分，什么就成了它对「好看」的定义。当那批数据偏向某一种西方、欧美中心的审美时——而用户恰恰广泛地指出这类工具就有这个问题——这套量表会悄悄地扣单眼皮、扣更宽的鼻子、扣更深的肤色、扣那些落在模板之外的特征的分。在各种 AI 脸部打分器上，用户和写作者都反复提到过这种偏见。一双被拿去对照「猎人眼」理想的单眼皮并不是更不好看；它只是落在了模型学到的那套评分标准之外。我们在脸部打分应用是不是欧美中心里聊了这件事。

所以连这个友善的工具都有一个并不属于你的天花板，还有一个证明这数字从来就不稳的摆动。

关键数字

一次真实的第一印象判断，在看到一张脸约 100 毫秒 内就形成（Willis & Todorov, 2006）——比加载转圈跑完还快。
一项大型元分析发现，人们对「谁好看」的一致程度，远高于「这都很主观」这种说法所暗示的——这种一致建立在情境中的整张脸上，而不是一个慷慨的 1 到 10 旋钮上（Langlois et al., 2000）。
同一项元分析记录了光环效应：被读成好看的脸，会被白送上它从未被检验过的温暖与能力（Langlois et al., 2000；Dion, Berscheid & Walster, 1972）。
脸是在两条快速轴上被读取的——被感知到的可信度与支配感——其中大部分由表情驱动，而不是骨骼几何（Todorov）。
几秒钟无声的行为——一个「薄切片」——出人意料地能很好地预测真实的人际结果（Ambady & Rosenthal, 1992）；而一张被慷慨打分的、定格的自拍，里面一点这种东西都没有。

一个讨好的数字看不见什么

退一步，看吸引力到底是怎么运作的，因为那才是你想被测量的东西。

这种判断是真实而快速的。Willis & Todorov（2006）的研究显示，人们在约 100 毫秒 内就形成了对一张脸的稳定解读——是否可信、是否有支配感、是否好看——而看得更久，多半只是把这个第一印象固化。Ambady & Rosenthal（1992）发现几秒钟无声的行为就能预测真实结果。第一印象不是噪音。它只是不是一个 1 到 10 的旋钮。

被判断的是一个整体，而其中很大一块根本不是固定的结构：

表情和眼神分量极重。Todorov 的研究显示，表情上的细微变化会移动被感知到的温暖与信任——而温暖直接喂给吸引力。那张死气沉沉、面无表情的自拍把这一切都剥掉了。
光环效应（Dion, Berscheid & Walster, 1972）意味着一张被读成温暖、开放的脸，会被白送上它根本不必赢得的好感——而一张冰冷、「对称」的脸会被往下拖。
动作、姿态、打理——这些没有一样能在一帧静态画面里存活。照片是你的最差版本：定格、压扁、只被打过一次光。

一个单独的数字，无论高低，都得把这一切碾成一位数，然后扔掉那个真正可改动的部分。这不是换个更好的模型就能修的精度 bug。这是一个范畴错误。一个慷慨的 7 和一个残忍的 4 犯的是同一个错——它们只是往不同方向取整罢了。

我们的做法不一样

我们做 Real World Appeal，是因为这件事的诚实版本比魔法数字版本更有用——而且，在这样一个焦虑的领域里，更不伤人。（在主流报道里被引用的心理学家警告过，颜值打分类工具可能会助长年轻用户的身体形象和体象障碍问题；一个脱离情境的数字，无论讨好还是残忍，交到一个青少年手里都是件冒险的事。）

所以我们不玩魔法数字：

**不搞「人人 7 分」的讨好，也不搞 PSL 的「满分 100」。**被感知到的吸引力是在阈值上移动的，不是在一个排行榜上。我们在 PAS 对比客观美里解释了为什么把脸排在一条轴上是错的模型。
**一个扎根于感知研究、而不是一个慷慨旋钮的解读。**报告说的是女性真正觉得有吸引力的东西那套语言——表情、温暖、第一印象窗口——那些真正能撬动的杠杆。
**免费，上传后没有付费墙。**你在做任何决定之前就能看到解读。
**如果一个友善的数字让你更困惑了，**那正是它是讨好、而非反馈的破绽。一个诚实的基准胜过一个舒服的基准。见looksmaxxing 应用最诚实的替代选择。

趁这里说一句温和的话：如果你一直在各个应用之间来回跳，找那个终于让你觉得对劲的数字，那么数字不是要解决的问题。这个「找」才是。一个高分修不好一种空落落的感觉，一个低分也不是对你的判决。你完全可以彻底走下这个旋钮。

写在最后

attractivenesstest.com 准吗？不准——它友善，这是另一回事，而且是个比看上去更糟的陷阱。当用户因为它几乎给所有人打 7 分以上而叫它「蓝丸」时，他们注意到的是：量表的低分端其实并不存在，所以一个高分是一台慷慨机器的默认设置，而不是对你脸的解读。再配上同照不同分的摆动，加上一个偏欧美的模板，这个数字就是一个很有礼貌的幻想。

你的脸没有分数。它对人有一种效应——比任何慷慨的小数都更快、更暖、也更易改变。

来做这个免费测试。上传后没有付费墙，没有讨好旋钮，没有一个假扮成真相的数字——只有一个解读，告诉你什么真正在起作用、什么真正可以改动。

引用研究：Willis, J., & Todorov, A. (2006). First impressions: Making up your mind after a 100-ms exposure to a face. Psychological Science, 17(7), 592-598. Langlois, J. H., Kalakanis, L., Rubenstein, A. J., Larson, A., Hallam, M., & Smoot, M. (2000). Maxims or myths of beauty? A meta-analytic and theoretical review. Psychological Bulletin, 126(3), 390-423. Dion, K., Berscheid, E., & Walster, E. (1972). What is beautiful is good. Journal of Personality and Social Psychology, 24(3), 285-290. Ambady, N., & Rosenthal, R. (1992). Thin slices of expressive behavior as predictors of interpersonal consequences. Psychological Bulletin, 111(2), 256-274. Todorov, A., work on trustworthiness and dominance face-evaluation axes.

attractivenesstest.com 准不准？为什么人人都 7 分起

attractivenesstest.com 是什么？

attractivenesstest.com 是准，还是只是友善？

双面陷阱：讨好和残忍是同一枚硬币

同一张照片，不同分数——还有一个偏欧美的模板

关键数字

一个讨好的数字看不见什么

我们的做法不一样

写在最后

常见问题

attractivenesstest.com 准吗？

它为什么给所有人都打这么高？

为什么同一张照片分数会不一样？

一个高的颜值测试分数是好消息吗？

有没有更诚实的替代选择？

测一测自己的第一眼吸引力

相关阅读

Umax 和 Looksmax AI 哪个更好，还是其实一样？

QOVES 和 Umax 到底哪个值得花钱？

UChad AI 准吗？聊聊「付费或分享」解锁和那个分数