PinkMirror 为什么给我打这么高的分？

因为这个模型本身就偏向给出讨喜的高分。多个评测站和论坛的用户反映，分数普遍扎堆在 8 到 10 分，连被遮挡的脸、甚至非人脸都能拿高分。一个几乎人人都能拿到的高分，不是对你的评判，而是 App 的默认值。想要一份基于真实感知的解读，可以试试这份免费测试。

PinkMirror 测的是真实吸引力吗？

不是。它只对一张静态照片的面部几何与对称度打分。真正的吸引力在大约 100 毫秒内、由一张动态的脸形成——表情、眼神、亲和力，这些静照都抓不到。详见为什么 AI 测不出吸引力。

为什么同一张照片在 PinkMirror 上分数会变？

因为模型读的是像素，不是你的脸。重新上传、重新压缩、裁切一点点，光影就变了，而算法打的正是这些光影。分数会飘，恰恰是 App 在承认它读的是图像、不是你本人。更多解释见为什么测脸 App 给的分数各不相同。

PinkMirror 的分数值得付费吗？

大部分分析和美颜功能都被锁在付费墙后面，用户对其价值评价不一。在为任何一个几何分数掏钱之前，先看看我们的付费墙拆解。

有没有比 PinkMirror 更诚实的替代方案？

找一个读取「被感知的第一印象」而不是 0 到 100 几何评分的工具。我们的诚实替代方案指南讲了该看哪些点，或者直接跑一遍感知吸引力测试。

PinkMirror 准不准？为什么几乎人人都打 8 到 10 分

你上传了一张照片，盯着加载条等完，PinkMirror 递给你一个挺讨喜的结果——8 分，也许 9 分，下面还挂着一个「颜值分」和一份对称度读数。你心里有一部分想信。剩下那部分，把「PinkMirror 准不准」敲进了搜索框，因为这么高的分，来得太容易了。

直觉很准。直接给答案：PinkMirror 并不能准确反映你到底有多吸引人，而那个虚高的分数本身就是破绽。 它测的是一张静态照片里的面部几何，输出一边倒地往高里给，而且跟真人对你的反应毫无关联。我们一条条拆给你看。

关键数字

真实的第一印象判断，大约在看到一张脸的 100 毫秒内就形成了——比 App 的加载条还快（Willis & Todorov, 2006）。
一项涵盖 919 项研究的元分析发现，人们对「谁有吸引力」的共识，远比「美是主观的」这句话所暗示的要高——而 PinkMirror 的分数从来没拿这份共识来校准过（Langlois et al., 2000）。
同一批研究还发现，有吸引力的人会获得光环效应——被默认更温暖、更有能力、更诚实，哪怕这些根本没被验证过（Langlois et al., 2000；Dion, Berscheid & Walster, 1972）。
几秒钟无声的行为——一个薄切片（thin slice）——就能惊人地预测真实结果（Ambady & Rosenthal, 1992）；而一张静照里，这些一点都没有。
多个评测站和论坛的用户反映，PinkMirror 的分数扎堆在 8 到 10 分这个区间，连被遮挡、模糊、甚至非人脸的照片也照样给高分——这种规律指向的是一个虚高的默认值，而不是一次测量。

PinkMirror 准不准？一句话版

不准。PinkMirror 分析的是单张上传照片的几何——对称度、比例、五官间距——然后把它换算成一个「颜值分」。这量的是一张图像里的形状，不是你的吸引力。

最清楚的证据，就是分数本身。Reddit 帖子和评测站上的用户反映，这个 App 几乎给所有人都打高分——8 分、9 分，甚至 10 分——而这份慷慨连它本不该打分的脸都不放过。有人描述自己传了模糊的照片、被严重遮挡的脸，甚至宠物或卡通形象的图，结果还是拉回了一串亮眼的数字。（这些是我们转述用户的说法，不是把它当作我们自己的实验结论——你的结果可能不一样。）

如果一个「颜值分」连狗和人都分不出来，那它读的就不是颜值。它在跑一个讨喜的默认值。

它为什么给人人都打 8 到 10 分？

因为讨喜的数字能让你接着用。虚高的分数让人舒服，会被截图，会被转发——一个让你感觉良好的 App，就是一个你会重新打开的 App。这个高分，是穿着白大褂的产品决策。

还有一个机制上的原因。一个被训练来输出「颜值分」、却没有真正基准答案的模型——没有一组人类评分员对同一批脸打分来把它锚定住——会漂向那个安全、好说话的中上区间。没有任何东西把它往真相那边拉，于是它就停在最不会被人挑刺的地方。这就是为什么你会得到一把以 8 分为地板的尺子。

值得点名的陷阱在这儿。人们看到 8 分，会以为这个 App 喜欢我的脸。但一个几乎人人都能拿到的数字，关于你本人不携带任何信息。一个分不清你和下一张上传照片、也分不清你和一张糊掉的贵宾犬照片的评分，不是在夸你。它只是没办法说出别的话来。

这就是虚高的、「蓝丸」式的失败模式。而它，正是那种残忍模式的镜像。

虚高的分和残忍的分，是同一台坏掉的机器

测脸 App 有两种，人们以为它们是对头。一种——PinkMirror，以及其他被用户叫作「蓝丸」的——发放讨喜的 8 到 10 分。另一种——PSL 社区和更狠的分析器——发放残忍的「4 分以下」判决，再卖你各种手术让你去「上位」（ascend）。人们把这两者当敌人。它们其实是一枚硬币的两面。

	虚高型 App（如 PinkMirror）	残忍型 PSL 工具
卖给你什么	你已经是高段位	你是低段位，不修就完了
情绪钩子	爽感、值得截图	焦虑，然后是付费墙后的「修复方案」
测的是什么	照片几何 + 对称度	照片几何 vs. 一种狭窄的理想型
拿真实吸引力校准过吗？	没有	没有
告诉你具体该做什么吗？	没有	没有（改卖手术）

两者跑的是同一套机器：一个对平面图像里的形状打分的模型，跟一个真人隔桌对你的反应毫无连接。一个往高吹，一个往死踩。两个都没拿现实校准过，两个都换不来一条现实世界里的改进。讨喜的谎和残忍的谎都是谎——只是把你留在了不同的幻想里。

PinkMirror 物理上看不见的东西

退一步，看看吸引力到底是怎么运作的，因为那才是你来这儿想改进的东西。

那个判断是真实的，而且很快。Willis & Todorov（2006）发现，人们在大约 100 毫秒内就对一张脸形成了稳定的解读——有没有吸引力、可不可信、强不强势——看得更久，大多只是把这个瞬间印象坐实。Ambady & Rosenthal（1992）发现，几秒钟无声行为的薄切片，能以惊人的准确度预测结果。第一印象不是噪声。它就是整场比赛。

但在那第一秒里被评判的，是一个动态中的整体（gestalt in motion）——而其中大部分，从来没进到 PinkMirror 打分的那张照片里：

表情。 一张放松的脸、一双不紧绷的眼睛，读起来比那种死眼神的中性自拍更温暖、更有吸引力。App 看到的是一张定格的嘴。
眼睛和目光。 你看向哪里、眼神是柔和还是戒备——这驱动着 Todorov 的可信度轴。静照把它压平了。
动态。 你怎么转头、怎么走进来、肩膀有多松弛。人们是在动态里读你的；App 读的是单独一帧。
亲和力。 那半秒钟的温度，决定了对方想不想继续看。没有哪个对称比例装得下它。

一张定格的自拍，是你的最差版本——一个固定角度、一束固定光线、零动态，而正是动态让一张脸真正落地。PinkMirror 给这个最差帧打分，然后管它叫你的颜值。

一致 ≠ 准确

也有用户反映另一种相反的问题：同一张脸在不同照片里分数不同，甚至重新上传同一张都不一样。这是同一个缺陷的另一面。

模型读的是像素，不是你的脸。换光、换角度、换裁切，或者只是重新压缩一下文件，你下颌和眼下的阴影就重新画了一遍——而 App 把这些阴影当成你的骨相来打分。于是数字就飘。这种飘，是 App 在悄悄承认：它量的是图像，不是你。

但大多数评测都漏掉了这一点：哪怕 PinkMirror 每次都返回一模一样的数字，它还是不准。一台永远多读 5 公斤的体重秤，完美地稳定，也完美地错。一致性意味着一台仪器能重复自己。有效性意味着它量的是它声称要量的那个东西。PinkMirror 的分数从没拿真人对真脸的评分校准过（Langlois et al., 2000 表明这种共识是存在、可拿来校准的——只是这个 App 没去校准）。一个锁死的 8 分不会更真。只是一个更自信的默认值。

关掉页面之前，换一个更善意的视角

如果一个高分让你起疑，或者一个低分刺到了你，请记住这一点：对于你真正在问的问题，测脸 App 是用错了的仪器。「PinkMirror 准不准」底下藏着的问题，通常是我够不够好看？——而没有任何一台平面照片几何引擎能回答它，无论往哪个方向。

真正能撬动你「落地效果」的那几样东西，都是可控的、也都不性感：照片里更好的光线和角度、修饰打理、体态、随时间改善的身体成分，以及一种放松、在场的表情。这些都不需要一个分数。如果这个 App 的循环喂给你的焦虑多过帮助，那么彻底从测脸工具里退出来，是个完全正当的选择——见如何戒掉 looksmaxxing 论坛。真正帮到你的不是分数。是一份对你第一印象的诚实解读，外加一份你真能去做的短清单。

写在最后

PinkMirror 作为吸引力的度量并不准确。它给一张静态照片的几何打分，输出偏向讨喜的 8 到 10 分——用户反映它几乎给所有人都这么打，连被遮挡的脸和非人脸都不例外——而且从不拿真人对你的反应来校准。虚高的数字和同张照片的飘动，就是它可信度崩塌的地方：它读的是像素，不是感知。

真实吸引力在大约 100 毫秒内、由一张动态的脸形成（Willis & Todorov, 2006），而一张静态自拍几乎装不下这一切。如果你想要一份反映被感知第一印象、而不是讨喜几何评分的解读，跑一遍感知吸引力测试，看看为什么 AI 测不出吸引力，或者在我们的诚实替代方案指南里横向对比一下。分数从来不是重点。你真正怎么落地，才是。