前任财政司司长网志

从比赛中学习

上星期，我谈到DARPA机械人挑战赛。从机械人的表现，我们不难看到多用途仿人机械人的技术，仍在起步阶段，即使获胜的机械人，与实际应用，仍有很大的距离。

港大的机械人虽然在比赛中未能够完成相关工作，但他们没有失败。用爱迪生的说法，港大的硏究团队发现了多一个未能成功的方法，甚至发现了多一个从未有人想像过的情景，须要进一步研究。累积更多这些「发现」，多用途仿人机械人的技术，才可以不断得到提升。学术界遇到一些未被解破的难题，举行比赛邀请志同道合者，透过竞争和交流，一同寻求答案，并不罕见。DARPA和Amazon挑战赛只是较近期的例子。

数学家John Nash在博弈理论方面，有杰出贡献，他上月不幸在车祸中丧生。曾钰成主席在六月初写了两篇关于「囚徒困境」的文章，讨论Nash Equilibrium（纳殊平衡）。在单次「囚徒困境」之中，最佳策略显然易见。但在重复「囚徒困境」中，最佳策略就复杂得多。密歇根州大学政治科学与公共政策教授Robert Axelrod在80年代初，举办了一个比赛，参加者须为重复「囚徒困境」游戏设计策略，并把策略编写成电脑程式，透过电脑模拟，与其余每个参赛程式较量，总累积得分最高者得胜。

第一年得胜的，是非常简单的策略Tit For Tat（TFT），只有四行BASIC程式码。第二年，各参加者优化了自己的策略，但仍然是TFT获胜。TFT会在首轮「囚徒困境」采用「合作」，以后每一轮采用对手上一轮的策略，就是这麽简单。换句话说，如果对手第一轮也「合作」，大家双赢得分。TFT在第二轮也会继续「合作」。如果对手第二轮改为「背叛」，谋求独取高分，TFT在第二轮吃亏后，第三轮也「背叛」，实行「累斗累」，直到对手愿意再次「合作」后，TFT 也随即在下一轮回恢「合作」策略。

Axelrod 教授发现TFT及其他表现较佳的策略，不会视击倒对手为目标，而是要自己取得高分，所以都是以「合作」为主，希望透过双赢得分，而不是「背叛」对手独取高分，因为被背叛的对手总会反撃，最终两败俱伤。事实上，TFT策略在一场对赛中取得的分数，永远不会高于对手，但与所有对手对赛后的总分却是全场最高的。

表现较佳的策略，也不会视释出善意为示弱的表现，不怕自己率先「合作」会吃亏，当对手以回复「合作」，也不会继续「背叛」，占对手便宜。所以，TFT在第一轮会先「合作」，当对手回到「合作」时，TFT在下一轮也会以「合作」回应，鼓励对手继续「合作」。事实上，如遇上采用TFT的对手，倾向「合作」的策略，往往得分较高。

昨天早上起床，我发现Facebook竟然被《大时代》「洗板」，不得不佩服韦家辉，二十多年前的作品，虽然经过无数次重播，至今仍然叫好叫座，还不断被引用来反映最新的社会状况；虽然观众对结局早已滚瓜烂熟，没有悬念，但展博、悭妹和纪文的爱情和友情，仍然扣人心弦、赚人热泪。《大时代》在星期五晚大结局，相信不少朋友终于可以「有觉好瞓」。

另一边厢，无论政改表决结果如何，香港政治的环境都会进入大时代，可能有些朋友下星期会「无觉好瞓」。虽然我对表决结果早已心中有数，但此刻心里仍有点忐忑。从去年五月起，我在不下十篇网志都有谈及政改这个课题，因为我深相五百万人普选行政长官，肯定较一千二百人组成的选委会，更符合任何民主标准，是香港民主进程的一大步。

现在我再説什么可能也是徒然，但我仍然相信在追求民主的过程中，面对市民间的分歧，我们不能单靠「斗人多」，更不能「斗大力」，必须衡量彼此的得失，有时须要放下自己心中的首选，以换取大多数人能够接受的共识。这往往是艰难的抉择，需要很大的勇气，但却是对自己和下一代必要的承担。试想想，如果今天你不就我，明天我又不撑你，结果只会「累斗累」，永远不会有由绝大多数市民达成的共识，在民主路上永远不能迈步向前，即使在经济民生方面，也不一定能够有所寸进。

在表决后，也许有人会庆祝胜利，也许有人会灰心发愁。我希望大家激情过后，细心想想，往后的路如何走下去，也许Axelrod的比赛会对大家有些启发。我期待《大时代》再重播时，会有不一样的结局。（我当然不是期待丁蟹会战胜展博！）

2015年6月14日