| 川's profileEGGY的蛋壳PhotosBlogLists | Help |
|
EGGY的蛋壳March 20 ZT(原来“饭碗”是可贵的) 除了财经电视频道里经常坐在红沙发上斜着身子接受主持人访问的大佬们外,我在现实生活中很少见到至少口头上珍惜自己工作的人。比如一个供电局的财会在提到自己工作时很不以为然地说:很无聊的,饭碗而已。这个听上去漫不经心的“饭碗”究竟有多重要呢?从被裁员后的人身上可见一斑。一个最近被裁员的网络公司事业发展部前员工对我说:他一改原先早上闹钟怎么闹都不醒的常态,如今就连周末都是早上七点准时醒来,虽然对他来说如今天天都是周末。醒来干嘛呢?上上网,到处贴贴简历,请朋友们推荐职位,愁一愁下个月的网费怎么付……无非是寻找饭碗及为失去饭碗而发愁。看来拥有“饭碗”时的幸福感虽然很有限,但失去“饭碗”后的痛苦却比想象中大百倍。
对一般职员来讲,“饭碗”带来的是温饱。一般处在温饱状态的人不会对温饱感恩戴德,而是想得到更高远的东西:比如奢侈的住宅和物品,遥不可及的志向和欲望,一呼百应的虚荣心和号召力。这就是为何在餐馆每张桌子上,谈论的话题都比较大的原因。在一次记者同行的聚会上,大家谈的是中国新闻业的深度市场化改革议题,座位上的每一个人都很像宣传部的官员,仿佛已经制定好了未来的中国新闻业格局;一个MBA聚会上,话题是中国A股市场及创业板的未来,哪怕只投了2万人民币的散户股民也在发表中国股指走向的宏观概论;而我遇到过一个25岁初入房地产市场做销售的小伙子,他热衷的话题是土地买卖,他有个关系,手里有几百亩地,问我能“消化”多少亩。当然,比起谈及每天如出一辙的工作琐事,这样的话题肯定更刺激,更戏剧性,同时,也让日常工作显得更黯淡。试想一个刚刚定下中国新闻业改革走势的人,怎么能甘愿再回报社值夜班,只为查出稿件中的“的”字是否被写成了“得”字呢?这个时候,谁还会想到每月养家糊口的“饭碗”所得靠的正是把“的”改成“得”,而不是靠制定中国新闻格局呢? 与这些更热衷于寻求纸上谈兵快感的人相比,擅于从本职工作中发掘快乐的人幸福感会更高,而且更容易留住手中的“饭碗”。比如我见过的一个快递员,在交给他一个快递时,他兴奋地说了一句:“今天运气怎么这么好,连着接了两个大单子。”那个快件跨了上海的三个区,算是单价比较高的一个吧,竟然让他这么快乐。他的表现让我想起一个报社副主编的截然相反的态度。晚上在办公室签大样时,副主编对一个朋友说:“现在外面资金那么多,随便拉一个就好单干了,谁还在这里干这个?”当然了,那是好几年前市道大好满大街是钱来追人的年景。现在不同了,估计他在签大样的时候会携带一些惶恐与珍惜相伴的情感,而不是往日的不屑。万一报社不再需要那么多副主编了呢?带着这份惶恐,他工作一定更积极,说不定还更快乐些。 PS:推荐一下ftchinese里的《朝九晚五》专栏。另外,用google reader订阅一下,看起来还是比较方便的。 July 23 准备进社会,准备去杭州 7月10日,我报道了;7月11日,我正式入职了。此后我去了怀柔,两天拓展,很高兴认识了一批可爱的行者,玩了上次拓展没有玩到的很多项目,高空项目再次害怕,DV里有我抖腿的镜头,但我还是能勇敢的纵身一跃,表扬一下自己;再后,住在昌平的明苑,结识了可爱的第一组学员,认识了来自各地的同事们,有了你们,我们才能成功的完成诗歌朗诵《再别康桥》(方言版)。十几天的时间没有网络,好像也没有那么无聊,可能因为几乎每晚必去的杀人。说到底,我到昌平,其实是来学习的,有些课我还是听得很认真的,老了,没有兴趣的东西,不像小时候那样听得进去了。
7月22日,我回到北京市区,去中关村买电脑。我很讨厌中关村,因为那些比我还要没水平的低级销售,也因为那些我一辈子也赶不上的高级销售。大学不是小社会,中关村才是,因为大学里,利益毕竟是少数,尤其是金钱利益,所以,大学生们也不会动那些歪脑筋,坦诚的做人,是很多人的选择。昨天买电脑是一个奇遇,联系了熟人,然而进了隔壁的门,于是导购扮演了我的熟人,给了我一个我很满意的价格,不因为她真的是我的熟人,而只是因为她没有选择宰我,而是选择了宰她的邻居,我的熟人。然而,我惊异于她的老练,她报出了一个我会把她当成是我的熟人的价格。牛,我佩服!然而也可能是因为她心虚,她怕因为她的贪心导致我当场识破她,赔了夫人又折兵。总之,我没有选择我本来的最优策略,但却并没有什么损失,或许这个就叫做运气。
这几天,我选择的交通工具有taxi和十号线。对于前者,我想说,单双号了,咋还是这么堵呢。对于后者,我想说,新车新站新气象,不错,除了一点点手机信号都没有。
流水账结束,对不起,能上网了,我有点兴奋。
25号,我要去杭州了,开始半年在江南的日子,我很期待!大家可以报名,我给大家带特产! May 30 上海印象之满记甜品上海第一篇居然是吃的,我真是无语了,我真是没白属我这个属相。好了,言归正传。 第一次发现满记是在城隍庙,正当被满眼的DQ,STARBUCKS晃的头晕的时候,发现了这个黑色的小小店面。话说我到上海了就是为了满记和许留山(后者还是跟我没有缘分啊,一开始使劲找没找着,正当我最后一天从美罗城的斗牛士吃撑了出来时,小胡同学不经意的指着一家店说,下次你来可以去那。我一看,无比惋惜的大叫,许留山阿,遭鄙视,唉。) 满记的店面比较紧凑,但装修的还是比较舒服的,适合情侣,都是两人一桌的,环境很雅致。当然,我这种土人,只要东西好吃,完全不在意环境的,想当年南门外的湘水湘情,不知道去了多少次。坐下来,点了一个姜汁撞奶,一个芒果班戟,居然被告知姜汁撞奶没有了,郁闷,无奈之下,点了个炖木瓜,后来证明也不错,哈哈。师兄为了减肥,点了一个芒果冰沙,呵呵,都便宜了我了。 芒果班戟是我的大爱,软软的表皮,一咬下去满嘴的奶油和芒果,奶油入口即化,果肉肥厚多汁,除了吃相不太雅观,其它我真是太满意了,我就爱甜品。相比之下,木瓜就要一般一点了,主要是,我觉得我也会做,没什么技术含量。 有点小遗憾,没有照照片,找几张网上的贴一贴。
May 29 facebook上的温宝宝温宝宝在facebook上的主页
我发现,原来南开出好总理呢。
大家支持我们的好总理哈,争取早日PK过奥巴马和施瓦辛格(原来这个肌肉男还有这么高的支持率呢,美国人真是有英雄主义情节啊)。
March 05 思念听到这几句歌词的时候,我的眼旁有一点点湿润,我好像没有滴眼药水呢!
歌词如下:
你累不累都这些年 身体也不如从前 我走最前你在后面 就怕转角不见 我们之间无所不谈 就是没说过我爱你 也许这次当你听见 你会笑了又皱眉 当时间 往今天再倾斜 难道因为老爸来了,我想老妈了…… 我真的有点奇怪哎! 话说昨天听到一位GG,跟我抱怨挣得太少(当然,跟我比起来不是一个数量级的,呵呵),说什么一年在上海市中心买不了一个厕所之类的。我一开始不以为然,因为总有些人,会喜欢在比他穷的人面前哭穷。正当我漫不经心的听着,后面突然闷闷的来一句,我想把我爸妈接来跟我一起住! 我有点感动了,于是不想再继续谈话了,我开始想放纵自己沉湎于思念及幻想中。思念老爸老妈,幻想把老爸老妈接来跟我一起住在北京! 想到今天,老爸来了,却发现,思念愈发深了,尤其在我发现我大条的把老妈带来的香肠放在我打包的饭菜中,一起施舍给看上去饿得要死的两位大妈后! 我很郁闷,有点不能自拔了,遂作此文! 收拾情绪,去写论文了…… February 24 (zz)宜昌的春节 -许知远在 宜昌,我第一次看到了孔明灯。薄薄的红纸,被竹篦支架构造成一个长方体,底部的开口的支架上是蜡烛台,点燃后,热气充盈灯笼内,它开始上升。我一直想知道,在蜡烛燃尽前,它到底能飞多高。 2月6日的夜晚,宜昌的江边公园到处是不断飞起的孔明灯,和以各种形态绚烂的烟花。这是除夕夜,我们在江边闲逛。正是枯水期,三分之二的河道变成了浅滩,剩下的三分之一是似乎静止不动、黑逡逡的长江水。一艘游船停在那里休憩,偶尔的灯亮来自于一个夜晚捕鱼的老汉,它戴着矿工一样的帽子,头顶上的射灯不知是否会将某条孤独而好奇的鱼引入死境。 我兴致勃勃的看着烟花、灯火、兴奋的人群。两个小时前,我抵达这座城市。对于它,我唯一的信息是三峡大坝修建于此。在一本关于辛亥革命的著作中,我还读到了这样的句子,“宜昌市并不是一个出产丰富的、工业的、拥有大商行的地方”。它来自于1912年的海关贸易报告,那是中国历史的转折时刻,顺长江而下的另一座湖北城市武汉是这场风暴的中心。宜昌当然不能与武汉相比,甚至没有沙市的活力,后者因工业正在兴起。它的优势来自地理,长江三峡以上的地区民船运来的货物,在此交给轮船。著名的三峡也由此开始,由此而上,宽阔的长江在山峰间收缩成窄窄的河道,急速奔腾,一个接一个的浅滩、暗礁或明礁等着船只的搁浅与颠覆……而在不到200公里的长度内,江水与沿岸陡峭的山峰,交相辉映,让几千年来的中国诗人对此沉醉不已。 我和两位朋友离开了江边,在酒吧、咖啡厅、舞池、K歌房云集的解放电影院周围闲逛。除夕之夜,却满街都是年轻人。大概和我们一样,对这传统节日心生烦闷。和一大家子人吃吃喝喝、打麻将、相互拜年,这样的日子往往要持续好几天,单调而乏味。新一代城市青年,不再饱受生活的磨难,没必要从家庭里寻找力量与安慰,并给予对应的回馈。他们在一种四处充满机会与诱惑的环境中成长,他们往往是个家庭里的少数几个孩子之一,有时是唯一的,各种爱向他们涌来。即使当成年之后,他们仍坦然、任性的将自身的困境分解给别人,希望家庭为他们找工作、买房子。他们认定自由是想当然的,而义务则是陌生的词汇。 这座城市最时尚的酒吧叫糖果。夜晚10点时,我们穿过保安的冷漠眼神和安检们,进入了喧闹、迷离的气氛。一个袒露着柔软腰部的姑娘正在吧台中间的小空间里领舞,我喜欢她细长的眼睛和故作的冷漠,那画得过浓的眼眉,在昏暗、漂移不定的灯光下,竟也恰到好处。“其实,你就是喜欢夜店的女孩”,朋友嘲笑我说。是啊,“知性”与“气质”,怎敌那赤裸裸的放浪与妖冶。 我一直盯着那跳舞的姑娘的腰,看看是她先疲倦,还是我的眼睛先厌倦。她头顶上悬挂着电视机,播放的竟是雪灾的新闻,国家主席正在与矿工们交谈,安抚与鼓舞起他们疲倦的身心,以便为中国各地生产出足够的电煤。电子音乐的声音太大了、节奏感太强了,我听不见画面里的声音,只看到他们在张嘴。 我突然想起了广州火车站滞留的人群。这里的年轻人不想回家,而他们则无奈的等待着回家。我搞不清,我之前几天对于雪灾的忧虑,是否真诚,它迅速被这微小的诱惑中断了。处于湖北西部的宜昌市算是灾区的边缘,它的几个县也遇了灾,本地报纸上刊登了市领导的慰问活动。中国看起来那么脆弱,一场大雪使半个国家陷入了瘫痪,因为人口基数太大,它轻轻松松的使受灾人口达到1亿。但是,中国又足够大,灾难都可以淹没在浩瀚的空间距离和人们的忍耐力上。 这是除夕夜,如果你想坐下来喝酒,顺便打量店里的漂亮姑娘,穿着皮裙的服务员告诉我,最低消费400元,也就是说,我必须要喝下两打啤酒,或是一整瓶芝华士。但是年轻人仍在涌入,这城市比我想象得富有得多。 大年初一的中午,我们去看葛洲坝,它是宜昌再度新生的标志,它不再是长江沿岸不够引人瞩目的城市,而是一座水利之都,代表着滚滚的能源。这个工程因为出现小学课本里,而一直印在我脑海里。我记不清文章的标题与内容了,在互联网上我没查到原文,却意外的发现了《<葛洲坝工地夜景>说课》的文章,应来自小学教师的教学参考书。 “我国当时最大的水电站——葛洲坝水电站建设工地的夜景,反映了社会主义建设者们火一样的劳动热情,歌颂了劳动人民的巨大力量和伟大贡献”,文章这样开头,接着写道,“全文以‘我’的所见所 闻和所想,表达了‘劳动人民创造了人类文明’这一历史唯物主义观点”。 我的情绪一下子回到了小学课堂,我们都对人生与世界充满好奇、一无所知。一种世界观与美学观念就那样不费力的进入我们的系统。一切都是可以被简化、有明确指向的,文章有“中心思想”的,值得赞美的是劳动人民,如果你要形容夜色的美,可以说像“仙女脖子上戴着的项链”,如果你在赞美谁勤劳,那么他就像是“辛勤的小蜜蜂”……日后,我不知花了多长时间在淡化这少年时的影响。 20块钱一张门票,我随着稀稀落落的人群参观这留在少年印记的大坝。在褪色的、各地方千篇一律的宣传栏里,我看到从共和国三代领导人的照片与题词。毛泽东的题词“赞成修建此坝”,保持着一贯的龙飞凤舞。那是1970年底,中国亢奋而混乱。修建水坝,就像一次次政治运动一样,曾是1949年之后建立的新国家展现自己力量的方式。 修建水坝曾是一个时代的风潮,它是国家力量的象征。富兰克林•罗斯福1935年9月不是在胡佛大坝感叹说:“我来了,我看了,我服了。”它也是一个失落民族重新找会自信的方式,尼赫鲁在1954年看到楠加尔运河及巴克拉大坝时抑制不住的豪情:“这是多么壮观、多么宏伟的工程啊!只有那具有信念和勇气的人民才能承担如此的工程!……象征着这个国家的正在迈向力量、决断和勇气的时代……” 过去五十年的中国是世界上最热爱修筑大坝的国家,1949年时,它15米高以上的‘大型水坝’有8座,而1990年左右,已增至19000座,遥遥领先于第二名美国的5500座。 葛洲坝的建设谈不上顺利,一直到1989年它才最后竣工。我的参观只是大坝的一角。供通航的闸口正紧闭,向闸口内望去,有一种意外晕眩感。它那么深,混凝土的墙壁如此笔直,冰冷凝重得让人压迫,其下部绿色的青苔是经年水泡的痕迹,不知胡佛水坝更是何种感觉。发电区禁止游人参观,我远远的望去,宽阔的水泥路似乎通向遥不及的目的。把拦截住的湖水平静,一些白色的塑料饭盒在水面飘浮。被刷成黄色的巨大机器,不知何用。这道由水泥、钢筋、铁板构造的庞然大物,就这样看似毫不费力的截住了长江——中国最令人生畏的河流,也是中国延续的文明的象征。 但即使在这个反自然的人造建筑之上,我还是发现了一小块绿地。在二号船闸边竟有一小块土地,大越150平米,种满了柑桔树,和我叫不上名字的蔬菜。“那承包给别人了”,一位快速经过我身边的工作人员回答了我的不解,她明确的说,如果我有兴趣承包,可以找接待室人的具体问。我们可以在任何可以开垦的地方开垦,可能播种的地方播种。这种感觉在接下来的旅程中会越来越明显。 我不知它在发电上是否产生最初期待的效能。在某种意义上,它是那个更壮阔的三峡大坝的预演。而这个惊世工程在距离葛洲坝上游大约38公里。 是小王用他那辆年头过长的长安面包车载我们去的。一开始,我们不信任他,自我们出现在葛洲坝时,他就一直在劝说我们乘他的车去参观三峡大坝。官方的旅行社是知道如何对待这些个体竞争者,他们的窗口贴上了本地新闻报道对于游客被“黑导游”欺骗的报道。 但是官方旅行社的态度傲慢,行程时间僵化。小王最终成了我们的导游,150元,他是司机兼导游,然后得意把一个通行证晃给我们看——有了它,你可以行驶在三峡工程的专用公路上。 事实上,我庆幸碰上了他。他给我讲解经过的桥梁和隧道,那条河流叫乐天,因为白居易曾在次露宿过,还有那条延伸山沟,那是备战备荒年代的兵工厂。我们还路过了中华鲟的养殖基地。 “每年夏秋,中华鲟聚集于长江口,溯江而上至长江上游金沙江一带产卵,和幼鲟顺江而下,到东海,黄海的深水中成长。葛洲坝修建后,它们上不去了,就拼命装大坝,结果死伤很多,科学家们不得不他们都捞起来,放在那里人工养殖。”他说。 这是旅行上最触动我的插曲。一连几天,我都在想着中华鲟的绝望。它或是水坝工程危害的生物中最著名的一位。据说它是真正的活化石式的动物,其祖先足以上溯到1亿年前。多年之前,我电视新闻中见过它的模样,四位捕到它的渔民正抬着它,重新放生。它看起来足有三米长,丑陋而威严,身躯庞大而骄傲。几天后,我的一位参观过养殖基地的朋友对我说,这些昔日江中王者,像是被养猪一样饲养者,通体是饲料的脏乱。 小王出生于1970年,几乎是葛洲坝的同龄人。他来自一个真正的水利之家。在武汉学习水利的父母亲,把青春奉献给了河南的丹江水库,这个水库如今是南水北调工程的枢纽。他们在70年来到宜昌,开始为修建葛洲坝工作。小王和两位哥哥的童年是在大坝的工地上度过的,而当他们成年后,三峡大坝则是他们人生的机会。1994年—1997年,是三峡大坝最繁荣的时期。“有十万人在工地上”,小王兴高采烈的回忆起来,“山西的,新疆,四川的,东北的,哪里人都有,他们都知道这里有几千亿的大工程,都希望承包工程,发大财。”发财的人仅仅是少数,那些经过层层转包的工程,经常让最后一环真正干活的人吃了大亏。 那真是个可以想象的火热和混乱的年月,那么多年轻人满怀着欲望,聚集在此。小王记得工资不高,为了能去城里喝酒找消遣,他还会朋友半夜去把工地上的电缆作为铜线卖了,把水泥卖给本地的农民盖房子。 如今,大坝已近完工,而且我们到来这一天正是大年初一。坝区寂静无人,空阔萧索。小王指着一片荒地说,这将建成一个高尔夫球场,而当初那些供管理者居住的小区,将改造成度假村。他们希望,旅游者将源源不断的涌来,参加这人造的奇景。 太平溪镇是大坝边的一小座小镇,它的斜对岸是著名的三斗坪。小镇被包裹锦进白色的瓷砖里,它带有一个新镇的崭新,却又有着不属于年轻的萧条。镇机关背后一座丘陵,而面对着长江,正符合中国的风水,背山对水,一辆车正停在门口。街上满地爆竹的残骸,人们聚在打牌,除了我们没有别的游客到来。 我站在江边广场,身后一块巨大的花岗岩,它被称作“太平石”,是为了纪念那条横跨整个江面的巨大水坝而立,一位本地现代墨客为此撰写了“太平石赋”,提到了盘古、女娲与大禹——中国历史的神话源头,都与水、石相关。 正对着我的是18根灰色、光滑的混凝土柱子笔直、静默的矗立在江水中,它们是供等待过闸的轮船栓锚所用。江面宽阔,江水清澈、静止不动,下午3点,阳光依旧灿烂,打在水面上,泛起耀眼的金光。江对面的山峰若隐若现,山前则是拥挤在雾中的高楼,像是海市蜃楼,那是从下游迁来的孜归县城。 我第一次看到了三峡大坝。水坝像是一条悠长的水泥走廊,没有期待的般壮阔,却可能适合傍晚时散步。被它拦截住的江水,正汇聚成平静的大湖。即使再讨厌陈词滥调的人,也会不由自主地念出毛泽东的诗句“高峡出平湖”。 过去的15年中,它像是我成长的一部分,即使我从未关注过,但关于它的新闻却从未停止进入我的视野。一开始,我记得在全国人大上的那接近三分之一代表的质疑态度,那是1992年的春天,中国社会仍笼罩在3年前流血事件的阴影中,邓小平的南巡讲话的热情还未来得及再次整个社会。这项在将近一个世纪里不断被讨论、又不断被搁质的工程的被启动,象征了受困的中国政府对自身能力的坚定信心;而在肃杀的政治空气中,仍有177票反对,664票弃权,25人“忘记”按表决器,了他们对此的深刻质疑。 然后是1997年的11月,大江截流成功。这是个惊心选择的年份,香港在4个月前回归中国,从而结束了中国150年历史以来最后的领土屈辱。自1989年以来,中国政府在一次又一次的危机前疲于应对,外交上的孤立、权力交接、财政的匮乏、经济过热、意识形态的破产……但到1997年结束时,似乎一切都被化解了。邓小平在2月的去世,没给社会带来混乱,权力的真空已被填补,在9月召开中共十五大时,新一代领导人的权力已经稳固,而在2000多名代表中,再没有曾经参加过长征的红军了,在某种意义上,20世纪的中国革命史正在完结。 1997年之后的中国,像是一台轰鸣滚动的滚筒洗衣机。她把更多的人群、物质、资金卷入其中,似乎没什么力量能阻挡住她的速度。所有对增加她的转速无用的东西,都被抛离轨道。三峡大坝的移民问题此刻变得突出起来,它是一小群新闻记者、环境专家、人权组织热衷的话题。但是,这些声音尖锐,却很轻易的被淹没在中国绚目而嘈杂的经济奇迹中了。一种无力感开始弥漫,100万的移民的离乡背景的个人命运,被江水淹没的历史遗迹,在大坝即将产生的发电量、创造的经济效益面前,似乎不足为道。 过去10年中,中国社会的一个越来越显著的趋向是,严肃的公共讨论越来越稀缺。不断增加的网络页面、电视台、报纸杂志,带来了表面上的信息繁荣,但实际上,人们的头脑面临着疲倦感、封闭感的双重压迫。娱乐与刺激似乎变成了最后的选择。关于三峡大坝的质疑,最权威的描述仍来自戴晴和卢跃刚,他们的情怀与方法,属于1980年代的中国。冷静、怀疑的独立性声音,在公共生活的各方面,都可怕的缺席了。几位年轻一代的新闻记者,曾经用摄影机镜头、文字记录过三峡移民,但都未能引起足够的反应。 现在,我看到它画卷般的美丽和平静,却不知道其下隐含的更多情绪,旅行刚刚开始。(全文完) 评述:大清早起来看到这篇文章,不由得有一些伤感。文中描述的宜昌是一个离我家也不算太远的城市,景象是何其的相似。看似不发达的经济下,掩盖的是“洒脱”的消费。城市中最发达的产业莫过于第三产业,饭馆的价格与北京不相上下,然而这次回家也得等待叫号了;茶楼、K 歌房生意异常兴隆;网吧里经常有彻夜不归的少年。我并不是一个工作狂,但是如果日常工作就是娱乐,未免有点让人接受不了。突然想起这次回家与小时候好友的聚会, 吃毕喝毕,其中有两口子居然分道扬镳,一个去舞厅,一个去茶楼……我多嘴了一句:”你俩孩子谁带呢?“ 得到的回答是,有爸妈呢。日子过得不可谓不惬意。然而,这种日子,我可能有点过不来了。 关于文中提到的另外一个方面-独立性声音。我承认我是个自私的人,没有对看似“事不关己”的事情有足够的关心,然而,最近看到的一句话让我有点警醒: 当初黑砖窑里没有我,我没说话。宝马没撞我,所以我也不说话。可是银行卡我们都在用啊,难道也不关心?其实,社会上没有什么事情是与我们真正无关的,因为我们都在这个社会里生活。 先写这么多吧,还有点感想,待续……
January 06 (zz)不要把所有的鸡蛋放在一个篮子里 最大熵模型[我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险。在信息处理中,这个原理同样适用。在数学上,这个原理称为最大熵原理(the maximum entropy principle)。这是一个非常有意思的题目,但是把它讲清楚要用两个系列的篇幅。]
前段时间,Google 中国研究院的刘骏总监谈到在网络搜索排名中,用到的信息有上百种。更普遍地讲,在自然语言处理中,我们常常知道各种各样的但是又不完全确定的信息,我们需要用一个统一的模型将这些信息综合起来。如何综合得好,是一门很大的学问。 让我们看一个拼音转汉字的简单的例子。假如输入的拼音是"wang-xiao-bo",利用语言模型,根据有限的上下文(比如前两个词),我们能给出两个最常见的名字“王小波”和“王晓波”。至于要唯一确定是哪个名字就难了,即使利用较长的上下文也做不到。当然,我们知道如果通篇文章是介绍文学的,作家王小波的可能性就较大;而在讨论两岸关系时,台湾学者王晓波的可能性会较大。在上面的例子中,我们只需要综合两类不同的信息,即主题信息和上下文信息。虽然有不少凑合的办法,比如:分成成千上万种的不同的主题单独处理,或者对每种信息的作用加权平均等等,但都不能准确而圆满地解决问题,这样好比以前我们谈到的行星运动模型中的小圆套大圆打补丁的方法。在很多应用中,我们需要综合几十甚至上百种不同的信息,这种小圆套大圆的方法显然行不通。 数学上最漂亮的办法是最大熵(maximum entropy)模型,它相当于行星运动的椭圆模型。“最大熵”这个名词听起来很深奥,但是它的原理很简单,我们每天都在用。说白了,就是要保留全部的不确定性,将风险降到最小。让我们来看一个实际例子。 有一次,我去 AT&T 实验室作关于最大熵模型的报告,我带去了一个色子。我问听众“每个面朝上的概率分别是多少”,所有人都说是等概率,即各点的概率均为1/6。这种猜测当然是对的。我问听众们为什么,得到的回答是一致的:对这个“一无所知”的色子,假定它每一个朝上概率均等是最安全的做法。(你不应该主观假设它象韦小宝的色子一样灌了铅。)从投资的角度看,就是风险最小的做法。从信息论的角度讲,就是保留了最大的不确定性,也就是说让熵达到最大。接着,我又告诉听众,我的这个色子被我特殊处理过,已知四点朝上的概率是三分之一,在这种情况下,每个面朝上的概率是多少?这次,大部分人认为除去四点的概率是 1/3,其余的均是 2/15,也就是说已知的条件(四点概率为 1/3)必须满足,而对其余各点的概率因为仍然无从知道,因此只好认为它们均等。注意,在猜测这两种不同情况下的概率分布时,大家都没有添加任何主观的假设,诸如四点的反面一定是三点等等。(事实上,有的色子四点反面不是三点而是一点。)这种基于直觉的猜测之所以准确,是因为它恰好符合了最大熵原理。 最大熵原理指出,当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。(不做主观假设这点很重要。)在这种情况下,概率分布最均匀,预测的风险最小。因为这时概率分布的信息熵最大,所以人们称这种模型叫“最大熵模型”。我们常说,不要把所有的鸡蛋放在一个篮子里,其实就是最大熵原理的一个朴素的说法,因为当我们遇到不确定性时,就要保留各种可能性。 回到我们刚才谈到的拼音转汉字的例子,我们已知两种信息,第一,根据语言模型,wang-xiao-bo 可以被转换成王晓波和王小波;第二,根据主题,王小波是作家,《黄金时代》的作者等等,而王晓波是台湾研究两岸关系的学者。因此,我们就可以建立一个最大熵模型,同时满足这两种信息。现在的问题是,这样一个模型是否存在。匈牙利著名数学家、信息论最高奖香农奖得主希萨(Csiszar)证明,对任何一组不自相矛盾的信息,这个最大熵模型不仅存在,而且是唯一的。而且它们都有同一个非常简单的形式 -- 指数函数。下面公式是根据上下文(前两个词)和主题预测下一个词的最大熵模型,其中 w3 是要预测的词(王晓波或者王小波)w1 和 w2 是它的前两个字(比如说它们分别是“出版”,和“”),也就是其上下文的一个大致估计,subject 表示主题。 ![]() 我们看到,在上面的公式中,有几个参数 lambda 和 Z ,他们需要通过观测数据训练出来。 最大熵模型在形式上是最漂亮的统计模型,而在实现上是最复杂的模型之一。我们在将下一个系列中介绍如何训练最大熵模型的诸多参数,以及最大熵模型在自然语言处理和金融方面很多有趣的应用。 我们上次谈到用最大熵模型可以将各种信息综合在一起。我们留下一个问题没有回答,就是如何构造最大熵模型。我们已经所有的最大熵模型都是指数函数的形式,现在只需要确定指数函数的参数就可以了,这个过程称为模型的训练。 最原始的最大熵模型的训练方法是一种称为通用迭代算法 GIS(generalized iterative scaling) 的迭代 算法。GIS 的原理并不复杂,大致可以概括为以下几个步骤: 1. 假定第零次迭代的初始模型为等概率的均匀分布。 2. 用第 N 次迭代的模型来估算每种信息特征在训练数据中的分布,如果超过了实际的,就把相应的模型参数变小;否则,将它们便大。 3. 重复步骤 2 直到收敛。 GIS 最早是由 Darroch 和 Ratcliff 在七十年代提出的。但是,这两人没有能对这种算法的物理含义进行很好地解释。后来是由数学家希萨(Csiszar)解释清楚的,因此,人们在谈到这个算法时,总是同时引用 Darroch 和Ratcliff 以及希萨的两篇论文。GIS 算法每次迭代的时间都很长,需要迭代很多次才能收敛,而且不太稳定,即使在 64 位计算机上都会出现溢出。因此,在实际应用中很少有人真正使用 GIS。大家只是通过它来了解最大熵模型的算法。 八十年代,很有天才的孪生兄弟的达拉皮垂(Della Pietra)在 IBM 对 GIS 算法进行了两方面的改进,提出了改进迭代算法 IIS(improved iterative scaling)。这使得最大熵模型的训练时间缩短了一到两个数量级。这样最大熵模型才有可能变得实用。即使如此,在当时也只有 IBM 有条件是用最大熵模型。 由于最大熵模型在数学上十分完美,对科学家们有很大的诱惑力,因此不少研究者试图把自己的问题用一个类似最大熵的近似模型去套。谁知这一近似,最大熵模型就变得不完美了,结果可想而知,比打补丁的凑合的方法也好不了多少。于是,不少热心人又放弃了这种方法。第一个在实际信息处理应用中验证了最大熵模型的优势的,是宾夕法尼亚大学马库斯的另一个高徒原 IBM 现微软的研究员拉纳帕提(Adwait Ratnaparkhi)。拉纳帕提的聪明之处在于他没有对最大熵模型进行近似,而是找到了几个最适合用最大熵模型、而计算量相对不太大的自然语言处理问题,比如词性标注和句法分析。拉纳帕提成功地将上下文信息、词性(名词、动词和形容词等)、句子成分(主谓宾)通过最大熵模型结合起来,做出了当时世界上最好的词性标识系统和句法分析器。拉纳帕提的论文发表后让人们耳目一新。拉纳帕提的词性标注系统,至今仍然是使用单一方法最好的系统。科学家们从拉纳帕提的成就中,又看到了用最大熵模型解决复杂的文字信息处理的希望。 但是,最大熵模型的计算量仍然是个拦路虎。我在学校时花了很长时间考虑如何简化最大熵模型的计算量。终于有一天,我对我的导师说,我发现一种数学变换,可以将大部分最大熵模型的训练时间在 IIS 的基础上减少两个数量级。我在黑板上推导了一个多小时,他没有找出我的推导中的任何破绽,接着他又回去想了两天,然后告诉我我的算法是对的。从此,我们就建造了一些很大的最大熵模型。这些模型比修修补补的凑合的方法好不少。即使在我找到了快速训练算法以后,为了训练一个包含上下文信息,主题信息和语法信息的文法模型(language model),我并行使用了 20 台当时最快的 SUN 工作站,仍然计算了三个月。由此可见最大熵模型的复杂的一面。最大熵模型快速算法的实现很复杂,到今天为止,世界上能有效实现这些算法的人也不到一百人。有兴趣实现一个最大熵模型的读者可以阅读我的论文。 最大熵模型,可以说是集简与繁于一体,形式简单,实现复杂。值得一提的是,在Google的很多产品中,比如机器翻译,都直接或间接地用到了最大熵模型。 讲到这里,读者也许会问,当年最早改进最大熵模型算法的达拉皮垂兄弟这些年难道没有做任何事吗?他们在九十年代初贾里尼克离开 IBM 后,也退出了学术界,而到在金融界大显身手。他们两人和很多 IBM 语音识别的同事一同到了一家当时还不大,但现在是世界上最成功对冲基金(hedge fund)公司----文艺复兴技术公司 (Renaissance Technologies)。我们知道,决定股票涨落的因素可能有几十甚至上百种,而最大熵方法恰恰能找到一个同时满足成千上万种不同条件的模型。达拉皮垂兄弟等科学家在那里,用于最大熵模型和其他一些先进的数学工具对股票预测,获得了巨大的成功。从该基金 1988 年创立至今,它的净回报率高达平均每年 34%。也就是说,如果 1988 年你在该基金投入一块钱,今天你能得到 200 块钱。这个业绩,远远超过股神巴菲特的旗舰公司伯克夏哈撒韦(Berkshire Hathaway)。同期,伯克夏哈撒韦的总回报是 16 倍。 值得一提的是,信息处理的很多数学手段,包括隐含马尔可夫模型、子波变换、贝叶斯网络等等,在华尔街多有直接的应用。由此可见,数学模型的作用。 |
|
|||
|
|