1.芬兰旅游指南芬兰旅游

2.芬兰30号气象预报

3.中文的来历

赫尔辛基天气预报30天查询表_赫尔辛基天气预报30天查询

谢义炳

谢义炳(1917.4.3-1995.8.24),湖南新田人,气象学家,中国气象学界的一代宗师和奠基人。

民国三十二年(1943年)获浙江大学硕士学位,1949年获美国芝加哥大学博士学位,1952年加入九三学社,1980年当选为中国科学院学部委员(院士)。

谢义炳一生从事气象教育与科学研究,致力于灾害性天气和气候研究,为中国气象现代化和世界气象科学的发展,做出了巨大贡献。

中文名:谢义炳

国籍:中国

民族:汉族

出生地:湖南省新田县

出生日期:1917年4月3日

逝世日期:1995年8月24日

职业:教育科研工作者

毕业院校:清华大学

主要成就:1980年当选为中国科学院学部委员(院士)

代表作品:《天气学基础》、《天气学》

人物生平

民国六年(1917年)四月三日,谢义炳生于湖南省新田县知识分子家庭。父亲是清末秀才,青年时就读上海南洋公学,获湖南省第一届公费留学英国,回国后历任湖南省高等工业学校、东北大学、广西大学教授,兼广西大学理工学院院长。谢义炳之兄毕业于东南大学,任湖南大学教授兼副教务长。谢义炳早年丧母,由祖母抚养。

民国十八年(1929年),进入中央大学实验学校初中部,后升入扬州中学高中部。

民国十九年(1930年)冬,哥哥坚决把他调到自己身边,进入南京中央大学实验中学(现南京师范大学附中),教他如何读书、如何建立数学思维。

民_二十四年(1935年)夏,谢义炳以优异成绩考入清华大学理学院,希望攻读天体物理学。

民国二十七年(1938年),秋季到达昆明西南联合大学复学,并决定学习气象学。

民国二十九年(1940年),毕业后任贵州省气象所观测员。

民国三十年(1941年),谢义炳进入当时迁到贵州遵义的浙江大学研究生院,师从涂长望教授,从事地方性天气与气候及历史气候变化的研究。著有论文《贵州的气候》及《清代水旱灾周期研究》。

民国三十二年(1943年),毕业获硕士学位,任中央气象局技士,从事地方台站的业务指导工作,巡视陕西、四川、广西各地气象台站,并协助举办观测人员训练班,扩建气象观测网。

民国三十四年(1945年),美国做出战时科技人员培训并提供培训经费一年,谢义炳考取后赴芝加哥大学学习,并在美国气象局中期天气预报科实习,期满时获得芝加哥大学奖学金,留美继续深造。

1949年,谢义炳以论文《北美冷涡的选例分析》取得哲学博士学位,并留校进行博士后研究工作。

1950年9月,回祖国后任清华大学气象系副教授。

1952年,高等学校院系调整后,转入北京大学物理系,升任教授,后被任命为物理系副主任并主持气象专业的工作。

1955年,任北京大学物理系系副主任,主持气象专业工作。

1959年,北京大学地球物理系成立,任系副主任。在“文化大革命”期间,谢义炳无端遭受审查、批斗。在困难的条件下,他仍坚持对党的信念,认真学习经典著作,有可能时即从事科学研究工作。

18年,谢义炳被任命为北京大学地球物理系主任。

19年2月,他参加了在日内瓦召开的第一次世界气候大会后,接着率团到马德里参加世界气象教育大会,在会上他作了新中国气象教育和科学的报告。

1980年,当选为中国科学院地学部学部委员(院士)。

1981年,加入中国***。

1982年6月,他赴美国参加在内布拉斯加州立大学召开的华北平原和美国平原气候和农业对比考察讨论会。

1983年6月,率中国气象学会代表团回访瑞典。

1988年8月底,应邀参加在赫尔辛基召开的帕尔门纪念科学讨论会。

1995年8月24日,病逝于北京。

主要成就

科研成就

●科研综述

大尺度环流系统的研究

谢义炳还对大尺度环流系统进行了基础理论研究,在《稳定的与不稳定的斜压行星波》一文中,不是从定的平直西风气流出发,而是从实际的流场出发,引进空间不稳定性概念,探索行星波的时间稳定性,从而修改和发展了传统的斜压不稳定理论。

谢义炳在博士论文《北美冷涡个例研究》中提出的对流层冷性涡旋发展的概念模式,在国内外大气环流环流专著和教科书中得到广泛引用。20世纪50年代,他发现了东亚锋区与急流的多重结构,明确了东亚高空副热带急流的存在以及和极锋急流的相互作用。这一工作稍后被日本气象工作者所证实,双急流及其相互作用仍是大气环流研究的重要课题。

东亚降水天气系统与湿斜压天气动力学的研究

1954年,长江流域遭受特大洪水后,谢义炳接受了中央气象局的“中国夏季降水问题研究课题”,对冷暖锋、低涡、梅雨和季风等进行了大量的分析,提出了这些系统的概念模式,并被以后的研究所证实。

15年,河南发生特大暴雨。之后,他组织了北方十三省、市、自治区气象局开展了大规模暴雨天气预报的研究;又提出了湿斜压概念和湿斜压天气动力学的系统理论,这一理论强调了凝结潜热释放的反馈对大气运动的重要性,由此计算出的斜压不稳定波长与实际分析结果一致。他在开放系统中引入的“湿有效位能”概念被发展成为一种新的暴雨诊断和预报方法,使20世纪80年代的中国北方夏季降水预报准确率有了显著提高。

热带大气环流与台风的研究

在研究中国降水问题时,谢义炳特别强调热带环流的重要性。20世纪60年代初,他发现东亚季风有一个月左右的振荡,这种低频振荡后被国际上的研究所证实并成为研究的重点。20世纪70年代,他提出中国大范围暴雨绝大多数发生在中低纬度环流相互作用过程中,给出相互作用的概念模式,并在北方暴雨业务预报实践中获得成功。

在台风的研究方面,20世纪50年代,他得到了台风移动的控制方程组,给台风移动的引导气流原理给出了理论依据。60年代,他发现西太平洋绝大多数台风发生在赤道幅合带上,并提出台风形成的赤道幅合带上切变不稳定理论,丰富了台风形成的动力学理论。

●主要论著

●科研获奖

1985由于其成果在天气预报中取得重大的社会经济效益获得国家科技进步奖二等奖,18年以其热带天气学和动力学的一系列研究成果获得全国科学大会奖。

人才培养

谢义炳在20世纪50年代亲自编写了“天气学”、“中长期天气预报”、“大气环流”等课程的讲义,他重视对学生研究工作能力的培养,坚持理论联系实际的作风。在教学实践中,他十分重视“气象观测”课程的建设,培养、组建了较强大的气象观测教学队伍。他的学生中,有中国科学院院士、中国工程院院士,全国劳动模范,“五一”劳动奖章获得者,以及气象业务部门、科研单位和高校院系的领导和业务骨干。学生有气象学家雷雨顺。

荣誉表彰

1988获芬兰的帕尔门(E.Palmen)国际奖,1990年国家教委向他颁发了从事教育和科研40年以上的“荣誉证书”。

1980年当选为中国科学院学部委员(院士)。

社会任职

谢义炳历任中国气象学会副理事长、名誉理事长、《气象学报》主编。1982年,当选为英国气象学会荣誉会员。谢义炳是院学位委员会评议组成员,曾兼地学组组长,国家科学基金会评审组成员,大气科学组组长,曾兼地球科学组组长。

人物评价

谢义炳先生作为一名卓越的气象学家和教育家为中国和世界气象科学事业所作出的开拓性贡献。他一生各个历史阶段所取得的杰出成就和表现出来的高风亮节将永为世范、启迪后学。(北京大学常务副校长林建华和中国气象局宇如聪副局长评)

感谢以先生为典范的气象学教育工作者的辛勤耕耘为国家气象科学事业输送了源源不断的人才。(中国科学院大气物理研究所所长王会军评)

谢义炳深受中国优良传统文化的影响,生活简朴,工作努力,民族自尊心强烈。他还接受了西方勇于探索,不迷信权威的进取精神,在极端孤立的情况下,坚持原则,实事求是,受挫不馁。他在改革开放时期,积极对外进行科技与人员的友好交流,为推进中国科技进步做出了积极贡献。(九三学社评)

后世纪念

2007年9月22日,谢义炳90周年诞辰纪念会暨铜像落成仪式于在北京大学举行。北京大学大气科学系还组织出版了《江河万古颂-谢义气炳院士纪念文集》,《气象学报》也专门出版了纪念专刊。

芬兰旅游指南芬兰旅游

像是极光这样的景象确实是非常吸引人,很多人可能就是为了极光四处颠簸,毕竟看极光也是要看天气的,今天小编就来和大家说说极光应该在哪里看,什么时候看,怎么看。

去哪里看

北极圈附近即可观测到极光,北极圈以北为最佳,欧洲公认的首选地点为挪威特罗姆瑟(Troms_和冰岛。但是挪威和冰岛都没有直飞航班至中国,交通稍嫌不便。

次之的地点有北极圈附近的挪威博德(Bod_和芬兰罗瓦涅米(Rovaniemi,同样因为交通问题,最少只需转机一次的罗瓦涅米胜出。罗瓦涅米市内的欧恩阿斯瓦拉山(OunasvaaraMountain远离灯光干扰,仰望天空一览无余,是观赏极光的绝佳去处。稍远一点的皮海-洛斯托国家公园(Pyh_-LuostoNationalPark则更适合有徒步经验的人。

如果志在必得,西北的基尔皮斯耶尔维(Kilpisj_rvi甚至更北的乌茨约基(Utsjoki都是芬兰境内更佳的极光观测地点,极光季时这里四天内有三天都能看到极光。只是配套设施和服务可能不如罗瓦涅米好。

什么时候看

北极圈及以北地区,9月至次年4月末都可以看到北极光。天色越暗、天空越晴朗,看到的概率越大,所以要尽量错开农历十五月圆之日和雨雪天气。很多人误以为冬季是观看极光的最佳时间,但实际上,在芬兰,秋季和春季才是最佳观测季节,尤其是10月~11月及来年3月。

晚上11点至次日凌晨2点是每天的最佳观测时间,因为存在不确定性,游客们通常会在晚10点至次日凌晨4点守候。按照当地人的经验,如果没看到极光,可以多等一两个小时,大自然会回报有耐心的人。

极光能预测吗

可以在NOAA网站上查看未来27天的KP指数。数字大,表示靠南的地方也能看见极光;数字小,表示需要到较北的地方才能看见。

在罗瓦涅米,KP指数为1时通常就能看到极光。在特罗姆瑟,KP指数为0时即可见极光,KP指数在1~2时,几乎可以保证一定能看见。而在赫尔辛基,KP值需要达到4才有看到的可能。所以,在同一地点,KP指数越大,看见极光的概率也越大。而在KP指数相同的情况下,北部比南部看见的概率大。

这个网站上还有未来3天的分时KP指数预测、未来3天极光预测和未来30分钟极光预测。

提前在手机上下载一些极光预测和提醒软件,结合天气预报,可以更合理地安排追光行程。如果晚上云层太厚,建议你还是老老实实地别出门了。

能不能躺着看

天寒地冻,半夜在户外等极光肯定不是一件容易的事。如果能舒舒服服地躺在被窝里看,该有多幸福!

位于罗米涅瓦北部250公里处的KakslauttanenArcticResort,提供玻璃冰屋和传统木屋住宿。即使外面冰天雪地,也能惬意地躺在室内看风景。只想提醒一句:千万别在极光出现的时候睡着了!

交通小贴士:

距离度村最近的机场是伊瓦洛(Ivalo,车程约半小时,伊瓦洛每日均有航班飞往赫尔辛基。

从罗瓦涅米出发的话,乘坐大巴至Kakslauttanen站,车程约3小时,下车后步行100米即可到达。

如果嫌交通不便,罗瓦涅米市内的SantasIgloosArcticCircle也是个好去处,只是单独预订价格也不便宜。

飞猪专线的芬兰极光自由行特色版包含了北京/上海-赫尔辛基-罗瓦涅米全程往返机票、罗瓦涅米北极圈圣诞老人冰屋3晚+赫尔辛基2晚住宿,13999元起,3晚冰屋的住宿都几乎是这个价格了,可是说是很良心了。

芬兰30号气象预报

导语:芬兰位于欧洲北部。这个国家三分之一的土地在北极圈内。它被称为“千湖之国”,也被认为是圣诞老人的故乡。去芬兰旅游也是很多人的旅行。那么,芬兰什么时候去?有什么好玩的?让我们和边肖一起来看看吧。

最佳旅行时间

芬兰一年四季都适合旅游,不同季节呈现出不同的风景,值得驻足欣赏。

极光季节:9月-11月

虽然冬季漫长的芬兰非常适合极光的观测,但寒冷的季节并不总是观测极光的最佳时机。如果你想在旅行中更自信地欣赏极光,请尽量在秋天去。极圈的天气在秋季并不善变,下雪天较少,晴朗的夜晚更适合观测极光。

雪季:11月-次年4月

芬兰冬天的雪量惊人,恰逢春节期,也是国内游客最多的季节。在这个季节,在芬兰旅游,可以体验冰屋酒店、哈士奇雪橇、室外等活动。而且你还可以在芬兰的专业滑雪场一试身手。不过出行要注意交通安全,而且由于降雪比较集中,观测极光还是要靠点运气的。

夏季:六月至八月

夏天可以去芬兰南部的图尔库群岛避暑,这一点很少被环游北欧的国内旅行者注意到,是炎炎夏日的一个逃避选择。周围有很多国家公园,非常适合亲子游。被称为“千湖之国”的芬兰,夏天会呈现出一派生机勃勃的景象,与冬天截然不同。热爱户外和自然风光的旅行者不要错过。

芬兰旅游路线

芬兰经典8日线路:

D1:赫尔辛基大教堂乌贝斯基东大教堂露天市场

D2:岩石教堂波尔瓦大教堂赫尔辛基中央火车站。

D3Kemi:破冰船Sampo。

D4:北极中心和拉普兰省博物馆圣诞老人村

D5罗瓦涅米:BearhillHusky

D6罗瓦涅米:维多利亚滑雪度村中心

D7罗瓦涅米:维多利亚滑雪度村中心

D8基蒂拉:基蒂拉机场

芬兰赏极光7日线路:

D1:波尔瓦大教堂赫尔辛基大教堂乌斯别斯基东大教堂露天自由市场。

D2:破冰船桑波号雪之城堡

D3:拉努阿野生动物园圣诞老人村圣诞老人办公室圣诞老人邮局。

D4:奥纳斯山滑雪场

D5:北极中心和拉普兰省博物馆

D6:BearhillHusky

D7:艾瓦罗机场

冬季装备

连衣裙

冬天去芬兰,“有多冷”“需要穿多厚”是第一个问题。提前关注目的地的天气预报。芬兰北极圈冬季气温可能达到零下40度,多风多雪。厚的和中长的羽绒服一定要备好。

可以准备的保暖衣物还包括天鹅绒保暖裤和防风保暖裤,羽绒服下面可以根据个人的体感选择毛衣或者其他衣物。羽绒服最好选择防水材质,因为极圈雪多。如果外套不防水,下雪后就比较麻烦了。

如果你冬天在芬兰参加户外活动,正规的活动公司会提供户外保暖衣物、鞋子、手套等装备,保证你在户外不会被冻伤或感冒。

一定要选择防水防滑的鞋子,最好是靴子,保证脚踝不受凉。

附件

保暖帽(最好是能保护耳朵的雷锋帽、耳罩、围巾、手套都是必须的。手套最好防水。

保暖设备

各部位暖宝宝都可以考虑携带。

中文的来历

芬兰各大城市未来三天天气预报(天气来源:中国气象网)

城市

今 天

明 天

后 天

赫尔辛基 14℃ ~ 22℃ 12℃ ~ 21℃ 14℃ ~ 20℃

罗瓦涅米 12℃ ~ 20℃ 14℃ ~ 21℃ 13℃ ~ 19℃

坦佩雷 12℃ ~ 21℃ 12℃ ~ 21℃ 12℃ ~ 21℃

中文

中文——作为一个民族的母语,中文是当今世界流行语言体系里最大的一个分支。始创于公元前黄帝在世的时代,成就于公元二十世纪后期。是一种发源最早而成熟最晚的一个语言体系。是东方文明的一种标志与成果,是人类用来精确命名与定义万事万物的一种重要信息载体。体系包括几千个常用单字和上万个字词成语,是文明社会不可缺少的重要组成。 自一名京人编辑

从20世纪50年代初机器翻译课题被提出算起,自然语言处理(NLP)的研发历史至少也有50年了。90年代初,NLP的研究目标开始从小规模受限语言处理走向大规模真实文本处理。把这个新目标正式列入大会主题的是1990年在赫尔辛基举行的“第13届国际计算语言学大会”。那些只有几百个词条和数十条语法规则的受限语言分析系统,通常被业内人士戏称为“玩具”,不可能有什么实用价值。、企业和广大计算机用户期盼的是像汉字输入、语音听写机、文-语转换(TTS)、搜索引擎、信息抽取(IE)、信息安全和机器翻译(MT)那样的、有能力处理大规模真实文本的实用化系统。

正是基于对这个里程碑式转折的关注,笔者在1993年就列举了四种大规模真实文本处理的应用前景:新一代信息检索系统;按客户要求编辑的报纸;信息抽取,即把非结构化的文本转化为结构化的信息库;大规模语料库的自动标注。值得庆幸的是,今天所有这四个方向都有了实用化或商品化的成果。

尽管全世界都把大规模真实文本处理看做是NLP的一个战略目标,但这不等于说受限领域的机器翻译、语音对话、电话翻译和其他一些基于深层理解的自然语言分析技术或理论研究,就不应当再搞了。目标和任务的多样化是学术界繁荣昌盛的一个标志。问题是要考虑清楚NLP的主战场在哪里,我们的主力应当部署在哪里。

中文难办吗?

谈到中文信息处理所面临的重大应用课题,如企业和广大计算机用户所期盼的汉字输入、语音识别等,大家似乎并没有什么分歧。但是当讨论深入到实现这些课题的方法或技术路线时,分歧马上就泾渭分明了。第一种意见认为,中文信息处理的本质是汉语理解,也就是要对汉语真实文本实施句法-语义分析。持这种意见的学者主张,以往在中文信息处理中使用的概率统计方法已经走到了尽头,为了在理解或语言层面上解决中文信息处理问题,就必须另辟蹊径,这条蹊径便是语义学。据说这是因为汉语不同于西方语言,汉语的句法相当灵活,汉语本质上是一种意合语言等。

与上述意见相对立的观点是:前面提到的绝大多数应用系统(MT除外)其实都是在没有句法-语义分析的情况下实现的,因此谈不上“理解”。 如果一定要说“理解”,那么只是用图灵实验来证实的所谓“理解”。

上述双方争论的焦点是方法,但目标和方法通常是密不可分的。如果我们同意把大规模真实文本处理作为NLP的战略目标,那么实现这一目标的理论和方法也必然要跟着变化。无独有偶,1992年在蒙特利尔召开的“第四届机器翻译的理论和方法国际会议(TMI-92)”宣布大会的主题是“机器翻译中的经验主义和理性主义方法”。这就是公开承认,在传统的基于语言学和人工智能方法(即理性主义)的NLP技术以外,还有一种基于语料库和统计语言模型的新方法(即经验主义)正在迅速崛起。

NLP的战略目标和相应的语料库方法都是从国际学术舞台的大视野中获得的,中文信息处理自然也不例外。那种认为中文文本处理特别困难,以至要另辟蹊径的观点,缺少有说服力的事实根据。拿信息检索(IR)来说,它的任务是从一个大规模的文档库中寻找与用户的查询相关的文档。怎样表示文档和查询的内容,以及如何度量文档和查询之间的相关程度,就成为IR技术需要解决的两个基本问题。召回率和精确率则是评价一个IR系统的两个主要指标。由于文档和查询都是用自然语言表述的,这个任务可以用来说明中文和西方语言所面临的问题和所用的方法其实是十分相似的。一般来说,各文种的IR系统都用文档和查询中的词频(tf)和倒文档频率(idf)来表示文档和查询的内容,所以本质上是一种统计方法。

世界文本检索大会TREC (://trec.nist.gov/) 的最大特点是通过提供大规模训练语料和统一评测方法来支持IR技术的研发。研究团队必须通过大会的统一评测并名列前茅,才能获准到会上来做报告。1992年起TREC每年举办一届大会,并得到美国国防部(DARPA)和国家标准技术局(NIST)的资助。会议对包括中文、日文在内的多文种文档库开展了IR评测。结果表明,中文IR并没有因为存在分词问题就比其他文种做得差,而且迄今没有证据表明各语种的NLP,包括基于概念的或基于句法-语义分析的技术,能明显提高IR系统的性能。

什么是主流技术?

语料库方法和统计语言模型不但没有过时,而且在可比的统一评测中被证明是当前各国语言信息处理的一种主流技术。

1. N元模型

设wi是文本中的任意一个词,如果已知它在该文本中的前两个词 wi-2w-1,便可以用条件概率P(wi|wi-2w-1)来预测wi出现的概率。这就是统计语言模型的概念。一般来说,如果用变量W代表文本中一个任意的词序列,它由顺序排列的n个词组成,即W=w1w2...wn,则统计语言模型就是该词序列W在文本中出现的概率P(W)。利用概率的乘积公式,P(W)可展开为:

P(W) = P(w1)P(w2|w1)P(w3| w1 w2)...P(wn|w1 w2...wn-1)

不难看出,为了预测词wn的出现概率,必须知道它前面所有词的出现概率。从计算上来看,这种方法太复杂了。如果任意一个词wi的出现概率只同它前面的两个词有关,问题就可以得到极大的简化。 这时的语言模型叫做三元模型 (tri-gram):

P(W)≈P(w1)P(w2|w1)∏i(i=3,...,nP(wi|wi-2w-1)

符号∏i i=3,...,n P(...) 表示概率的连乘。一般来说,N元模型就是设当前词的出现概率只同它前面的N-1个词有关。重要的是这些概率参数都是可以通过大规模语料库来计算的。比如三元概率有

P(wi|wi-2wi-1) ≈ count(wi-2wi-1wi) /count(wi-2wi-1)

式中count(...) 表示一个特定词序列在整个语料库中出现的累计次数。

统计语言模型有点像天气预报中使用的概率方法,用来估计概率参数的大规模语料库好比是一个地区历年积累起来的气象记录。而用三元模型来做天气预报,就好比是根据前两天的天气情况来预测今天的天气。天气预报当然不可能百分之百准确,但是我们大概不会因此就全盘否定这种实用的概率方法吧。

2. 语音识别

语音识别作为计算机汉字输入的另一种方式越来越受到业内人士的青睐。所谓听写机就是语音识别的一种商品。那么当前商品化的听写机用的是什么技术呢?

其实,语音识别任务可视为对以下条件概率极大值的计算问题:

W*= argmaxW P(W|speech signal)

= argmaxW P(speech signal|W) P(W) / P(speech signal)

= argmaxW P(speech signal|W) P(W)

式中数学符号argmaxW 表示对不同的候选词序列W计算条件概率P(W|speech signal)的值,从而使W*成为条件概率值最大的词序列。它也就是当前输入语音信号speech signal所对应的输出词串了。

公式第二行是利用贝叶斯定律转写的结果,因为条件概率P(speech signal|W)比较容易估值。公式的分母P(speech signa ) 对给定的语音信号是一个常数,不影响极大值的计算,故可以从公式中删除。在公式第三行所示的结果中,P(W)叫做统计语言模型;P(speech signal|W) 叫做声学模型。

据调查,目前市场上中文和英文的听写机产品都是用词的三元模型实现的, 几乎完全不用句法-语义分析手段。这说明不同语言的产品技术往往是相通的。没有证据表明,中、英两种语言的听写机在性能指标上有显著的差异。所以那种断言中文信息处理一定比西方语言困难,实现中文信息处理必须另辟蹊径的说法,其实是站不住脚的。

三元模型(或一般的N元模型)只利用了语言的表层信息(或知识),即符号(字、词、词性标记等)序列的同现信息。谁也没有说它是十全十美的。在这一领域中,下一个研究目标应当是结构化对象(如句法树或语义框架)的统计模型。当然能做到语言理解是了不起的成果,它肯定会比目前这种统计语言模型强得多,这是不争的事实。问题是目前国内外还没有哪一种语言的句法-语义分析系统可以胜任大规模真实文本处理的重任。因此,对于世界各国的语言来说,当前的主流技术仍是语料库方法和统计语言模型。

3. 词性标注

至少像短语结构文法这样一类的语法规则是建立在词类基础上的。无怪乎语言学界有句行话说,没有词类就没法讲语法了。所以在自然语言的句法分析过程中,大概都有一个词性标注的阶段。不难理解,汉语的自动分词和词性标注的精确率,将直接影响到后续的句法分析结果。据观察,在汉语句法分析结果中,有高达60%的分析错误来源于分词和词性标注的错误。

在英语的词库中约 14% 的词形(type)具有不只一个词性,而在一个语料库中,总词次数(tockens)中约 30% 是兼类词。从这个统计数字中可以估计出词性标注任务的难度。历史上曾经先后出现过两个方法迥异的英语词性标注系统:TGIT系统拥有3000条上下文相关规则, 而CLAWS系统完全用概率统计方法。两个系统各自完成了100万词次的英语语料库的自动词性标注任务。评则结果(见下表)表明,用概率统计方法的CLAWS系统的标注精度达到96%,比TGIT系统提高了近20个百分点。经过改进的CLAWS系统日后承担了英国国家语料库BNC一亿条英语词的词性标注任务。

具体来说,CLAWS系统用的是词类标记的二元模型。如果令 C = c1...cn 和 W = w1...wn分别代表词类标记序列和词序列,则词性标注任务可视为在已知词序列W的情况下,计算如下条件概率极大值的问题:

C*= argmaxC P(C|W)

= argmaxC P(W|C)P(C) / P(W)

≈ argmaxC ∏i i=1,...,nP(wi|ci)P(ci|ci-1 )

P(C|W) 表示:已知输入词序列W的情况下,出现词类标记序列C的条件概率。数学符号argmaxC 表示通过考察不同的候选词类标记序列C, 来寻找使条件概率P(C|W) 取最大值的那个词序列W*。后者应当就是对W的词性标注结果。

公式第二行是利用贝叶斯定律转写的结果,由于分母P(W) 对给定的W是一个常数,不影响极大值的计算,故可以从公式中删除。接着对公式进行近似。首先,引入独立性设,认为词序列中的任意一个词wi的出现概率近似,只同当前词的词性标记ci有关,而与周围(上下文)的词类标记无关。即词汇概率

P(W|C) ≈ ∏i i=1,...,nP(wi|ci )

其次,用二元设,即近似认为任意词类标记 ci的出现概率只同它紧邻的前一个词类标记ci-1有关。因此有:

P(C) ≈∏i i=,...,n P(ci|ci-1)

P(ci|ci-1) 是词类标记的转移概率,也叫做二元模型。

上述这两个概率参数也都可以通过带词性标记的语料库来分别估计:

P(wi|ci) ≈ count(wi,ci) / count(ci)

P(ci|ci-1) ≈ count(ci-1ci) / count(ci-1)

顺便指出,国内外学者用词类标记的二元或三元模型实现的中、英文词性自动标注都达到了约95%的标注精确率。

评测为什么是惟一的评判标准

有评测才会有鉴别。评判一种方法优劣的惟一标准是相互可比的评测,而不是设计人员自己设计的“自评”,更不是人们的直觉或某个人的“远见”。近年来,在语言信息处理领域,通过评测来推动科学技术进步的范例很多。国家“863”智能计算机专家组曾对语音识别、汉字(印刷体和手写体)识别、文本自动分词、词性自动标注、自动文摘和机器翻译译文质量等课题进行过多次有统一测试数据和统一计分方法的全国性评测,对促进这些领域的技术进步发挥了非常积极的作用。

在国际上,美国国防部先后发起的TIPSTER 和 TIDES两个和语言信息处理相关的,就被称为“评测驱动的”。它们在信息检索(TREC)、信息抽取(MUC)、命名实体识别(MET-2)等研究课题上,既提供大规模的训练语料和测试语料,又提供统一的计分方法和评测软件,以保证每个研究小组都能在一种公平、公开的条件下进行研究方法的探讨,推动科学技术的进步。TREC、MUC和MET-2等会议所组织的多文种评比活动也有力地说明,其他语言用并证明有效的方法,对中文也一样适用,不同文种应用系统的性能指标大体相当。固然,每种语言都有它自己的个性,然而这些个性不应当被用来否定语言的共性,并在事实不足的情况下做出错误的判断。

为了推动中文信息处理的发展,让我们拿起评测这个武器,扎扎实实地研究其适用技术,不要再想当然了。建议科研主管部门在制定项目时,至少要在一个项目的总经费中拿出10%左右的拨款用于资助该项目的评测。没有统一评测的研究成果,终究不是完全可信的