汉字字、词频度统计是中文信息化重要内容之一,统计的准确率很大程度上取决于所选择的汉字语料和语料产生时代以及语料总量;本文报告作者从467,355,735字当代语料中对GB13000.1字符集20902字和近60000条简体词语进行了流通频度统计,可以说这是当前最具使用价值的汉字字、词频度统计。
一、语料构成
总字数:467,355,735字。
1、 1999年至2003年4月报刊文摘、政经时事、科学技术:375,689,126字,占80.4%。
2、 现代文学:91,666,609字,占19.6%。
二、字频概况
⒈ 在以上语料中,总共用到的汉字为10647个,扣除繁体字1038个,共用简体字9609个,在GB 13000.1字符集20902字中有10255个未曾出现。
⒉ 与1988年国家语委公布的字频表比较,与青月亮流通字频表比较,字频有较大的涨落,表1为30个高频字的频度比较。
表1:30个高频字的频度比较表
从上表进行分析:
其中:“的、一、了、是、在、人、不、有、中、大、国、上、这、和、以、个、为、地”这18个字,三家统计均在前30出现,位置略有不同。
其中:“我、他、到、来、时”这5个字,2003新字频和语委字频均在前30出现,青月亮字频未在前30出现。
其中:“年、出、会、生、要、发”这6个字,2003新字频和青月亮字频均在前30出现,语委字频未在前30出现。
其中:2003新字频有1个字“市(28)”在前30中独有;语委字频有7个字“们(34)、说(37)、全(72)、小(65)、子(50)、可(53)、就(45)” 在其前30中独有;青月亮字频有6个字“用(67)、作(41)、学(69)、成(44)、行(32)、对(33)” 在其前30中独有。括弧中数字为在新字频中的位置。
以上可以得出结论;语委频度由于完成时间为1988年,同当前比较有所偏差;青月亮频度由于选用语料问题以及语料总量不足,因此也有较大偏差。
三、词频情况
1.词汇选择原则:二字词选择频度100以上,计30000条;三字词选择频度30以上,计6000条;四字词选择频度10以上,计16000条;多字词选择频度5以上,计8000条。
2.原国标词库44791条中有489条不符合上述条件,其中268条频度为0,仍然保留。
3.二字常用词前30个
4.三字常用词前30个
5.四字常用词前30个
6.多字常用词前30个
本字、词频度已经应用于汉字双笔码系列输入法软件,效果显著。