新新世纪五笔词库-[v1.2, beta2]
------------------------------
使用“大一统WM2012A”解码,未做任何修改。
仅供个人学习研究,不可用于商业目的。
已补上简码信息和字根图,解码方面已经完整。接下来会做反过来的编码过程,这样就可对大一统进行更灵活的定制。另一方面的工作是提供其他输入平台的码表和码表制作工具。
*.7z和*.txz文件可用7-Zip或最新的WinRAR打开。选用这些格式,是从压缩比和编程语言(Python)对压缩格式的支持考虑的。
wmwb2012a.zip是解码程序源代码,使用Python v3.3开发。(可用命令“python wmwb2012a.zip”直接运行程序,不过需先装7-Zip,并让7z.exe在PATH环境变量中。)
wmwb2012a.txz是大一统码表,其中有直接拷自Program Files的二进制码表,还有解码出来的人工可读的文本格式码表(字根形状是图片)。
binary 文件夹 - 下面存放的是大一统原始二进制码表
====================================================
wmwb06jm.dat - 新世纪简码数据
wmwb06qm.dat - 新世纪全码数据
wmwb06zg.dat - 新世纪字根数据
wmwb86jm.dat - 86简码数据
wmwb86qm.dat - 86全码数据
wmwb86zg.dat - 86字根数据
wmwb98jm.dat - 98简码数据
wmwb98qm.dat - 98全码数据
wmwb98zg.dat - 98字根数据
readable 文件夹 - 下面存放的是解码后人工可读的文本格式码表
==============================================================
radical.v06 - 新世纪字根图
radical.v86 - 86字根图
radical.v98 - 98字根图
一个字根图是一个BMP文件,文件名形如“字母+两位数字.bmp”。其中的字母表明了这根所在的键位,而两个数字则是分配的一个索引值。索引值的分配没多大规律,比较随意,不过表示识别码的字根总被分配为“00”。“字母+两位数字”是字根的标识,如“a+10”代表成字字根“工”。在后面的文件(fullcode.*.csv)中见到这样的串,就表示引用这个字根。
code6k.gb+.csv - GB18030-2000汉字的“王码六键”代码
code6k.gb.csv - GB2312汉字的“王码六键”代码
code6k.gbk.csv - GBK汉字的“王码六键”代码
“王码六键”用6个数字来输入汉字,可去王码公司网站了解。*.csv文件可视为一个表格,可用Excel或金山表格打开。*.csv文件的第一行给出了列的名字,如“code6k.gb.csv”中第一行为“汉字,王码六键”,表示表格有两列,第一列为汉字,第二列为王码六键代码,值与值间用逗号分隔(这是*.csv名字由来——Comma Separated Values,逗号分隔开的值),缺少的值留空。GB18030-2000汉字的王码六键代码全部缺失,大一统原来就是这样。
fullcode.v06.gb+.csv - GB18030-2000汉字的新世纪全码数据
fullcode.v06.gb.csv - GB2312汉字的新世纪全码数据
fullcode.v06.gbk.csv - GBK汉字的新世纪全码数据
fullcode.v86.gb+.csv - GB18030-2000汉字的86全码数据
fullcode.v86.gb.csv - GB2312汉字的86全码数据
fullcode.v86.gbk.csv - GBK汉字的86全码数据
fullcode.v98.gb+.csv - GB18030-2000汉字的98全码数据
fullcode.v98.gb.csv - GB2312汉字的98全码数据
fullcode.v98.gbk.csv - GBK汉字的98全码数据
全码数据给出了汉字的拆分和容错码。使用拆分数据可建立对初学者非常有益的拆分表(http://tieba.baidu.com/p/2329998106)。第二列即是拆分,它引用字根的标识来说明汉字是如何拆分的,如:
汉字,拆分,标志,容错码
的,r+10 q+14 y+01 y+00,5,
表明“的”可分为三个字根(r+10、q+14和y+01),外加识别码y(y+00表示作为识别码的y,“字母+00”实际不是字根,是为了方便处理,将表示识别码的图形当成假想的字根)。第四列是容错码,这个缺得比较多,原因是显然的。第三列标志大体等价于简码标识,但并不完全等价,实际上很多不是简码的字也设置了标志,大一统设置标志是为了控制词条顺序(不过并非从频率方面控制)。
reading.gb+.csv - GB18030-2000汉字的读音
reading.gb.csv - GB2312汉字的读音
reading.gbk.csv - GBK汉字的读音
第一列是汉字,第二列给出其读音。单个读音表示为“声母+韵母”,多个读音用空格隔开。
shortcut.v06.s1.csv - 新世纪一级简码
shortcut.v06.s2.csv - 新世纪二级简码
shortcut.v06.s3.csv - 新世纪三级简码
shortcut.v86.s1.csv - 86一级简码
shortcut.v86.s2.csv - 86二级简码
shortcut.v86.s3.csv - 86三级简码
shortcut.v98.s1.csv - 98一级简码
shortcut.v98.s2.csv - 98二级简码
shortcut.v98.s3.csv - 98三级简码
简码中其实还有些繁体字,大一统实际不会显示它们。但我们见到的大一统是简体版,所以这些繁体字可能是在繁体版大一统中使用的。如果自己想用这里的简码表构造码表,则应注意筛掉繁体字。
symbols.csv - 大一统符号列表
variables.csv - 大一统变量列表
words.txt - 大一统词组列表
每个输入法软件都自定义了一套符号输入规则,大一统也是。每个都搞一套,换个软件又得重学一遍,所以最好能修改成自己习惯的规则,待实现了编码器后就能办到。变量的规则没有仔细研究,总的来说就是让能输入日期、时间等。词组“不是”用的*.csv格式,而是用的*.txt,这是为了便于使用,一个词组一行更容易处理。大一统有些词组带有读音,这可能也是有用的(若词中有多音字,则不能从单字读音推导出词组的读音),但总的来说比较鸡肋(从别的拼音输入法提取的可能更全面),所以这一版就没有提取了,不过若需要,通过解码程序提供的编程接口是可以访问到的。
文件被分得足够细,以便不会编程的网友使用Excel等工具也可折腾。但总的来说Excel等还是不够灵活,要想完全按自己的想法对码表进行操作,最好还得自己会编程,这里作者推荐学习Python语言。以后作者也会做一些小程序,以便大家不会编程也能折腾折腾。
xionghuaidong@163.com
3:20 2013/7/13
------------------------------
使用“大一统WM2012A”解码,未做任何修改。
仅供个人学习研究,不可用于商业目的。
已补上简码信息和字根图,解码方面已经完整。接下来会做反过来的编码过程,这样就可对大一统进行更灵活的定制。另一方面的工作是提供其他输入平台的码表和码表制作工具。
*.7z和*.txz文件可用7-Zip或最新的WinRAR打开。选用这些格式,是从压缩比和编程语言(Python)对压缩格式的支持考虑的。
wmwb2012a.zip是解码程序源代码,使用Python v3.3开发。(可用命令“python wmwb2012a.zip”直接运行程序,不过需先装7-Zip,并让7z.exe在PATH环境变量中。)
wmwb2012a.txz是大一统码表,其中有直接拷自Program Files的二进制码表,还有解码出来的人工可读的文本格式码表(字根形状是图片)。
binary 文件夹 - 下面存放的是大一统原始二进制码表
====================================================
wmwb06jm.dat - 新世纪简码数据
wmwb06qm.dat - 新世纪全码数据
wmwb06zg.dat - 新世纪字根数据
wmwb86jm.dat - 86简码数据
wmwb86qm.dat - 86全码数据
wmwb86zg.dat - 86字根数据
wmwb98jm.dat - 98简码数据
wmwb98qm.dat - 98全码数据
wmwb98zg.dat - 98字根数据
readable 文件夹 - 下面存放的是解码后人工可读的文本格式码表
==============================================================
radical.v06 - 新世纪字根图
radical.v86 - 86字根图
radical.v98 - 98字根图
一个字根图是一个BMP文件,文件名形如“字母+两位数字.bmp”。其中的字母表明了这根所在的键位,而两个数字则是分配的一个索引值。索引值的分配没多大规律,比较随意,不过表示识别码的字根总被分配为“00”。“字母+两位数字”是字根的标识,如“a+10”代表成字字根“工”。在后面的文件(fullcode.*.csv)中见到这样的串,就表示引用这个字根。
code6k.gb+.csv - GB18030-2000汉字的“王码六键”代码
code6k.gb.csv - GB2312汉字的“王码六键”代码
code6k.gbk.csv - GBK汉字的“王码六键”代码
“王码六键”用6个数字来输入汉字,可去王码公司网站了解。*.csv文件可视为一个表格,可用Excel或金山表格打开。*.csv文件的第一行给出了列的名字,如“code6k.gb.csv”中第一行为“汉字,王码六键”,表示表格有两列,第一列为汉字,第二列为王码六键代码,值与值间用逗号分隔(这是*.csv名字由来——Comma Separated Values,逗号分隔开的值),缺少的值留空。GB18030-2000汉字的王码六键代码全部缺失,大一统原来就是这样。
fullcode.v06.gb+.csv - GB18030-2000汉字的新世纪全码数据
fullcode.v06.gb.csv - GB2312汉字的新世纪全码数据
fullcode.v06.gbk.csv - GBK汉字的新世纪全码数据
fullcode.v86.gb+.csv - GB18030-2000汉字的86全码数据
fullcode.v86.gb.csv - GB2312汉字的86全码数据
fullcode.v86.gbk.csv - GBK汉字的86全码数据
fullcode.v98.gb+.csv - GB18030-2000汉字的98全码数据
fullcode.v98.gb.csv - GB2312汉字的98全码数据
fullcode.v98.gbk.csv - GBK汉字的98全码数据
全码数据给出了汉字的拆分和容错码。使用拆分数据可建立对初学者非常有益的拆分表(http://tieba.baidu.com/p/2329998106)。第二列即是拆分,它引用字根的标识来说明汉字是如何拆分的,如:
汉字,拆分,标志,容错码
的,r+10 q+14 y+01 y+00,5,
表明“的”可分为三个字根(r+10、q+14和y+01),外加识别码y(y+00表示作为识别码的y,“字母+00”实际不是字根,是为了方便处理,将表示识别码的图形当成假想的字根)。第四列是容错码,这个缺得比较多,原因是显然的。第三列标志大体等价于简码标识,但并不完全等价,实际上很多不是简码的字也设置了标志,大一统设置标志是为了控制词条顺序(不过并非从频率方面控制)。
reading.gb+.csv - GB18030-2000汉字的读音
reading.gb.csv - GB2312汉字的读音
reading.gbk.csv - GBK汉字的读音
第一列是汉字,第二列给出其读音。单个读音表示为“声母+韵母”,多个读音用空格隔开。
shortcut.v06.s1.csv - 新世纪一级简码
shortcut.v06.s2.csv - 新世纪二级简码
shortcut.v06.s3.csv - 新世纪三级简码
shortcut.v86.s1.csv - 86一级简码
shortcut.v86.s2.csv - 86二级简码
shortcut.v86.s3.csv - 86三级简码
shortcut.v98.s1.csv - 98一级简码
shortcut.v98.s2.csv - 98二级简码
shortcut.v98.s3.csv - 98三级简码
简码中其实还有些繁体字,大一统实际不会显示它们。但我们见到的大一统是简体版,所以这些繁体字可能是在繁体版大一统中使用的。如果自己想用这里的简码表构造码表,则应注意筛掉繁体字。
symbols.csv - 大一统符号列表
variables.csv - 大一统变量列表
words.txt - 大一统词组列表
每个输入法软件都自定义了一套符号输入规则,大一统也是。每个都搞一套,换个软件又得重学一遍,所以最好能修改成自己习惯的规则,待实现了编码器后就能办到。变量的规则没有仔细研究,总的来说就是让能输入日期、时间等。词组“不是”用的*.csv格式,而是用的*.txt,这是为了便于使用,一个词组一行更容易处理。大一统有些词组带有读音,这可能也是有用的(若词中有多音字,则不能从单字读音推导出词组的读音),但总的来说比较鸡肋(从别的拼音输入法提取的可能更全面),所以这一版就没有提取了,不过若需要,通过解码程序提供的编程接口是可以访问到的。
文件被分得足够细,以便不会编程的网友使用Excel等工具也可折腾。但总的来说Excel等还是不够灵活,要想完全按自己的想法对码表进行操作,最好还得自己会编程,这里作者推荐学习Python语言。以后作者也会做一些小程序,以便大家不会编程也能折腾折腾。
xionghuaidong@163.com
3:20 2013/7/13