新新世纪五笔词库-[v1.2, beta2]_新世纪五笔吧

新新世纪五笔词库-[v1...7z

大小：1.79MB下载：102次转存：30次

文件已失效

新新世纪五笔词库-[v1.2, beta2]
------------------------------
使用“大一统WM2012A”解码，未做任何修改。
仅供个人学习研究，不可用于商业目的。
已补上简码信息和字根图，解码方面已经完整。接下来会做反过来的编码过程，这样就可对大一统进行更灵活的定制。另一方面的工作是提供其他输入平台的码表和码表制作工具。
*.7z和*.txz文件可用7-Zip或最新的WinRAR打开。选用这些格式，是从压缩比和编程语言（Python）对压缩格式的支持考虑的。
wmwb2012a.zip是解码程序源代码，使用Python v3.3开发。（可用命令“python wmwb2012a.zip”直接运行程序，不过需先装7-Zip，并让7z.exe在PATH环境变量中。）
wmwb2012a.txz是大一统码表，其中有直接拷自Program Files的二进制码表，还有解码出来的人工可读的文本格式码表（字根形状是图片）。
binary 文件夹 - 下面存放的是大一统原始二进制码表
====================================================
wmwb06jm.dat - 新世纪简码数据
wmwb06qm.dat - 新世纪全码数据
wmwb06zg.dat - 新世纪字根数据
wmwb86jm.dat - 86简码数据
wmwb86qm.dat - 86全码数据
wmwb86zg.dat - 86字根数据
wmwb98jm.dat - 98简码数据
wmwb98qm.dat - 98全码数据
wmwb98zg.dat - 98字根数据
readable 文件夹 - 下面存放的是解码后人工可读的文本格式码表
==============================================================
radical.v06 - 新世纪字根图
radical.v86 - 86字根图
radical.v98 - 98字根图
一个字根图是一个BMP文件，文件名形如“字母+两位数字.bmp”。其中的字母表明了这根所在的键位，而两个数字则是分配的一个索引值。索引值的分配没多大规律，比较随意，不过表示识别码的字根总被分配为“00”。“字母+两位数字”是字根的标识，如“a+10”代表成字字根“工”。在后面的文件（fullcode.*.csv）中见到这样的串，就表示引用这个字根。
code6k.gb+.csv - GB18030-2000汉字的“王码六键”代码
code6k.gb.csv - GB2312汉字的“王码六键”代码
code6k.gbk.csv - GBK汉字的“王码六键”代码
“王码六键”用6个数字来输入汉字，可去王码公司网站了解。*.csv文件可视为一个表格，可用Excel或金山表格打开。*.csv文件的第一行给出了列的名字，如“code6k.gb.csv”中第一行为“汉字,王码六键”，表示表格有两列，第一列为汉字，第二列为王码六键代码，值与值间用逗号分隔（这是*.csv名字由来——Comma Separated Values，逗号分隔开的值），缺少的值留空。GB18030-2000汉字的王码六键代码全部缺失，大一统原来就是这样。
fullcode.v06.gb+.csv - GB18030-2000汉字的新世纪全码数据
fullcode.v06.gb.csv - GB2312汉字的新世纪全码数据
fullcode.v06.gbk.csv - GBK汉字的新世纪全码数据
fullcode.v86.gb+.csv - GB18030-2000汉字的86全码数据
fullcode.v86.gb.csv - GB2312汉字的86全码数据
fullcode.v86.gbk.csv - GBK汉字的86全码数据
fullcode.v98.gb+.csv - GB18030-2000汉字的98全码数据
fullcode.v98.gb.csv - GB2312汉字的98全码数据
fullcode.v98.gbk.csv - GBK汉字的98全码数据
全码数据给出了汉字的拆分和容错码。使用拆分数据可建立对初学者非常有益的拆分表（http://tieba.baidu.com/p/2329998106）。第二列即是拆分，它引用字根的标识来说明汉字是如何拆分的，如：
汉字,拆分,标志,容错码
的,r+10 q+14 y+01 y+00,5,
表明“的”可分为三个字根（r+10、q+14和y+01），外加识别码y（y+00表示作为识别码的y，“字母+00”实际不是字根，是为了方便处理，将表示识别码的图形当成假想的字根）。第四列是容错码，这个缺得比较多，原因是显然的。第三列标志大体等价于简码标识，但并不完全等价，实际上很多不是简码的字也设置了标志，大一统设置标志是为了控制词条顺序（不过并非从频率方面控制）。
reading.gb+.csv - GB18030-2000汉字的读音
reading.gb.csv - GB2312汉字的读音
reading.gbk.csv - GBK汉字的读音
第一列是汉字，第二列给出其读音。单个读音表示为“声母+韵母”，多个读音用空格隔开。
shortcut.v06.s1.csv - 新世纪一级简码
shortcut.v06.s2.csv - 新世纪二级简码
shortcut.v06.s3.csv - 新世纪三级简码
shortcut.v86.s1.csv - 86一级简码
shortcut.v86.s2.csv - 86二级简码
shortcut.v86.s3.csv - 86三级简码
shortcut.v98.s1.csv - 98一级简码
shortcut.v98.s2.csv - 98二级简码
shortcut.v98.s3.csv - 98三级简码
简码中其实还有些繁体字，大一统实际不会显示它们。但我们见到的大一统是简体版，所以这些繁体字可能是在繁体版大一统中使用的。如果自己想用这里的简码表构造码表，则应注意筛掉繁体字。
symbols.csv - 大一统符号列表
variables.csv - 大一统变量列表
words.txt - 大一统词组列表
每个输入法软件都自定义了一套符号输入规则，大一统也是。每个都搞一套，换个软件又得重学一遍，所以最好能修改成自己习惯的规则，待实现了编码器后就能办到。变量的规则没有仔细研究，总的来说就是让能输入日期、时间等。词组“不是”用的*.csv格式，而是用的*.txt，这是为了便于使用，一个词组一行更容易处理。大一统有些词组带有读音，这可能也是有用的（若词中有多音字，则不能从单字读音推导出词组的读音），但总的来说比较鸡肋（从别的拼音输入法提取的可能更全面），所以这一版就没有提取了，不过若需要，通过解码程序提供的编程接口是可以访问到的。
文件被分得足够细，以便不会编程的网友使用Excel等工具也可折腾。但总的来说Excel等还是不够灵活，要想完全按自己的想法对码表进行操作，最好还得自己会编程，这里作者推荐学习Python语言。以后作者也会做一些小程序，以便大家不会编程也能折腾折腾。
xionghuaidong@163.com
3:20 2013/7/13