王者荣耀吧 关注:14,457,894贴子:446,024,713
  • 1回复贴,共1

鸿雁拼音输入法windows版和安卓版(拥有230万词库、基于220亿字典

只看楼主收藏回复

开发理念:
不以盈利为目的,本着开源共享的精神,使用网络上可以公开获得的数据,打造一个高准确率的拼音输入法,免除弹窗、捆绑安装、强制升级的烦恼。
商业化的输入法有经济利润的驱动,投入大量的人力,拥有较高的词库质量。当商业化倾向过于严重时,会影响用户体验。闭源的数据和代码,让一般民众无法参与到产品核心功能的改进,无法吸纳群体的智慧。
开源的和免费的输入法属于兴趣驱动,人力投入匮乏,良莠不齐,缺乏高质量的词库和功能体验。
大学研究人员对于汉语词频、拼音、分词的学术性研究,拥有科研基金的支持,有高水平人才的参与,学术成果拥有较高的质量,但研究者没有将学术成果转化为实用性较强的拼音输入法倾向。
鱼与熊掌不可兼得,综合吸纳了商业化、开源化、学术化的产品三方优点,鸿雁拼音输入法诞生了,同时拥有windows版和安卓版。
语言属于公共领域的财产,广大人民群众贡献了整个语言体系的的走向趋势。人民群众的语言是开源非加密的,商业拼音输入法在获取成千上万人的开源的语言后,分析其中的规律,推出更符合语言规律的拼音输入法,形式却是闭源的、加密的,而且是私人领域的财产。这在法律和道德上是不对等的。成熟的商业拼音输入法应当适当程度公开其获得的语言规律,也采用开源的形式。这叫取之于民,还之于民。算法可以理解为商业机密,词条数据认为完全属于私人财产是不合适的。算法的创造者是软件公司,而词条的贡献者并不是软件公司,而是来自成千上万的人民群众贡献的语料库,这属于公共领域的财产衍生品,同样属于公共领域的财产。词条数据的归属权大部分属于共用领域,少部分属于私人领域。
一些包含弹窗、捆绑安装、强制升级的商业化输入法,以前因为其强大的拼音词库你不得不用,从此可以对它们说再见了。


IP属地:加拿大1楼2022-08-10 18:00回复
    拼音数据来源
    Unicode 14的字符,使用最新版perl正则引擎“\p{han}”作为识别汉字字符的标准,去除没有拼音的部分,剩下的字符入选到输入法可输入汉字列表中。无论是微博语料库,还是百度百科语料库、人民日报语料库,常用的汉字大约5000个,而汉典收录了93898个汉字,异体字字典收录106330个字,绝大部分汉字躺在书中睡觉,一般我们很少接触到它们。
    找到一个大而全并且准确、可用的拼音库,存在不少的难度。公开的拼音数据库大部分存在不少错误,权威的拼音数据库,比如现代汉语词典、汉语大字典没有可靠的官方文本数据。办法总是有的,可以在多个拼音库的基础上,按照权威性、准确性采用分级投票的方式获得可靠性高、准确率高、涵盖汉字数量多的拼音库。
    以新华字典、通用规范汉字字典、异体字字典为准,作为第一阶梯数据。使用汉典网、百度汉语、字统网的数据作为补充,作为第二阶梯数据。unicode 13标准中的汉字拼音、字海(叶典)网的拼音数据存在不少错误,辞源、古汉语常用字字典第5版、汉语大词典、汉语大字典、现代汉语词典第7版的拼音数据因为数据来源是通过OCR获得的,也存在不少错误。这些数据仅用于第三梯队,不直接采纳数据,仅仅对第一、第二阶梯的拼音数据投票。
    按照前述的拼音数据合并方案输出的汉字-拼音数据库,涵盖汉字共计41442个,拼音的权威性、准确性、多音字的数据完整性得到较大改善。
    下载链接:
    https://hong-yan.lanzouw.com/b00vvkivc
    密码:1234


    IP属地:加拿大4楼2022-08-10 18:02
    回复