嘉银科技推出自研“识澜”、“明经”双算法_嘉银科技吧

嘉银科技吧关注：3贴子：81

0回复贴，共1页

嘉银科技推出自研“识澜”、“明经”双算法

为进一步赋能决策科学和智慧运营，近日嘉银科技推出自研“识澜”音频数据挖掘算法和“明经”文本数据挖掘算法，全面释放非结构化数据价值，标志着公司科研能力和大数据实力再上新台阶。
非结构化数据是指不遵循固定格式或不易以传统数据库表格形式存储的数据。这类数据包括文本、图像、视频、音频等形式。相较于结构化数据，非结构化数据往往包含着更丰富的信息，但由于其复杂性，分析和处理这类数据需要更先进的技术，如自然语言处理（NLP）和机器学习。
基于多年的业务运营和数据积累，嘉银科技沉淀了丰富的数据“矿藏”。由于非结构化的特性，如何能从中提取有价值的信息转化为结构化数据，以进一步提高决策质量、提升客户体验，并最终推动业务增长，成为企业思考的重要课题。
经过探索和实践，嘉银成功自研了针对音频数据的“识澜”算法和针对文本数据的“明经”算法，根据不同业务场景，高效地从音频和文本数据中提取有价值的结构化数据，为下游的数据分析和建模提供更多决策支持。这两项最新成果展示了嘉银科技在科技领域的积极布局和对未来技术发展的深刻洞察，标志着数据驱动下，音频和文本数据深度理解和利用迎来新篇章。
音频数据挖掘算法命名为“识澜”，灵感源于声音犹如水纹波动，该算法能够从声音的波纹中识别出说话人情绪上的细微变化。嘉银决策科学中心通过利用数字信号处理（DSP）工具将音频文件转化为信号序列，再利用傅里叶变化分别从时域和频域的视角来提取说话人的声学特征，比如频谱质心、过零率、均方根能量等，这些特征旨在挖掘语音、语调、语速中蕴含的信息。由于人在不同的情绪状态下说话的方式会存在很大的差别，比如情绪激动的时候会语速加快、音调尖锐、提高音量等等，通过分析这些信息可以更完整地了解说话人在音频发生时的状态属性。
“明经”是古代科举考试的一种，旨在考察学生对儒学典籍的理解和运用能力。嘉银以此来命名文本数据挖掘算法，是希望它能够“学以致用”，从海量的文本里找到对业务有帮助的信息。目前，嘉银决策科学中心团队对传统的机器学习文本挖掘思路进行升级，让模型可以根据不同的业务场景自动化搜索有价值的关键词，并从近义词和同现词的角度对关键词库进行扩充，起到多路召回的作用。除此以外，公司还运用大语言模型（LLM)对命中文本的语义信息做进一步理解，来提升识别的准确性。这种传统机器学习和大语言模型相结合的方式，不仅让语义标签召回率和准确率实现同步提升，也助力公司业务降本增效。
目前，这两种数据挖掘算法已经成功运用于数据建模等场景，嘉银科技模型开发专家夏春秋表示，“结构化数据与非结构化数据起到很好互补作用，目前在多个场景下，声学和语义信息的融入都能给模型带来预测性能和稳定性能的提升。这充分证明了我们对非结构化数据的挖掘探索是有业务价值的。”