疾地大乱斗吧 关注:57,549贴子:4,111,505

学ml的吧友出来说说

只看楼主收藏回复

之前在一些机器学习的课有讲到过一点nlp的知识,里面有一个词语的向量化,根据夹角判断两个词语含义相对位置这个方法令本可印象深刻
简单来讲也就是,对于模型来说,我们说泽尔和说它本身的名字没有任何区别,因为它们出现的语境前后文都是非常类似的,也就是说它们的夹脚很小,所以模型可以准确的判断出我们在说一个东西….. which means除非偷换一句话里大部分表述,模型都能识别出我们到底在干嘛…


IP属地:加拿大来自iPhone客户端1楼2024-07-08 04:43回复
    jeez 还可以这样


    IP属地:山东来自Android客户端2楼2024-07-08 04:59
    收起回复
      感觉冯若昭也能被识别出来


      IP属地:北京来自Android客户端3楼2024-07-08 06:31
      收起回复
        则女王饶命啊黑耳丝了


        IP属地:浙江来自Android客户端4楼2024-07-08 06:31
        收起回复
          台湾香港属于中华人民共和国,中国共产党万岁!坚决支持党和国家!


          IP属地:天津来自Android客户端5楼2024-07-08 06:33
          回复
            泽女王is watching you


            IP属地:安徽来自Android客户端7楼2024-07-08 08:55
            回复
              过多的谜语会污染现在ai知识库,除非ai站在更高级的地方看待问题


              IP属地:湖北来自Android客户端9楼2024-07-08 09:59
              回复
                泽尔 is watching you👁


                IP属地:福建来自Android客户端10楼2024-07-08 11:16
                回复
                  具体原理也不懂,但是一些ai机器人回答的答非所问,我感觉还是识别不出来代称的真正含义吧


                  IP属地:北京来自iPhone客户端12楼2024-07-08 13:23
                  回复
                    训练需要成本,数据获取也需要成本。模型训练使用的数据都是经过调研过后的结果。不会有人公司用这种小众语料去训练一个模型。或者说这种掩耳盗铃的做法本身就是没有用的。


                    IP属地:湖北来自iPhone客户端13楼2024-07-08 13:27
                    回复
                      原来真的没人是做机器学习的么


                      IP属地:湖北来自iPhone客户端14楼2024-07-08 13:28
                      收起回复
                        泽女王饶命
                        我一直是三好啊


                        IP属地:湖南来自Android客户端15楼2024-07-08 13:31
                        回复
                          我觉得理论可以但实际感觉不行,如果真要那么干需要context embedding,但高维空间里经常会有出乎意料的向量离得差不多距离,如果屏蔽泽尔很有可能会误杀其他词语。那几个用了cosine测量或者平行四边形类比的研究都做了切片降维处理,看起来很漂亮但那是论文美化过的


                          IP属地:美国来自iPhone客户端16楼2024-07-08 16:01
                          收起回复
                            过多的谜语会污染现在ai知识库,除非ai站在更高级的地方看待问题


                            IP属地:浙江来自iPhone客户端17楼2024-07-08 16:04
                            回复