第154章 你渴望推开那扇门么(上)(3 / 3)

加入书签

识库的方法来计算语义文本相似度可不只是这一种方法。

据林灰所知基于知识库的语义文本相似度计算方法根据知识库的类型其实是可以分为两大类。

除了基于网络知识方法的话。

还有一类是基于本体的方法。

这类方法运用结构化语义词典进行计算。

其基本思想就是运用这些语义词典中包含的概念信息和概念间的层次关系进行语义文本相似度计算。

按理说既然想到了基于知识库的语义文本相似度计算方法的话应该首先想到基于本体的相似度计算方法才对才对啊。

为什么没先想到基于本体的方法?

回想起伊芙先前的自我介绍,林灰恍然大悟。

伊芙的团队没想到这种方法也可以理解。

毕竟伊芙他们的团队原本是和谷/歌方面深度合作的。

基于网络知识的方法利用网页内容和超链接相似度进行计算的话虽然不容易。

但谷/歌的老本行PageRank算法引入到NLP领域后实现的功能本就跟这个差不多。

这样看来,和谷/歌方面的团队有过深度合作关系的伊芙团队忽视基于本体的方法而直接选择基于网络知识的方法也是可以理解的。

【认识十年的老书友给我推荐的追书app,咪咪阅读!真特么好用,开车、睡前都靠这个朗读听书打发时间,这里可以下载 www.mimiread.com 】

说起来基于网络知识方法计算相似度实现起来并不容易。

毕竟网页中知识颗粒度较粗。

说白了就是网页中有用的东西少。

加之部分网页的知识结构化程度较低。

如果直接对所有的网页链接进行分析,会导致知识含量稀疏、计算困难等问题。

因此必须找网页结构高同时知识内容集中的网页才适合开发基于网络知识评估文本相似度的方法。

什么样的网页具有这一特征呢?

Wiki百科和摆渡百科。

只有这两个对应的网页同时具备网页结构程度化高以及网页中有用的东西多这两点。

也正因为如此,林灰记得前世搞/基于网络知识的文本相似度识别的主要就是谷/歌和摆渡两家。

说起来某度能长期居于B/AT之首还是有些实力的。

至少不像外人以为的那般花架子。

伊芙·卡莉之后又详细地介绍了一些基于网页知识文本识别度的内容。

之所以详细介绍这方面的东西。

林灰知道的,伊芙·卡莉其实还是好奇林灰究竟是使用何种相似度模型来评估文本摘要和摘要之间的语义相关的?

林灰没有直接回答。

而是反问道:“为什么不考虑使用向量介入到文本相似度评估呢?”

↑返回顶部↑

书页/目录