- 编辑距离
- 杰卡德系数计算
- 余弦相似度
- simnet 模型
编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。
例如将kitten一字转成sitting:('kitten' 和 ‘sitting' 的编辑距离为3)
sitten (k→s)
sittin (e→i)
sitting (→g)
计算公式 A交B/A并B
例如 clone 和 alone 相似度
len('lone')/len('calone')=4/6
余弦相似度,是通过计算两个向量的夹角余弦值来评估向量间的相似度。将向量根据坐标映射到向量空间。求得他们的夹角,并得出夹角对应的余弦值,余弦值就可以用来表示这两个向量的相似性。
夹角越小,余弦值越接近于1,它们的方向更加吻合,则越相似。两个向量A,B之间的余弦相似度计算公式如下:
其中A 和 B 是文本的特征向量,可以基于 n-gram 或是bert生成
基于分类模型实现的相似度计算模型,训练数据为一对一对的文本pair对,标签为0(不相似) 和1 (相似),参考百度paddle 的simnet模型
柏格曼 橱柜 有 吗 除了 橱柜 , 其他 可以 定制 吗 ? 0
皮 表带 断了 能 修 吗 ? 扣 表带 的 地方 断了 , 能 修 吗 ? 1
你好 、 请问 你们 有 实木 橱柜 门板 批发 吗 ? 除了 橱柜 , 其他 可以 定制 吗 ? 0
手表 不动 了 怎么 办 手表 不走 了 怎么 办 ? 1
个体 营业执照 代办 你们 这 可以 办理 营业执照 吗 1