例如:山西和山西省,新疆和新疆维吾尔自治区,摩托罗拉和Moto,facebook和fb,等等,应该用什么算法呢? 只知道字符串的精确匹配和字符串最短编辑距离肯定是不行的了。
山西
山西省
新疆
新疆维吾尔自治区
摩托罗拉
Moto
facebook
fb
那要看你怎么个模糊法
indexOf(“abc”) 从开头向后查找字符串第一次出现的位置,如果没找到返回-1
word2vector模型得到单词的词向量,通过词向量的余弦距离最近的topk
2 回答1.1k 阅读
1 回答743 阅读
1 回答591 阅读
641 阅读
2 回答6.8k 阅读✓ 已解决
2 回答4.7k 阅读
5 回答6.2k 阅读✓ 已解决
3 回答8.8k 阅读✓ 已解决
795 阅读
那要看你怎么个模糊法