首页 > 基础资料 博客日记

NLP segment-05-文本相似度计算 similarity java 开源实现

2024-11-02 22:00:04基础资料围观50

Java资料网推荐NLP segment-05-文本相似度计算 similarity java 开源实现这篇文章给大家,欢迎收藏Java资料网享受知识的乐趣

拓展阅读

分词系列专题

jieba-fenci 01 结巴分词原理讲解 segment

jieba-fenci 02 结巴分词原理讲解之数据归一化 segment

jieba-fenci 03 结巴分词与繁简体转换 segment

jieba-fenci 04 结巴分词之词性标注实现思路 speechTagging segment

jieba-fenci 05 结巴分词之简单聊一聊

关键词系列专题

NLP segment-01-聊一聊分词

NLP segment-02-聊一聊关键词提取 keyword

NLP segment-03-基于 TF-IDF 实现关键词提取 java 开源实现

NLP segment-04-自动摘要 auto-summary java 开源实现

NLP segment-05-文本相似度计算 similarity java 开源实现

NLP segment-20-分词开源项目介绍 HanLP 未来十年的自然语言处理

NLP segment-21-分词开源项目介绍 ansj_seg

倒排索引原理与实现 reverse-index

TF-IDF 自动生成文章摘要

TF-IDF 自动提取关键词

相似文章算法之语义指纹-文本内容去重

TF-IDF 找出相似文章算法

NLP segment-21-分词开源项目介绍 ansj_seg

开源项目

为了便于大家学习,项目开源地址如下,欢迎 fork+star 鼓励一下老马~

nlp-keyword 关键词

pinyin 汉字转拼音

segment 高性能中文分词

opencc4j 中文繁简体转换

nlp-hanzi-similar 汉字相似度

word-checker 拼写检测

sensitive-word 敏感词

前言

前面一些内容,我们介绍了分词。以及 TF-IDF 的实现原理。

基于分词实现 auto-summary 自动摘要。

这一节我们来一起看一下文本相似度的计算。

nlp-keyword

nlp-keyword 高性能的 java 分词关键词提取实现,基于分词 segment

愿景:成为 java 最好用的关键词工具。

特性

  • 基于 TF-IDF 算法的关键字算法

  • 灵活的条件指定

变更日志

文本相似度

maven 引入

<dependency>
    <groupId>com.github.houbb</groupId>
    <artifactId>nlp-keyword-similarity</artifactId>
    <version>1.2.0</version>
</dependency>

入门例子

final String source = "我喜欢看电影,读书和旅游。";
final String target = "我不喜欢看电影。我爱唱跳、RAP、Music~";

double rank = SimilarityHelper.similarity(source, target);

结果:

0.677537337470188

文章来源:https://www.cnblogs.com/houbbBlogs/p/18522534
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:jacktools123@163.com进行投诉反馈,一经查实,立即删除!

标签:

相关文章

本站推荐

标签云