From 115d95bbef4075f721e6c540a787ce5658264d87 Mon Sep 17 00:00:00 2001 From: heimoshuiyu Date: Fri, 18 Oct 2024 18:38:32 +0800 Subject: [PATCH] udpate README.md --- README.md | 6 ++++++ 1 file changed, 6 insertions(+) diff --git a/README.md b/README.md index ab01b4b..3e1908c 100644 --- a/README.md +++ b/README.md @@ -34,6 +34,12 @@ 对于旧数据:有风险分类信息,但在本轮聚类中没有被选为聚类代表的新闻,**不会** 被更新风险分类信息。 +## 关于数据聚类算法的说明 + +文本向量是维度为 1024 的 float16 一维数组。向量之间使用 cosine 距离计算相似度。 + +由于聚类的目的是去重,因此 DBSCAN 是比较合适的算法。目前指定使用参数 EPS=0.25 最小聚类数量 2。基本上有 2 条重复的或者语义相似的新闻都可以识别到同一个聚类中。 + ## 重复数据说明 由于新闻洗稿、转载、抄袭等原因,可能会出现同一篇新闻在多个平台发布的情况。牛媒数据中台把他们当作不同的新闻对待(拥有不同的 ID)。聚类算法可以从语义信息层面识别到这些重复新闻(包括完全重复和语义相似),并把他们归为一类。