
bertopic是一种强大的主题建模工具,它结合了bert嵌入、umap降维和hdbscan聚类。在hdbscan聚类阶段,那些不符合任何核心聚类条件的文档会被标记为异常值,并统一分配到-1主题。虽然这些异常值在某些情况下可以被忽略,但当大量文档(例如,超过四分之一的数据集)被归类到-1主题时,这通常意味着模型未能有效地识别出这些文档所属的主题,导致主题分布不均,并可能掩盖了潜在的有意义的主题。
例如,在一个包含40,000个短文本的技能描述数据集中,如果高达13,573个文档被分配到-1主题,而其他主题的文档数量相对较少,这显然不是一个理想的主题分布。在这种情况下,优化异常值处理成为提升模型性能的关键。
BERTopic提供了一个专门用于减少异常值的内置函数——reduce_outliers。这个函数旨在将那些被标记为-1的异常文档重新分配到最接近它们的非异常主题中。它通过计算异常文档与现有主题之间的相似度或距离来实现这一目标,从而为这些文档找到一个更合适的归属。
reduce_outliers函数的核心思想是,即使是异常值,它们也可能与某个现有主题在语义上有所关联。通过利用这些潜在的关联,该函数可以尝试将它们“吸收”到已识别的主题中。它不需要用户进行复杂的参数调整,只需传入原始文档和模型训练后得到的初始主题分配即可。该函数会智能地识别并处理异常文档,将其重新分配到非异常主题,从而减少-1主题中的文档数量。
以下是如何在BERTopic模型训练后使用reduce_outliers功能的最小示例:
from bertopic import BERTopic
from sentence_transformers import SentenceTransformer
import pandas as pd
# 假设您有一个名为 'skills_augmented' 的文档列表
# 这里我们创建一个模拟数据用于演示
docs = [
"Python programming skills",
"Java development experience",
"Data analysis with Pandas",
"Machine learning algorithms",
"Cloud computing expertise",
"Project management methodologies",
"SQL database administration",
"Frontend web development",
"Backend API design",
"Agile software development",
"Excellent communication skills", # 潜在的异常值
"Team collaboration abilities", # 潜在的异常值
"Strategic planning", # 潜在的异常值
"Problem-solving aptitude", # 潜在的异常值
"Customer service orientation" # 潜在的异常值
] * 100 # 模拟40000个文档,这里简化为1500个
# 1. 加载或训练嵌入模型
llm_mod = "all-MiniLM-L6-v2"
model = SentenceTransformer(llm_mod)
# 2. 生成文档嵌入
embeddings = model.encode(docs, show_progress_bar=True)
# 3. 训练BERTopic模型
# verbose=True 会显示训练过程中的信息
bertopic_model = BERTopic(verbose=True)
topics, probs = bertopic_model.fit_transform(docs, embeddings)
print("--- 原始主题分布 ---")
# 统计主题分布
topic_counts = pd.Series(topics).value_counts()
print(topic_counts.head())
# 4. 减少异常值
# new_topics 将包含重新分配后的主题ID
new_topics = bertopic_model.reduce_outliers(docs, topics, embeddings=embeddings)
print("\n--- 优化后的主题分布 ---")
# 统计优化后的主题分布
new_topic_counts = pd.Series(new_topics).value_counts()
print(new_topic_counts.head())
# 检查-1主题的文档数量是否减少
if -1 in topic_counts.index:
original_outliers = topic_counts[-1]
print(f"\n原始-1主题文档数: {original_outliers}")
else:
original_outliers = 0
print("\n原始主题分布中没有-1主题。")
if -1 in new_topic_counts.index:
new_outliers = new_topic_counts[-1]
print(f"优化后-1主题文档数: {new_outliers}")
else:
new_outliers = 0
print("优化后主题分布中没有-1主题。")
if new_outliers < original_outliers:
print(f"成功减少了 {original_outliers - new_outliers} 个异常值。")
elif original_outliers > 0 and new_outliers == original_outliers:
print("未能减少异常值,可能需要尝试其他策略或调整参数。")
else:
print("异常值处理完成。")在上述代码中,reduce_outliers函数接受docs(原始文档列表)和topics(BERTopic模型初始分配的主题ID列表)作为必要参数。如果模型是在嵌入上训练的,传入embeddings参数可以提高效率。函数执行后,会返回一个包含优化后主题分配的新列表new_topics。
BERTopic的reduce_outliers功能是处理主题模型中大量异常值(-1主题)的有效工具。通过简单的函数调用,它能够将未被聚类的文档重新分配到最相关的现有主题中,从而优化主题分布,提高模型的整体性能和主题的可解释性。理解其工作原理并结合实际数据进行迭代优化,将有助于从BERTopic模型中提取出更准确和有意义的主题洞察。
以上就是BERT主题模型中异常值(-1主题)的优化策略的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号