CiteSpace关键词聚类实战：从数据预处理到可视化分析全流程解析

通过这次从数据清洗、参数理解到可视化解读的全流程实践，我们可以看到，CiteSpace的关键词聚类分析不是一个“一键出图”的简单操作。它需要我们像侦探一样，对数据质量进行把关，对算法参数进行斟酌，最后对可视化图形进行合理解读。每一个环节的细微调整，都可能影响最终发现的“知识图谱”。掌握这个流程后，你就能更自信地运用CiteSpace去探索未知的学术领域，让海量文献数据自己“说话”，揭示出隐藏在研究

山野来信

131人浏览 · 2026-03-25 11:59:43

山野来信 · 2026-03-25 11:59:43 发布

在文献计量分析领域，面对海量的学术文献，传统的人工阅读和归纳方法显得力不从心。研究者往往需要耗费大量时间，却难以系统、客观地把握一个领域的研究全貌、知识结构和发展脉络。这时，基于关键词共现网络的聚类分析就成为了一个强大的工具。它能够将成千上万篇文献中的关键词，通过算法自动归类，形成一个个研究主题“社区”，从而直观地揭示领域内的研究热点和知识板块。

在众多可视化分析工具中，CiteSpace以其强大的时序分析（Time Slicing）和突现检测（Burst Detection）功能而闻名。今天，我们就来实战演练一下，如何用CiteSpace完成一次从原始数据到可视化图谱的关键词聚类全流程分析。

文献计量分析示意图

1. 工具选择：CiteSpace vs. 其他

在开始之前，我们简单对比几款主流工具。VOSviewer在构建美观的静态图谱方面非常出色，其聚类算法（VOS clustering）更注重局部密度，图谱通常更紧凑。HistCite则擅长引文编年分析，但在复杂的网络聚类和可视化方面功能较弱。

CiteSpace的核心优势在于其动态的、基于时间切片的分析能力。它默认采用的Louvain社区发现算法，是一种基于模块度（Modularity）优化的高效算法，特别适合从大型网络中挖掘层次化的社区结构。这使得CiteSpace不仅能展示当前的知识结构，还能通过时间线视图（Timeline View）或时区视图（Timezone View）展现研究主题的演变过程。如果你关注的是一个领域如何随时间发展和分化，CiteSpace是更合适的选择。

2. 实战第一步：数据预处理与清洗

CiteSpace支持Web of Science、CNKI、Scopus等多种数据源。我们以最常用的Web of Science（WoS）导出的纯文本数据为例。原始数据往往存在重复记录、作者姓名格式不一、机构名称缩写不同等问题，直接影响后续网络构建的质量。

虽然CiteSpace内置了基础的数据转换功能，但面对复杂情况，用Python先做一轮清洗会更高效。这里我们使用Pandas库。

import pandas as pd
import re

def clean_wos_data(filepath):
    """
    清洗Web of Science导出的数据
    """
    try:
        # 读取数据，WoS导出文件通常是制表符分隔
        df = pd.read_csv(filepath, sep='\t', encoding='utf-8', on_bad_lines='warn')
        print(f"原始数据记录数: {len(df)}")

        # 1. 基于DOI去重（如果存在DOI字段）
        if 'DI' in df.columns:
            df_cleaned = df.drop_duplicates(subset=['DI'], keep='first')
            print(f"基于DOI去重后记录数: {len(df_cleaned)}")
        else:
            df_cleaned = df.copy()
            print("未找到DOI字段，跳过DOI去重")

        # 2. 作者字段标准化（AU字段）
        if 'AU' in df_cleaned.columns:
            # 将作者分隔符统一为分号，并去除首尾空格
            df_cleaned['AU'] = df_cleaned['AU'].apply(
                lambda x: '; '.join([a.strip() for a in str(x).split(';')]) if pd.notna(x) else x
            )

        # 3. 机构字段标准化（C1字段）
        if 'C1' in df_cleaned.columns:
            # 这是一个复杂的字段，可能包含作者和机构，这里进行简单清洗
            # 例如移除邮箱、统一分隔符等，可根据实际数据情况调整正则表达式
            def clean_affiliation(aff):
                if pd.isna(aff):
                    return aff
                # 移除常见的邮箱模式（简单示例）
                aff = re.sub(r'\S*@\S*\s?', '', aff)
                # 将多个分隔符（如逗号、分号）统一为分号
                aff = re.sub(r'[;,\s]+;', ';', aff)
                return aff.strip()

            df_cleaned['C1_cleaned'] = df_cleaned['C1'].apply(clean_affiliation)

        # 4. 关键词字段清洗（DE字段-作者关键词，ID字段-扩展关键词）
        for field in ['DE', 'ID']:
            if field in df_cleaned.columns:
                df_cleaned[field] = df_cleaned[field].apply(
                    lambda x: '; '.join([kw.strip().lower() for kw in str(x).split(';')]) if pd.notna(x) else x
                )

        # 保存清洗后的数据，供CiteSpace导入
        output_path = filepath.replace('.txt', '_cleaned.txt')
        df_cleaned.to_csv(output_path, sep='\t', index=False, encoding='utf-8')
        print(f"数据清洗完成，已保存至: {output_path}")
        return output_path

    except FileNotFoundError:
        print(f"错误：未找到文件 {filepath}")
        return None
    except Exception as e:
        print(f"数据处理过程中发生未知错误: {e}")
        return None

# 使用示例
clean_wos_data('savedrecs.txt')

这段代码完成了核心的清洗工作：基于DOI去重、统一作者和关键词的分隔符、对机构信息进行简单清理。处理后的数据能显著提升在CiteSpace中构建网络的准确性。

3. CiteSpace核心参数配置详解

将清洗后的数据导入CiteSpace后，在项目设置中会遇到几个关键参数，理解其背后的原理对获得理想图谱至关重要。

时间切片（Time Slicing）：这是CiteSpace动态分析的基石。你需要根据研究领域的发展速度来划分时间段。例如，对于一个快速发展的技术领域，可以按年甚至半年切片；对于成熟学科，可以2-3年一切片。切片越细，越能捕捉细微的演变，但每个切片内的数据可能过少。
网络修剪：Pathfinder算法：CiteSpace默认使用Pathfinder网络缩放算法。它的数学原理是，基于三角不等式定理，只保留节点之间最短路径上的关键连接，移除冗余的、不重要的连线。这能大大简化网络，突出核心结构，避免图谱变成一团乱麻。简单理解，它只保留“捷径”，去掉“绕远路”的边。
节点权重：g-index：在构建关键词共现网络时，CiteSpace常用g-index来计算节点重要性。g-index是h-index的一种变体，它更关注高被引贡献。对于一个关键词，如果其出现的论文按被引频次降序排列，g-index就是最大的数字g，使得前g篇论文的总被引次数至少为g²。这比简单的出现频次更能衡量一个关键词的影响力。

网络分析参数设置界面

4. 聚类、可视化与结果解读

运行分析后，CiteSpace会生成网络并自动聚类。这时，我们需要关注两个评估聚类质量的指标：

模块度（Modularity, Q值）：范围在0-1之间，值越大表示网络社区结构越明显。一般Q>0.3就认为网络具有显著的模块结构。在CiteSpace的“聚类”面板中，你可以通过调整“聚类算法”下的参数来优化Q值。
轮廓系数（Silhouette Score, S值）：衡量一个节点与其自身聚类内的节点相似度，相对于其他聚类节点的相似度。S值接近1，说明聚类效果好；为0，说明节点处在边界；为负，则可能分错了聚类。CiteSpace会给出平均轮廓系数。

调整步骤：

在可视化主界面，点击顶部菜单栏的“Cluster” -> “Find Clusters”。
在弹出的聚类参数窗口中，可以尝试调整“Resolution”参数（通常与Louvain算法相关）。增大该值可能会产生更多、更小的聚类；减小则会产生更少、更大的聚类。
每次调整后，重新运行聚类，观察左侧信息面板中“Summary”表格里的“Modularity”和“Mean Silhouette”值的变化，寻求一个平衡点。
选择聚类标签来源（如从标题TI、摘要AB、关键词DE中提取），CiteSpace会用LLR（对数似然率）算法为每个聚类提取一个最具代表性的标签。

解读图谱时，重点关注：

节点大小：通常代表出现频次或中心性。
聚类颜色：不同颜色代表不同的研究主题社区。
连线粗细：代表共现强度。
时间线视图：可以看到不同聚类主题在不同时间段的活跃程度，清晰呈现研究热点的兴起、衰落与更迭。

5. 常见问题与避坑指南

CNKI数据导入乱码：这通常是由于字符编码问题。CNKI导出的数据可能是GBK或GB2312编码，而CiteSpace默认可能使用UTF-8。解决方案是，用记事本或代码编辑器（如VS Code）打开CNKI的txt导出文件，另存为时选择编码为UTF-8或UTF-8 with BOM，然后再导入CiteSpace。
突现词检测（Burst Detection）的时间偏差：CiteSpace的突现检测算法依赖于文献的出版年份。如果数据中大量文献的出版日期信息不准确（例如只有年份，没有月份），或者你的时间切片设置与实际的学科发展节奏不匹配，可能会导致突现词的开始和结束时间判断不准。建议在分析前检查数据的年份字段是否完整，并根据领域特点合理设置时间切片粒度。