> ## Documentation Index
> Fetch the complete documentation index at: https://base.bangwu.me/llms.txt
> Use this file to discover all available pages before exploring further.

# Data visualization and informetrics

> Course notes on informetrics covering Lotka's law, Bradford's journal distribution law, Zipf's word frequency law, and citation analysis.

# 数据可视化

选择、名词解释

## 信息计量学绪论

### 1. 信息计量学的由来和产生背景

利用“引文分析法”研究一些国家的化学家所做的贡献；——>“书目分析法”——>“统计书目学”——>“洛特卡”定律揭示了**作者与著作量**之间的数量关系——>根据被引次数列出核心期刊——>“布拉德福定律”反应**科学论文**在科技期刊中的分布规律——>“齐普夫定律”反应科学文献中的**词频分布**规律——>“半衰期”揭示科学文献的老化规律——>期刊数量的指数增长规律——>“信息计量学”Informetrics

### 2. 信息计量学的基本内容

信息计量学被定义为：采用定量方法来描述和研究信息的现象、过程和规律的一门学科。

狭义信息计量学主要是研究情报信息的计量问题。

### 3. 信息计量学的相关学科

![bangwu20250424130351.jpg](https://cdn.bangwu.top/img/s0e6z-xqbangwu20250424130351.webp)

### 4. 信息计量学的发展趋势

1. 从文献计量向信息计量发展
2. 计算机辅助的信息计量研究和应用
3. xxx 计量学的产生和发展

## 文献信息增长规律

### 一、文献信息流的特征及增长规律研究

> 文献流

科技文献的汇流

> 文献信息流

文献中所含信息的总汇

文献信息流**特性**：

1. 动态特性——随时间的延续而增长或老化的性质【文献信息增长规律、文献信息老化规律】
2. 静态特性——在一定时间内，科学文献在空间的离散分布的性质【布拉德福定律、齐普夫定律、洛特卡定律】

科学文献增长规律的研究是信息计量学的主要研究课题之一。

> 分类

一、绝对值指标、相对值指标
二、累计数、非累计数

### 二、文献信息增长模型（规律）

1. 指数增长模型【年增长率近似等于持续增长率】在一定时期内，科技文献的数量会随着时间呈指数级快速增长。只有当事物的“持续增长率”为常数时，才满足“指数增长规律”
2. 逻辑增长模型【考虑到文献数量不可能无限增长，一些学者（如前苏联的纳里莫夫和弗莱杜茨）提出了逻辑曲线模型，作为对指数增长模型的补充和修正】初始阶段符合指数增长，成熟阶段逻辑增长
3. 线性增长模型【年增长量为常数】
4. 分级滑动指数模型【与纯粹的指数增长（持续高速）或平滑过渡到饱和的逻辑曲线（单一 S 形）不同，分级滑动指数模型认为文献增长不是一个连续平滑的过程，而是呈现出多个增长阶段叠加的形态，看起来像一个“阶梯”状的上升曲线】只有在文献量足够大的时候才成立

## 文献信息老化规律

> 文献老化

科学文献随其“年龄”的增长，失去了作为科学情报源的价值，以及因此越来越少被科学家和专家们利用的过程。

![bangwu20250424171349.jpg](https://cdn.bangwu.top/img/110ruz-9obangwu20250424171349.webp)

> 半衰期

指当前被引用的全部文献中，有多达一半是最近多少年内发表的。【这个“多少年”就是该学科文献的引文半衰期（Citation Half-Life）】

> 普莱斯指数

指某一领域或期刊的参考文献中，发表于最近若干年（通常是 5 年）内的文献所占的百分比。【 这个指数反映了一个领域对近期文献的依赖程度】

## 布齐洛分布

* 布 - 布拉德福定律（Bradford's Law）：描述了科学文献在期刊中的分散规律。该定律指出，如果按其载文量对期刊进行排序，可以将期刊分为三个区，这三个区载有的文章数量大致相等，而每个区包含的期刊数量大致成 1:n:n² 的比例关系。这一定律对于图书馆确定某学科的核心期刊、进行馆藏建设有重要指导意义。

* 齐 - 齐夫定律（Zipf's Law）：最初是关于词频分布的定律，指在自然语言的文本中，一个词出现的频率与它在频率表里的排名成反比。后来，这一定律也被推广应用于文献计量学，描述了例如词语、作者、主题等的出现频率与排名之间的关系。

* 洛 - 洛卡定律（Lotka's Law）：描述了科学作者的生产力规律。该定律认为，在某一学科领域，著述多产的作者数量较少，而著述不多的作者数量较多。具体来说，发表 n 篇论文的作者数量约是发表 1 篇论文的作者数量的 1/n²。

## 引文分析

> 引文分析的基本概念和方法：

* 区分书目分析法和引文分析法。
* 定义参考文献、引证文献、引文网络和引文分析。
* 阐述引证行为与引证动机，以及引证原则。
* 介绍引文分析的基本类型和步骤（获取数据、整理数据、分析）。

> 引文分布规律及主要指标分析：

* 探讨引文结构及意义，包括引文链和引文网络。
* 分析引文量的分布规律及其影响因素。
* 介绍引文的其他指标分析，如引文年代、语种、类型、国别、学科等分布。
* 详细讨论科学文献的自引分析，包括自引的概念、类型、强度（自引率）以及各种自引子类的分析。

> 引文网络与聚类分析：

* 解释引文耦合和同引（同被引）的概念、测度指标和特征，并比较它们的异同。
* 简述双引聚类分析的原理和方法步骤。

> 引文分析的主要工具：

* 介绍美国《科学引文索引》（SCI）、Web of Science（SCI-E）、《基本科学指标》（ESI）和《期刊引证报告》（JCR）的概况、结构、特点和应用。
* 提及国内引文分析的主要工具，如《中国科学引文数据库》（CSCD）、《中文社会科学引文索引》（CSSCI）等。

> 核心概念：

1. 引文分析：一种以文献引用数据为基础，对各种分析对象的引证与被引证现象进行分析，以便揭示其数量特征和规律的文献计量分析方法。
2. 引文网络：科学文献之间纵向继承和横向联系的交流态势结构。
3. 引文率、影响因子、期刊被引量、平均被引率、当年指标、引证系数：引文测度的主要指标。
4. 引文耦合与同引：两种描述文献之间关系的概念，前者反映引证文献之间的关系，后者反映被引证文献之间的关系。
5. 自引：在文献引用行为中，限于主体本身范围内的引用。

## DV-DataVisualization

这里只说一些我课上记的，PPT 没细看

![dv.jpg](https://cdn.bangwu.top/img/198581-n4dv.webp)

## 思考题

信息计量学：

1. 什么叫“信息计量学”？其研究对象和基本内容是什么？
2. 信息计量学的发展趋势是什么？
3. 信息计量学与相关学科的关系是什么？

文献信息流：

1. 何谓文献信息流？它有什么基本特性？
2. 科学文献信息增长律有哪些？以其中两种为例解释它们的基本内容是什么？
