> ## Documentation Index
> Fetch the complete documentation index at: https://base.bangwu.me/llms.txt
> Use this file to discover all available pages before exploring further.

# Information retrieval

> Course notes on information retrieval covering document classification, ISBN/ISSN identification, Boolean search strategies, and precision/recall metrics.

# 信息检索

消息-数据-信息-知识-智慧-文献

> **文献是记录有知识的一切载体。**

## 文献的分类

1. 按载体形式：印刷型或称纸型（纸张），缩微型，电子型，声像型
2. 出版形式（重要）：图书（篇幅达到48页以上），期刊（占比最大），报纸，会议文献，政府出版物，学位论文，档案，专利文献，标准文献，产品资料。【除图书与期刊外，都是特殊文献】
3. 文献加工级别分类：零次文献（未公开的），一次文献（原始文献），二次文献（检索性文献，将一次文献组织起来），三次文献（参考性文献，类似于文献综述）

文献类型的识别，如何识别。

`ISBN`（国际标准书号），`ISSN`（国际标准连续出版物号）`CN`（国内统一刊号）。只有ISSN而无国内统一刊号在国内被视为非法出版。

## 信息检索概念

> **概念**

* 广义：信息检索包含信息存贮和信息查找两个过程。
* 狭义：信息检索仅仅指信息查找的过程。

文献标引——数据标注，查准率与查全率。

信息检索工具（参考性工具书，检索性工具书）是在一次文献基础上加工而成的二次或三次文献。OPAC（联合公共目录检索系统）

* 参考性工具：辞书、类书、政书、百科全书、年鉴、手册、表谱、图录、名录等
* 检索性工具：书目、索引、文摘等

**目录的作用**：揭示、报道单位出版物的外表特征。可以找到原文馆藏。

**索引的作用**：从各个角度揭示文献的内容，为用户提供文献线索。

> **文摘的作用**

1. **具有压缩、指引一次文献的功能**
2. 便于相关文献集中阅读。掌握某一类信息的总体情况。
3. 有些情况下是原始文献的代用品
4. 避免漏检和误检
5. **消除语言障碍**

Web of Science，LISTA

## 信息检索原理及语言

中国图书馆图书分类法，**主题词款目举例**。主题词与关键词最大的区别就是主题词经过了规范化处理。

![bangwu\_20240525153128](https://cdn.bangwu.top/img/bangwu_20240525153128.webp)

主题检索语言：`关键词语言`、`标题词语言`、`单元词语言`、`叙词语言`

此处“主题”非彼处“主题”。中国期刊网的“主题”检索途径，似乎是主题语言，但却不是。新主题：包括一篇文章的所有主题特征，同时在检索过程中嵌入了专业词典、主题词表、中英文对照词典、停用词典等工具，并采用关键词截断算法，将低相关的文献进行进行截断。

DOI标识期刊，DOI是一个永久性的标识号。

ORCID：其意义同科学文献领域的DOI（数字唯一标示符）是一样的。DOI好比是科技文献的身份证，一文一证；ORCID好比是科研人员的学术身份证，一人一证。

## 语义网络

**语义网络**是以图解的形式对知识进行表达， 知识中的概念、属性、实体以节点表示，概念与概念或实体之间存在关系则以弧 线表示，形成一幅网络结构形式的有向描述图。

本体提供领域中所有词汇对应的基本术语和关系从而描述该领域，再利用这些术语和关系结合形成规则，用以规范和定义必要词汇外延。

语义检索是把信息检索与人工智能技术、自然语言技术相结合的检索概念空间是一种包含语义关系的计算机可识别和操作的概念集合。

本体提供一组术语和概念来描述某个领域，知识库则使用这些术语来表达该领域的事实。

**中文核心期刊**【后面四个是国外四大检索工具】

![bangwu\_20240525155212](https://cdn.bangwu.top/img/bangwu_20240525155212.webp)

检索字段解释，AND \* OR 等等，给出检索式要能解释其中的意图。参考👉：[https://zhuanlan.zhihu.com/p/690909739](https://zhuanlan.zhihu.com/p/690909739)

高校财经数据库，INFOBANK

专利分类：**发明专利、实用新型专利【有的国家没有此项】、外观设计专利**。专利特点：专有性、地域性、时间性。

IPC：国际专利分类。在专利检索上非常重要

常用标准检索数据库：中国知网，万方标准。标准有作废的问题。

<details>
  <summary>简短总结</summary>
  将内容分成几个主要部分进行复习：信息的定义、文献类型和特征、信息检索概念及工具、信息检索方法和技术、以及常见的数据库和评价公司信息的方法。

  ### 1. 信息的定义

  **申农**: 信息是能够减少不确定性的任何事物。

  **维纳**: 信息是我们在适应外部世界并使这种适应作用于外部世界的过程中，与外部世界交换的内容。

  **国标**: 信息是物质存在的一种方式、形式或运动状态，可以减少事件的不确定性。

  ### 2. 文献的定义和分类

  **文献**: 记录有知识的一切载体。

  **按载体形式分类**:

  * 印刷型（纸型）
  * 微缩型
  * 机读型（电子型）
  * 声像型（视听型）

  **按出版形式分类**:

  * 图书
  * 期刊
  * 报纸
  * 会议文献
  * 标准文献
  * 专利文献
  * 政府出版物
  * 学位论文
  * 档案
  * 产品资料

  **按文献加工级别分类**:

  * **零次文献**: 未经公开发表或交流的文献（实验记录、文章草稿、笔记等）。
  * **一次文献**: 原始文献，包含研究或研制成果（期刊论文、专利说明书、会议论文等）。
  * **二次文献**: 检索性文献，浓缩和组织一次文献（书目、文摘、索引等）。
  * **三次文献**: 参考性文献，综合一、二次文献的研究成果（综述、专题述评、数据手册等）。

  ### 3. 信息检索的概念

  **广义信息检索**: 包含信息存储和信息查找两个过程。

  **狭义信息检索**: 仅指信息查找的过程。

  **信息检索类型**:

  * **强相关检索**: 强调检索的准确性。
  * **弱相关检索**: 强调检索的全面性。

  ### 4. 信息检索工具

  **文献检索工具**: 基于特定需要，汇编知识材料，便于查找数据和文献线索。

  **参考性工具书**: 辞书、百科全书、年鉴等。

  **检索性工具书**: 书目、索引、文摘等。

  ### 5. 信息检索方法和技术

  **追溯法**: 从已有文献的参考文献入手，不断扩展检索线索。

  **工具法**: 利用文摘、题录或索引等检索工具。包括顺查法、倒查法和抽查法。

  **布尔逻辑检索**: 使用布尔逻辑表达式（and、or、not）进行检索。

  **截词检索**: 使用截词符号（\*、？、\$）进行部分词检索。

  **位置运算检索**: 表示检索词间的位置关系。

  **限定检索**: 利用字段代码限制检索词的出现范围。

  ### 6. 常见的数据库

  **中文期刊数据库**:

  * 中国学术期刊全文数据库
  * 维普中文期刊数据库
  * 万方数字化期刊
  * 龙源期刊网

  **国外数据库**:

  * Web of Science
  * IEEE
  * EBSCO

  ### 7. 评价公司信息的方法

  **公司公众影响力**:

  * **媒体报道和社交媒体分析**: 查看公司新闻报道和社交媒体讨论。
  * **公司年报和公告**: 查看公司的年报和财务报表。
  * **第三方评估和排名**: 参考第三方机构的评估和排名（如财富杂志的“世界500强”）。
  * **公众舆情监测工具**: 使用舆情监测工具（如新浪舆情通）。

  **企业征信检索**:

  * **国家企业信用信息公示系统**
  * **企查查**

  **商标查询**:

  * **国家知识产权局商标局**

  **专利信息**:

  * **国家知识产权局专利检索系统**
  * **智慧芽**
  * **innojoy**
</details>
