Wiki
C
C++
C++ 是一种计算机高级程序设计语言
D
Docker
一个开源的应用容器引擎,让开发者可以打包他们的应用及依赖到一个可移植的镜像中;
G
git
一个开源的分布式版本控制系统,可以有效地进行项目版本管理。
gitbook
(1)
一款现代化的文档平台,常用于编辑产品文档、知识分享、个人笔记等,支持与 GitHub 自动同步;
本项目的 GitBook 地址:studies-gitbook
(2)
一个基于 Node.js 的命令行工具,使用 Markdown 快速构建文档或书籍; 目前团队已不再维护,转向 GitBook 在线平台
官方 GitHub 地址(已不再维护):GitbookIO/gitbook
对 markdown 和 html 混写支持不佳,已不再使用
GitHub Action
GitHub Action 是一个由 Github 提供的自动化工具。具体的执行的操作由仓库中的 YAML 文件定义(位于
.github/workflows
目录下),并在相应事件触发时运行,也可以手动触发,或按定义的时间表触发。
glob
一种在 shell 中使用的简化版正则表达式
H
Hive
一款基于 Hadoop 的数据仓库工具,Hive 能够将结构化的数据文件映射为一张数据库表,并提供 SQL 查询功能;
HuggingFace
一家 AI 创业公司, 创建了目前最流行的预训练模型库 transformers;
J
Jupyter
一款支持交互式编程的笔记软件, 此前被称为 IPython notebook; 目前除了支持 Python 外, 也开始支持其他语言;
Jupyter Lab
Jupyter 开发的新一代 notebook 界面, 支持目录, 插件等更多高级功能;
IPython
Jupyter 的前身; 自 IPython 4.x 开始, 与语言无关的部分迁移至 Jupyter 项目, IPython 本身则专注于交互式 Python;
K
开发环境
Mac
深度学习
L
LaTeX
一种可以处理排版和渲染的标记语言,常用于论文编辑;
LLM
大型语言模型 (Large Language Model, LLM)
领域短语挖掘
同义:短语挖掘(Phrase Mining) 另见:“关键词挖掘”,“新词发现”,“LDA 主题模型”
领域短语挖掘,指从给定领域语料(将大量的文档融合在一起组成一个语料)中自动挖掘该领域内高质量短语的过程。
一般挖掘过程:候选短语生成 -> 统计特征计算 -> 质量评分/排序
与关键词抽取的区别:关键词抽取是从语料中抽取最重要、最有代表性的短语,其抽取的短语数量一般比较小。
与新词发现的区别:新词发现的主要目标是发现词汇库中不存在的新词,而领域短语挖掘不区分新旧短语。新词发现可以通过在领域短语挖掘的基础上进一步过滤已有词汇来实现。
M
Markdown
Markdown 是一种轻量级标记语言,可以使用纯文本格式来编写文档,然后通过转化为 HTML 来丰富可读性,并在一定程度上兼容 HTML 代码; 另见:Obsidian
N
NLP
自然语言处理 (Natural Language Processing, NLP)
Node.js
Node.js® is an open-source, cross-platform JavaScript runtime environment.
O
Obsidian
一款流行的 Markdown 笔记软件;
P
PyCharm
JetBrains 公司开发的一款 Python IDE;
PySpark
Spark 为 Python 开发者提供的 API;
Python
流行的编程语言
Q
Query 理解
Query 理解 (QU,Query Understanding), 简单来说就是从词法、句法、语义三个层面对 query 进行结构化解析;
S
SQL
SQL (Structured Query Language) 是具有数据操纵和数据定义等多种功能的数据库语言;
SQL 优化
STAR 法则
STAR 法则是一种用于描述事件的方式, STAR 分别表示情境 (Situation)、任务 (Task)、行动 (Action)、结果 (Result) 四项的缩写;
T
Transformer 模型
一种流行的深度学习模型;
Keywords: transformer, bert
W
Windows
微软以图形用户界面为基础研发的操作系统
WSL
Windows Subsystem for Linux, WSL
Y
yaml
一个可读性高,用来表达序列化数据的标记语言
语言模型
语言模型指用来计算一个句子 (序列) 出现概率的模型;
Last updated