-
Notifications
You must be signed in to change notification settings - Fork 1
/
Copy path04-tag.rmd
74 lines (55 loc) · 1.73 KB
/
04-tag.rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
# 标记和关键词
### 标记
```{r}
一段文本 = "我爱北京天安门"
标记器 = worker("tag")
结果 = tagging(一段文本, 标记器)
print(结果)
names(tagging(一段文本, 标记器))
```
对已经分好词的文本进行标记
```{r}
分词器 = worker()
分词结果 = segment(一段文本, 分词器)
分词结果
vector_tag(分词结果, 标记器)
```
### 关键词
topn 控制提取数量
```{r}
提取器 = worker("keywords", topn = 1)
keywords("我爱北京天安门", 提取器)
```
对已经分好词的文本进行标记
```{r}
分词器 = worker()
分词结果 = segment(一段文本, 分词器)
分词结果
vector_keywords(分词结果, 提取器)
```
### Simhash 与海明距离
```{r}
摘要器 = worker("simhash", topn=2)
simhash("江州市长江大桥参加了长江大桥的通车仪式", 摘要器)
distance("hello world!", "江州市长江大桥参加了长江大桥的通车仪式", 摘要器)
```
```{r}
vector_simhash(c("今天","天气","真的","十分","不错","的","感觉"),摘要器)
vector_distance(c("今天","天气","真的","十分","不错","的","感觉"),c("今天","天气","真的","十分","不错","的","感觉"),摘要器)
```
### tobin 进行 Simhash 数值的二进制转换。
```{r}
tobin("12098690169796312660")
```
### 词频统计 freq()
```{r}
freq(c("测试", "测试", "文本"))
```
### 生成 IDF 文件 get_idf()
根据多文档词条结果计算 IDF 值。输入一个包含多个文本向量的 list,每一个文本向量代表一个文档,可自定义停止词列表。
```{r}
临时输出目录 = tempfile()
a_big_list = list(c("测试","一下"),c("测试"))
get_idf(a_big_list, stop = jiebaR::STOPPATH, path = 临时输出目录)
readLines(临时输出目录)
```