Wolfram 语言

文本和语言处理

生成并检验词干词汇

版本 11 包含了找出单词词干、移除复数和语形变化等的全新工具. 词汇的词干携带了原始单词的意义,但其本身经常不属于字典词汇. 下面的例子展示了这两种情况.

RandomWord 生成 30 个随机英文单词的列表.

In[1]:=
Click for copyable input
Short[words = RandomWord[30]]
Out[1]//Short=

WordStem 构建其相应的词干形式.

In[2]:=
Click for copyable input
Short[wordstems = WordStem[words]]
Out[2]//Short=

移除与其词干相同的单词.

In[3]:=
Click for copyable input
list = DeleteCases[Transpose[{words, wordstems}], {w_, w_}];

用蓝色强调词干形式同样在全新的函数 DictionaryWordQ 使用的英语字典中出现的单词.

In[4]:=
Click for copyable input
list = Replace[ list, {w_, sw_?DictionaryWordQ} :> {w, Style[sw, Blue]}, {1}];

在表格中可视化每对单词.

显示完整的 Wolfram 语言输入
In[5]:=
Click for copyable input
TextGrid[ Prepend[ Partition[Flatten@list, UpTo[4]], {Style["Word", Bold, Italic], Style["Stem", Bold, Italic], Style["Word", Bold, Italic], Style["Stem", Bold, Italic]} ], Spacings -> {2, 1}, Dividers -> {{1 -> True, 3 -> True, 5 -> True}, {1 -> True, 2 -> True, -1 -> True}} ]
Out[5]=

相关范例

de en es fr ja ko pt-br ru