?计算机语言学术语11:
消息message具有各种内容和编码类型,并可以以存储转发方式传送的信息。 数值数据numerical data数据(Data)是表达和传播信息的载体或工具。从实际使用的角度看,数据分为两类:”数值数据”和”非数值数据”。”数值数据”是指具有”量”的概念的数据,可比较大小,它常常带有量词。而”非数值数据”是指具有”陈述”意义的数据,它常常是对对象的一种”描述”或”表达”。 检索系统retrieval system对结构化和非结构化数据包括多媒体信息进行储存、索引、查询和管理的系统。 特征/标记系统tag system标记系统是一个规则集,它定义了固定数量的元素(它们要么是通常被定义过的,要么从一个序列开始处移去)以及一套附加元素集(它们是基于那些从开始处移去的元素)。 同态homomorphism代数系统(G,*)和(S, °),f是从G到S上的一个映射. 对于任意a,b属于G,有f(a*b)=f(a) °f(b),则称f是由(G,*)到(S, °)的一个同态映射. 并称G与S同态。 推导derivation生成语法术语,指一组形式上可识别的阶段,构成从起始符号到终端语符列的句子生成过程,即一整套已经应用的短语标记规则、转换规则等。 推理规则rule of inference非终极符重写和替换的规则或者公式。 无限制文法unrestricted grammar短语结构文法的规则在生成符号串的过程中没有附加任何限制,这种文法称为无限制文法。0型文法、短语文法 无限制语言unrestricted language应用无限制文法所定义的语言叫做无限制语言。 无向树undirected tree连通无回路的无向图称为无向树,简称树 无向图undirected graph若图G中的每条边都没有方向,则称为无向图。 无序图unordered graph指图中结点之间没有次序排列,则称为无序图。 相邻弧adjacent arcs同一回路中有且仅有一个公用节点的两个弧称为相邻弧。 相邻项adjacent vertices由无向图G中一条边连接两个项,称为相邻项。 映射mapping两个集合元素之间的一种对应规则。映射有时又称函数。 有限图finite graph设G=(P, L)为图。如果P是点的非空集合,L是连接某些不同点对的边集合,并且任意一对不同点之间最多有一条边。当P为有限集时,G称为有限图。 有序树ordered tree指树中同层结点从左到右有次序排列,它们之间的次序不能互换,这样的树称为有序树,否则称为无序树。 有序图ordered graph指图中结点从左到右有次序排列,它们之间的次序不能互换,这样的图称为有序图。 语法范畴grammatical category根据某些语法意义的共同内容,把语法意义概括为几个基本类别,这种语法意义的类就叫作语法范畴。语法范畴可以大致分为词法范畴和句法范畴两大类。 语法规则grammatical rule是一种语言中由小的音义结合体组合成大的音义结合体所依据的一套规则。 范畴category就是分类,是人的思维对客观事物的普遍本质的概括和反映。 源程序source program由程序员应用各种程序语言编写的程序。这种程序一般需要编译成机器语言后才能在计算机上运行。 源词source word机器翻译中被翻译的语言的词。 真值语句truth value expression一个语句的值或者是真或者是假,则这个语句称为真值语句。 正则集regular set设有字母表Σ,Σ上的正规表达式及其值称为正规集,其递归定义为:
(1)ε和Φ都是Σ上的正规表达式,它们所表示的正规集分别为{ε} 和Φ;
(2)任何a∈Σ,a是Σ上的一个正规式,它所表示的正规集为{a};
(3)假定U和V都是Σ上的正规式,它们所表示的正规集分别记为L(U)和L(V),那么,(U|V)、(U·V)和(U)*也都是正规式,它们所表示的正规集分别为L(U)∪L(V)、L(U)·L(V)(连接积)和(L(U)*(闭包)。 正则文法regular grammar是乔姆斯基短语结构文法分层里的3型文法。可用四元组G=(V,Σ,P,S)表示,其中V是变元的有限集合,Σ是终结符的有限集合,S∈V,称为开始符号,P是由形为A→w和A→wB(A→Bw)产生式组成的有限集。 正则语言regular language由正则文法生成的语言。 终极树terminal tree不能再解析的树。 重言式tautology恒取真值的命题公式称为重言式。 转换transformation从一种句法结构到另外一种句法结构的转变。 转换规则transformational rule对句法结构进行转换的规则。 转换语言transformational language由转换语法生成的语言。 自反性reflexivity对a∈A,如果有(a,a)∈ R,则称R是A上的自反关系。 自然语言natural language是与编程语言或者其他人机交互语言相对立而言的,用于人和人之间交流的书面语或者口语。 族family数理语言学中,具有相同词干而词尾不同的一组词。一般表示为{ai},其中I I,I是一个非空集合,称为索引集,ai即表示族中索引为I的一个词。 自然语言处理natural language processing用计算机对自然语言的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。它是在语言文字学、计算机应用技术、人工智能、认知心理学和数学等相关学科的基础上形成的一门边缘学科。 元理论meta theoryD.Hilbert采用分层理论的办法,把理论分为两层,一层是需要证明其相容性的那个系统,叫做对象理论;另一层是作为证明工具的那个系统,叫做元理论。元理论必须简单清晰,正确可靠,没有任何疑问。 语言的随机模型stochastic model of language用概率统计的方法来揭示语言单位内在的统计规律的模型。常用的有N元语法以及马尔可夫模型等。 语言归约language reduction自动机的读头自左向右扫描输入串,一边把输入符号移入栈内,一边检查位于栈顶部的一串符号是否与某产生式右部相同,如相同就把栈顶的符号替换成相应的产生式左部非终结符,这种替换称之为归约。 自动索引automatic indexing”利用计算机自动从文章(或文本段落)中提取能代表主题的单词或短语的过程。 自动分类automatic classifying利用计算机根据某种特征对元素进行划分和聚类的过程。
自动检索automatic retrieval利用计算机从众多的文献资料中找出符合特定需要的信息的过程。 词汇统计法lexicostatistics指年代语言学使用的一种方法,用来对假定有亲缘关系的语言一组组相关词项的变化速度作定量比较,从而推算这些语言分离后的时间差距。 马尔可夫链模型Markov-chain model一个随机过程{Xn,n30},若已知现在时刻t的状态Xt,如果将来状态Xu(u>t) 取值(或取某些状态)的概率与过去状态Xs(s0,有
P{Xn=in|X0=i0,X1=i1,…,Xn-1=in-1}=P{Xn=in|Xn-N=in-N,…,Xn-1=in-1}
称其为马尔可夫链,其中i0,i1,…,in,in+1分别为马尔可夫链的状态,N称为马尔可夫链的阶。 转移概率矩阵transtion-probablity matrix”I,j?S,称P(Xn+1=j|Xn=I)=pij(n)为n时刻的一步转移概率。若对”I,j?S,pij(n)=pij,即pij与n无关,则称{Xn,n30}为齐次马尔可夫链。记P=(pij),称P为{Xn,n30}的一步转移概率矩阵,简称为转移矩阵。 0阶马尔可夫链zero-order Markov chain若在特定情况下,系统在时间t的状态与其历史状态均不相关,即N=0,则该系统构成一个离散的0阶马尔可夫链,P{Xn=in| X0=i0,X1=i1,…,Xn-1=in-1}=P{Xn=in} 1阶马尔可夫链first-order Markov chain若在特定情况下,系统在时间t的状态只与其在时间t-1的状态相关,即N=1,则该系统构成一个离散的1阶马尔可夫链。P{Xn=in| X0=i0,X1=i1,…,Xn-1=in-1}=P{Xn=in|Xn-1=in-1}。 2阶马尔可夫链second-order Markov chain若在特定情况下,系统在时间t的状态与其在时间t-2,t-1的状态均相关,即N=2,则该系统构成一个离散的2阶马尔可夫链。P{Xn=in| X0=i0,X1=i1,…,Xn-1=in-1}=P{Xn=in| Xn-2=in-2,Xn-1=in-1}。 高阶马尔可夫链higher-order Markov chain若在特定情况下,系统在时间t的状态与其在时间t-N,…,t-1(N>2)的状态均相关,则该系统构成一个离散的高阶马尔可夫链。P{Xn=in| X0=i0,X1=i1,…,Xn-1=in-1}=P{Xn=in| Xn-N=in-N,…,Xn-1=in-1}。 最大似然估计量maximum-likelihood estimator最大似然估计量是对未知参数的一个估计值,使获得当前样本的可能性最大。 信息论information theory关于信息的本质和传输规律的科学理论。它是研究信息的计量、发送、传递、交换、接收和储存的一门新兴学科。 消息源message source消息源用来发出某个消息或关于某个消息的状态。 语言羡余language redundancy原为信息论术语,现用来分析造成语言学中对立的各种特征。一个特征(语音的、语法的等)如果为识别一个语言单位所不必出现的,就是羡余的。不被认为是羡余的特征是区别性特征。 方差variance设X为一可积随机变量,则随机变量(X-EX)2的期望E(X-EX)2称为X的方差。 统计分布statistical distribution对随机变量取值的估计,以显示其发生的观察或理论频率。 绝对频率absolute frequency在给定统计范畴内的观察数目。 词长分布distribution of word length单词长度(即组成单词的单字个数)的概率分布。 离散分布discrete distribution随机变量均取离散值的分布。 单词概率word probability单词出现的概率分布,即一个单词出现的可能性。 单词类型复现率repeat rate of word type某个词型在真实文本中的重复出现比率。 复现率估计estimation of repeat rate某些统计特征量重复出现的概率估计。 语言多样性linguistic diversity世界上各个国家和民族在语言文化上的差异(包括词语,发音,语法等),称为语言多样性。 词汇容量size of vocabulary词汇容量是指一个系统所能处理的词汇总数。 词汇集中度vocabulary concentration词汇在文本中集中出现的频度。 词汇差异度vocabulary diversity词汇在形态、语义、句法功能等方面上的差异性。 总体样本population sample通常把研究对象的全体成为总体样本。 相对频度relative frequency绝对频度和数据点总数的比率。 齐普夫假设Zipf’s hypothesis该假设的描述是:由于单词(或事件)出现的概率通常是开始较高,然后逐渐减小,因此只有少部分单词(或事件)是经常出现的,而大多数单词(或事件)很少出现。 统计推断statistical inference根据对样本信息的统计而进行推断或做出结论的过程。 期望值expectation value又称均值,是随机变量按其取值概率的加权平均,表征其概率分布的中心位置。 分布函数distribution function设随机变量X取值小于实数x的可能性。即,设X为(Ω,F,Ρ)上的随机变量,对任一实数x,定义
F(x)=P(X£x)=P(X?(-¥,x]),则称F(x)为X的分布函数。 语言年代学glottochronology根据核心词汇在发展中遗留下来的百分比计算语言发展年代和亲属关系的一种科学方法。它主要建立在语言中核心词汇按恒定比率(第1000年后平均保留约81%)发展变化的假设基础上,可用于根据亲属语言(后人发展应用于方言)中共有的同源词百分比来推算它们从原始母语中分化出来的年代及亲缘关系的远近,因而可用于测定同源民族分离的年代和关系的亲疏。 词汇分化lexical divergence词汇分化是这样一种语言现象,即一个语言中的主动词在翻译成另一个语言时却使用了意义不同的另一个动词。例如,英语句子 “They run into the room.” 其北印度语翻译为”woye daurte huye kamre mein ghus gaye.” 这里,英语句子的主动词是”run”(跑),北印度语句子中的主动词是 “ghus” (进入),而”run”的意思仅作为一个分词在句中出现。 样本容量sample size按一定规则从总体中抽取若干个个体,这些个体称之为样本,样本中所含个体的数目称为样本容量。 抽样sampling按照一定规则从总体中抽取样本的过程。对于有限总体,可分为有放回抽样和无放回抽样。 样本频度sample frequency单位时间(或距离)内抽取样本数据(或获得测量数据)的次数。 文本检索text retrieval根据用户提出的查询,在文本库中寻找相关文本的过程。 跨语言信息检索cross-language information retrieval在信息检索中,如果用户的提问用一种语言表示,而文本库中的文本用另外一种语言表示,这样的信息检索过程称为跨语言信息检索。 信息过滤information filtering根据某些特定的要求,截流或删除互联网某些敏感信息的过程。 问答系统question answering system系统根据用户的自然语言提问,从大规模文本库中提取相关信息并用自然语言给出精确的答案,这种系统称为问答系统。 召回率recall是信息检索等领域的一种系统性能测试指标,指检索到的正确样例数与实际存在的正确样例数总数的比值。 F值F-measure是信息检索等领域的一种系统性能测试指标,是综合召回率和精确率的一种系统评价指标。 搜索引擎search engine是一个对互联网上的信息资源进行搜集整理供用户查询的系统,它包括信息搜集、信息整理和用户查询三部分。 文本校对text checking利用自然语言处理技术,对文本进行核对和校正以检测文本的拼写、句法等是否正确的过程。 词网WordNetWordNet是Princeton大学认知科学实验室开发的一个在线的英语词汇参考系统,它的设计基于心理语言学中的人类词汇记忆理论(psycholinguistic theories of human lexical memory)。WordNet将英语的名词、动词、形容词和副词组织成同义词集,每个同义词集表示一个词汇概念。同义词集之间用各种不同的关系联系起来。
知网HowNet是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。由董振东教授领导的研究组提出和建立。 言语识别①speech recognition②automatic speech recognition ③ASR运用电子技术分析和识别人类言语并作出适当响应的过程。通常是用计算机把口语的语音形式自动转换成文本形式。自动言语识别、语音识别 言语合成speech synthesis运用电子技术产生能让人听得懂的人工言语的过程。通常是用计算机把文本转换成语音。这一过程使用的设备称作言语合成器(speech synthesizer)。语音合成 n元模型N-gram是一种概率模型,其中规定当前元素(如:词,词性等)出现的概率只同它前面出现的N-1个元素有关。N=1时就是一元模型(unigram),N=2时就是二元模型(bigram)。 脚本script是描述人类某种活动的事件序列,是已成陈规的事件序列的知识。 Brown语料库Brown Corpus始建于20世纪60年代初,由W.N.Francis和H.Kucera发起,在美国Brown大学建立了世界上第一个根据系统性原则采集样本的标准语料库,规模为100万词次,主要代表了当代美国英语。 LOB语料库LOB Corpus始建于20世纪70年代初,由英国Lancaster大学的著名语言学家G.eoffrey和倡议,由挪威Oslo大学的Stig Johansson主持完成,最后装在挪威Bergen大学挪威人文科学计算中心(LOB语料库也因此以三家单位的首字母缩写得名)。规模与Brown语料库相当,主要代表了当代英国英语。 COBUILD语料库COBUILD Corpus是80年代第一个以词典编撰为应用背景构建的大规模语料库,是英国Birmingham大学与 Collins出版社合作的结果,规模达到2000万词级。语料库名称也是两家单位的首字母缩写(Collins Birmingham University International Language Database)。 Upenn树库Upenn treebank美国Pennsylvania大学80年代末90年代初开始发起了树库计划,对百万词级的语料进行句法结构标注。该项目由Pennsylvania大学计算机系M.Marcus主持,到1993年,完成了对近300万英语词的句子的基本法结构标注。 文-语转换系统text to speech system将文本形式转换为语音形式的语音合成系统,称为”文-语转换系统”。这一系统的运作过程是,先对一输入文本作形态和音系分析,分析时考虑到规则和不规则形式这类问题。然后由字母-语音转换规则和其他一些专门特征生成词平面上的音系表征式,后者再转换成语音表征式(容纳连续言语的特征,包括句子韵律)。合成的实现靠一个基于规则的系统,输出由一个终端模拟合成器提供。 语音清晰度diction一个人说话时的发音清晰程度。 倒谱平滑cepstral smoothing一种处理语图的方法,它消除嗓音纹理,得到一条突出主要频带的平滑曲线。 模数转换器①analog-to-digital converter ②ADC一个变换模拟信号为数字信号的电子器件。它通过很高的频率对模拟信号采样完成模数转换。根据采样定律,如果信号采用频率不低于两倍的信号最高频分量马厩不会有信息丢失,原始信号能够由采样值精确地重建。 模拟信号analog signal一个连续变化的波形,因此它从一个值变到另一个值时经过其中的一切数值。通常的声波是一个模拟信号。 信号signal在利用声波或电子技术进行信息的传播和重建过程中,指有意要传输和重建的信息。它与伴随的噪声相对立。 Longman语料库Longman corpusLongman语料库建于80年代,由三个大语料库构成,规模达到5000万词级。包括 LLELC语料库(Longman/Lancaster英语语料库)、LSC语料库(Longman口语语料库)和LCLE(Longman英语学习语料库)。该语料库的主要目标之一是编撰英语学习词典,为外国人学习英语服务。 ACL/DCI语料库ACL/DCI corpusACL/DCI是由美国计算语言学会(The Association for Computational Linguistics,简称ACL)倡议发起的语料库项目,收集语料范围相当广泛,包括华尔街日报、Collins英语词典、Brown语料库、 Pennsylvania大学开发的树库,以及一些双语和多语文本等。既有标注的语料,也有未标注的生语料。ACL/DCI最初构建语料库时,制定了语料文件的格式标准,收集的语料文本都用SGML语言进行描述,语料标注则依照TEI(Text Encoding Initiative)标准进行,为语料库在不同计算机环境下进行数据交换奠定了基础。 双语语料库bilingual corpus包含两种语言文本的语料库,可以分为平行语料库(Parallel Corpus)和比较语料库(Comparable Corpus)两种类型。其中,平行语料库指的是语料库中的文本构成译文关系,根据标注层次可以细分为:文本级对齐平行语料库、段落级对齐平行语料库、句子级对齐平行语料库、词语级对齐平行语料库等;比较语料库指的是将表述同样内容的不同语言文本收集在一起形成的语料库,这些不同语言文本之间并不构成翻译关系。 基于实例的机器翻译example-based machine translation以双语对照的翻译实例库作为主要知识源的机器翻译方法。实例库保存大量源语言句子和该句对应的译文。每当输入一个源语言句子S时,系统利用S和实例库中的源语句子进行比较,找出其中和S最为相似的句子S’,并模拟S’的译文T’生成S的译文T,然后输出。 基于规则的机器翻译rule-based machine translation以表达语言学知识的符号系统——规则系统为主要知识源的机器翻译方法。翻译过程在规则的驱动下完成。 基于统计的机器翻译statistical machine translation建立在统计语言模型基础上的机器翻译方法。这种方法认为,机器翻译问题是一个噪声信道问题,一种语言S经过了一个噪声信道而发生了变形,从而在信道的另一端呈现为另外一种语言T,翻译实际上就是如何根据观察到的T,恢复最为可能的S的问题。用 Pr(S|T)表示S翻译成T的概率,那么翻译问题就成为:在观察到T的前提下,寻找一个S,使得Pr(S|T)取最大值。即 ,利用贝叶斯公式,有 ,因Pr(T)和S无关,故有 。其中Pr(S)称为语言S的语言模型,Pr(T|S)称为S到T的翻译模型。 词频索引word frequency index为改进单词索引,同时采用非用词表和用词词表两种办法建立索引。其处理过程是,首先进行词频统计,然后用非用词表删除非用词,去掉高频词,建立用词词表,从而抽取用词,按字母排序生成词频索引。 概念描述concept description使用描述符描述概念,在研究计算机的归纳学习时,大量的研究是让学习系统具有从给定的例子或观察出发,使用一些转换规则,最后得到某个概念,无论是初始的例子还是经规则转换得到的中间结果以及最终的概念,都需要一定的符号表示,这些符号就是描述符。概念描写 语义对立semantic opposition概念上的对立在词汇意义上的反映,包括义位的对立和义素的对立,前者如”冷”与”热”,”大”与”小”,后者如”简”与”牍”,”颈”与”项”。 语义范围semantic coverage某一词语的语义能够在一定范围内对其它词语产生词义影响,如”我们也去北京”中的”我们”和”北京”均在”也”的语义范围之内,都有可能称为该句的信息中心,产生歧义的表达。 语义连续统semantic continuum语义的连续性序列关系,如”冷”、”凉”、”温”和”热”这四个概念并没有一个离散的标准,而是一个连续的序列。 故事树story tree用来描述故事语法的树结构图,包括背景和各种情节,主要用于研究记忆和语篇理解。 焦点focus话语的关键部分,是交际过程中受话者注意力的所在,发话者详细描述的部分。 长时记忆long term memory1.理解一个句子所需的各种背景知识,这些知识是人们在长期的实践中逐渐积累起来的。2.短期记忆神经元经过反复刺激后,由于反馈作用存在,致使阀值下降至0,从而成为长期记忆。 自动记忆automatic memory系统自动地、自主地把相关信息保存起来。 拒识率rejection rate被拒识的输入模式的数量占被识别的输入模式的总数的百分比,是衡量模式识别系统性能的重要指标。 误识率error rate被误识的输入模式的数量占被识别的输入模式的总数的百分比,是衡量模式识别系统性能的重要指标。 聚类clustering把相关对象聚成集合体,用相似性尺度来衡量事物之间的亲疏程度,并以此来分类。recognition [,rek?g′nin] n.认出;认识;承认 (初中英语单词)international [,int?′n?n?l] a.国际的,世界的 (初中英语单词)birmingham [′b?:mi?h?m] n.伯明翰 (英语四级单词)frequency [′fri:kw?nsi] n.频繁;周率 (英语六级单词)
模式pattern用计算机或其他装置处理的物体、图象、语音、字符等信息形式。 子模式subpattern模式的组成部分,用一些比较简单的子模式组成多级结构来描述一个复杂的模式。 聚类中心cluster centre在聚类分析中的一个特殊样本,用来代表某一类,其他样本通过与它计算距离来决定是否属于该类。群分析 模糊聚类fuzzy clustering利用模糊集理论进行聚类分析的过程。根据研究对象本身的属性来构造模糊矩阵,在此基础上根据一定的隶属度来确定分类关系。 模糊集fuzzy set一个集合,设X为全域,若A为X上取值[0,1]的一个函数,则A为模糊集。 参量学习parameter learning机器学习的一种方法,指学习程序通过对事物的识别经验,对其判别函数的多项式系数进行修改,从而提高其识别率。这种学习的结果体现在参量的修改上,故称参量学习。 先验概率prior probability根据训练集样本直接得出的概率,是后验概率的基础。 简单聚类simple clustering一种聚类分析,把样本直接按属于或不属于某类进行聚类。 特征向量feature vector在模式识别的特征空间中,每一个样本对应于一个向量,这个向量称作特征向量,特征向量具有若干个特征分量,表示被抽样物体的若干个特征。特征矢量 逻辑连词logical connectives复合命题中用来连接两个命题,表达某种逻辑关系的联结词。逻辑联结词 合取conjunction设P,Q为两命题,复合命题”P并且Q”称作P与Q的合取式,记作P∧Q,P与Q的合取表达的逻辑关系是P与Q两个命题同时成立。因而,自然语言中常用的联结词:和,不仅……而且……,虽然……但是……等,都可以符号化为∧。 析取disjunction设P,Q为两命题,复合命题”P或Q”称作P与Q的析取式,记作P∨Q,自然语言中的”或”具有二义性,有时表示相容性”或”,有时表示不相容性”或”。 复杂特征complex features对一个语言单位具有的语音、语法、语义、语用等各种必要信息所进行的多重性质的描述。 元语言metalanguage描述研究对象时使用的语言。可以是自然语言,也可以是人工语言。 多义性polysemy一个词项具有多种不同的意义。一词多义现象 单义性monosemy一个词项只有一个意义。 歧义ambiguity语言的不同层面上存在的一对多的现象。 歧义排除disambiguity对语言不同层面上存在的一对多的现象,运用一定方法,选择其中一种最具可能的解释。消歧、排歧 同形异义词homograph书写形式相同而意义不同的词。 语素变体allomorph同一语素在不同环境中的不同形式。词素变体 模式匹配pattern matching将输入模式与样本相匹配的过程。 宽度优先策略breadth-first strategy在分析句子的过程中,每一个阶段都要先把处于同一平面上的节点可能具有的组合都产生出来,然后再做进一步归约的搜索方法。广度优先策略 深度优先策略depth-first strategy在分析句子的过程中,总是循着一条路径,做垂直扩展,一直走到底,不到终了不回头的搜索方法。 语言工程language engineering开发、研制计算机识别、理解、生成人类语言系统的技术和领域。 成分结构constutuent structure词汇功能语法术语。是词汇功能语法中句法描写的一个平面,指语言的外部结构,表示句子成分的先后次序,是由一组短语结构规则映射而形成的树型结构。 功能结构functional structure词汇功能语法术语。是词汇功能语法中句法描写的一个平面,指语言的内部结构,表述各语言成分之间的关系,代表句子的语义。 功能描述functional description词汇功能语法术语。是成分结构向功能结构转换的中介,由一组等式构成,具有形式化的特点,可以很容易地进行计算机编码。 功能等式functional equation词汇功能语法术语。由它规定了单词所承载的语法信息的组合方法,在经过有穷步骤的运算之后,能够得到这些语法信息的最终组合结果——功能结构。 句法树syntactic tree用短语结构语法分析句子时,从起始符开始,运用短语结构规则一步步推导出句子的符号序列,描述这个推导过程的树形图叫句法树。 剖析树parsing tree描述计算机自动识别句子的各个句法单位以及它们之间相互关系的过程的树形图。 层级理论stratificational theory动词谓语与角色在语义组合上存在的先后次序和谓语动词一致关系标记的语法化序列存在的先后次序,层次高的谓语动词的组合先于层次低的谓语动词的组合。 带注释树annotated tree节点与节点之间的边上带有标记的树形图。 自顶向下剖析top-down parsing根据重写规则,从初始符号开始,自顶向下地进行搜索,构造推导树,一直分析到句子的结尾位置。这样的方法叫做自顶向下剖析法。自顶向下分析 自底向上剖析bottom-up parsing从输入句子的句首开始顺次取词向前移进(shift)并根据文法的重写规则逐级向上归约(reduce),直到构造出表示句子结构的整个推导树为止。这样的方法叫做自底向上分析法。自底向上分析 翻译工作站translator’s workstation运用机器辅助系统为经常进行翻译和外语写作的人员提供一个半自动工作环境,以帮助翻译者提高工作效率。 翻译记忆translation memory通过自动记忆并使用先前人工翻译结果的方式来构建语言翻译知识系统的机器翻译方法。 人助机译human aided machine translation通过人在译前、译后参与编辑的方法或以人机交互方式参与的方法来提高译文质量的机器翻译。 确定性算法deterministic algorithm在分析过程中不需要进行回溯或并行,每一局部分析都将成为最终结果的分析方法。等待观察析句法(Wait and See Parsing) 非确定性算法nondeterministic algorithm在分析过程中面对多种可能时需要进行回溯或并行、并不是每一局部分析都将成为最终结果的分析方法。 基于模式句法分析pattern-based parsing通过建立句子模型,进而采用模式匹配对句子结构进行分析的方法。 试探性句法分析heuristic parsing以试探性规则或过程的知识作分析向导的一种并行分析。启发式句法分析 数据驱动句法分析data-driven parser从具体的数据出发,根据数据所提供的信息来控制操作流程的分析方法。 活性线图句法分析active chart parser基于活性线图的、自底向上和自顶向下相结合的句法分析。 词专家句法分析程序word expert parser根据单词之间的关系分析概念的一种自然语言理解的分析程序。在这样的程序中,语言学知识主要集中在单词本身,并把单词看作与解释过程(the process of interpretation)相关的语言学单位。 通用句法处理程序general syntactic processor美国计算语言学家Kaplan于1973年提出的用于形式描写、分析和生成自然语言符号串的系统,其基本数据结构是线图。简称GSP。通用句法处理器 依尔利算法Earley algorithm美国计算语言学家Early于1970年提出的具有预测、扫描和完成三种功能的句法分析算法。 CYK算法Cocke-Younger-Kasami algorithm基于非活性线图的、以乔姆斯基范式为描述对象的并行句法分析算法。CYK算法是Cocke-Younger-Kasami算法的缩写。 LR算法LR algorithm由克努特(Knuth)于1965年提出的一种自底向上分析方法。根据分析栈的内容以及向前看k个输入串的符号决定分析动作的方法称为LR(k)算法。LR算法是k取不同值时的LR(k)算法的总称。expert [′eksp?:t] n.&a.专家;内行 (初中英语单词)
靠左推导left most derivation推导句子时,总是扩展重写规则右部(RHS)的第一个非终极符号的推导。最左推导 靠右推导right most derivation推导句子时,总是扩展重写规则右部(RHS)的最后一个非终极符号的推导。最右推导 有限状态转移网络finite state transition network是一种自动形态分析器。它由Q,V,T三部分组成:FSTN=(Q,V,T),其中 Q表示状态的有限的非空集合,V表示语言符号的有限的非空集合,T表示转移函数。简称FSTN。 递归转移网络recursive transition network在有限状态转移网络的基础上,根据语言符号的递归性而提出的一种识别器。简称RTN。它由一个或多个网络组成,其弧标识词、词类或语法类,其中语法类是另一个网络的名称,这造成了可递归的调用条件。 扩充转移网络augmented transition network按语法类组合在一起的结构模式,是一个由一个标号、一组状态和结点组成的网络。简称ATN。在RTN上增加一个寄存器,用于存放一系列的结果或全局状态;在其弧上附加一组测试和一组设置寄存器值的动作。 控制结构control structure在语言中,表示控制流程的一种句法模式。常用的控制结构有 if…then…else, while…do, repeat…until, and case. 重写规则rewriting rules生成语法的一类规则,形式为X→Y。箭头左边的符号代表单一的组构成分;箭头右边的符号代表一个或多个成分的语符列;箭头指示用Y取代(或”扩展”)X。这类规则习惯上读作”重写X为Y”。产生式 产生式production运用符号变换规则”A→aA”来表示在某种条件下做某种动作的知识表达方法。 巴科斯-诺尔范式Backus-Naur form (BNF)以美国人巴科斯和丹麦人诺尔的名字命名的一种形式化的语法表示方法。它是一种典型的元语言,可以严格地表示语法规则,且描述的文法是上下文无关文法。 文摘abstract文献的摘要。摘要又称概要、内容提要。摘要是以提供文献内容梗概为目的,不加评论和补充解释,简明、确切地记述文献重要内容的短文。摘要应具有独立性和自明性,并且拥有与文献同等量的主要信息,即不阅读全文,就能获得必要的信息。 属性attribute指一个事物所具有的不可缺少的性质。 属性关系attribute relation指一个事物的各属性之间的内在联系。 自动标引automatic indexing使用计算机自动对文献赋予检索标识的技术。 分类标引classed indexing对文献按类别进行索引的技术。 组配标引coordinate indexing在主题标引过程中,将两个或两个以上的主题词按照一定的逻辑关系加以组织以表达文献主题的技术,叫做组配标引。组配标引是主题标引中准确揭示文献主题的一种基本的标引方法。 规范词表controlled term list列出首选的或允许使用的词的词表。 自由关键词free keywords反映一篇论文主题中新技术、新学科并且尚未被主题词表收录的、新产生的名词术语或在叙词表中找不到的词。 类属词generic word类属词是表示概念中类属关系的词。又称上下位词。类属词表示的概念必须是具有上下级层次的类属关系,既不能处在同等层次,也不能跨越几个层次,而必须是紧紧相连的上下层次。 层级关系hierarchical relation是一种语义关系,其中一个概念严格地从属于另一个概念,例如:属种关系。 主次关系hypotaxis传统语法分析的术语,指用从属连词连接的成分之间的关系。 文献编号identification number根据文献应该归入的类目确定的文献的代码。 识别号identifying number是某一信息资源的数字标识。一般情况下,一个特定的信息资源只有一个识别号,而一个识别号只代表一个特定的信息资源。 标识符identifier用于标识某个数据资源的标记,一般由字母和阿拉伯数字组成。 索引index是记录和指示文献事项或单元知识,按一定系统组织起来的检索工具。具体地说就是将图书、报刊等文献中的各种事物的名称,如书名或篇名、人名、地名等,分别摘录出来,注明其出处页码,按字顺或分类排列而成的一种检索工具。 标引indexing所谓标引,系指对文献和某些具有检索意义的特征如:研究对象,处理方法和实验设备等进行主题分析,并利用主题词表给出主题检索标识的过程。标引是检索的前提,没有正确的标引,也就不可能有正确的检索。 主题词Subject Word主题词一般是指从各学科的自然语言词汇中选出来、经过规范化的词,主要用作文献标示主题和检索之用。每篇文章的主题词可以从论文的题目或摘要中最能反映文章主题内容的词中选取,一般可以提出3~7个。 关键词keyword关键词是反映文章主题内容但未经规范化处理的名词和术语。 登录词posting term收录在计算机系统的词表中的词。 登录record列入;记载 加权标引weighted indexing采取统计文献的检索方法,通过给最能体现文献内容词以较高的权值来进行标引的方法。 数据库data bank长期储存在计算机内、按一定的数据模型组织、可共享的数据集合。 数据压缩data packaging采用特殊的编码方式来保存数据,使数据占用的存储空间比较少,这种技术称为数据压缩。 相关分析correlation analysis分析一个独立变量的变化对另一个相关变量的变化的影响程度的过程。 相关索引correlative index可引导读者找到更多的相关资料的索引。 查准率precision是信息检索等领域的一种系统性能测试指标,指检索到的正确的样例数与检索到的样例总数的比值。 查询query在检索系统中,用户对检索内容的提问。 主题检索subject retrieval主题检索是以某一主题为匹配原则来查找相关文章的信息检索方式,它是一种方便快捷的检索方式,它利用主题词进行检索,可以快速、准确地检索到所需要的文献,查准率高。 二叉树binary tree每个结点至多只有两棵子树的树结构。 子结点child树结构中当前结点的各个子树的根称为当前结点的子结点。 父结点father树结构中当前结点的上位结点称为当前结点的父结点。 兄弟结点sibling树结构中具有同一个父结点的结点称为兄弟结点。 子树subtree树结构中以某个结点n的子结点为根结点的树称为结点n的子树。 顶点vertex是数学图形中一种特殊的点,位置往往在两条或多条线或边的交接处。 布尔运算符Boolean operator在布尔代数中进行运算的符号,几个最基本的布尔运算是:与运算、或运算、非运算、补运算等。transition [tr?n′zin, -′si-] n.转变;过渡 (英语四级单词)
气泡排序bubble sort排序方法的一种。其基本思想是逐次进行相邻两个记录的比较,不满足排序要求的则进行交换。 中文字符集Chinese character set中文字形的集合。主要作用是为汉字输入设备提供汉字的字形数据。 0型文法type 0 grammar0型文法的规则形如:u::=v,其中u,v为符号串,且u非空。0型文法的相应语言称为0型语言,又称为递归可枚举集合。0型语言是不可判定的。 1型文法type 1 grammar1型文法的规则形如:xUy::=xuy,其中U为非终结符号,x,y,u为符号串,且u非空。1型文法又称为上下文相关文法。1型文法是可判定的,但是现在没有找到有效的判定方法。 2型文法type 2 grammar2型文法的规则形如:U::=u,其中U是非终结符号,u是符号串。2型文法又称为上下文无关文法。一般的程序设计语言的语法都使用2型文法描述。2型文法是可判定的,且有有效的判定方法。 3型文法type 3 grammar文法规则的规则形如:U::=T或者U::=WT,其中U,W是非终结符号,T是终结符号。3型文法又称为正则文法,其语言也称为正则语言。 标记图labelled graph标记图是在每条边上加注了标记的图。 标准形式standard form对重复性事物和概念所做的统一规定的一种表达方式。 产生式语言production language是一种常用的知识表示语言。描述一个(或一些)事件的存在导致另一事件的产生。用符号方法表述如下:
if A then B 或A?→?B
其中A称为前件;B称为后件;→表示由A为真导致B为真。 传递性transitivity是关系的一种属性。如果关系R 有传递性,若元素a和b之间有关系R,元素b和c之间有关系R,则 推断出元素a和c之间有关系R。在关系图中,有从a到b的弧,有从b到c的弧,则有从a到c的弧。 词性part of speech词的语法属性。 词型type词汇研究测量词汇密度时使用的术语。型-例子比例(type-token ratio)是在一个样篇样品中不同的词(型(type))的全部数目与实际出现的词(例(token))的全部数目的比率。 词例token词在文本中表现出的实例。词汇研究测量词汇密度时使用的术语。型-例子比例(type-token ratio)是在一个样篇样品中不同的词(型(type))的全部数目与实际出现的词(例(token))的全部数目的比率。 词形式word form一个单词的发音和原始拼写形式。一般单词的变形形式是由词干和附着在其上的一系列变形词缀组成的。 等价关系equivalence relation设R为定义在集合A上的一个关系,若R是自反的、对称的和传递的,则R为等价关系。 递归定义recursive definition为了描述问题的某一状态,必须用到它的上一状态,而描述上一状态,又必须用到它的上一状态,……。这种用自已来定义自己的方法,称为递归定义。 短语phrase语法分析术语,指单一的结构成分,一般包含不止一个词而又没有一般小句具有的主语-谓语结构。 对称关系symmetric relation对于集合A上的某种关系R,如果A中元素a1和A中元素a2有关系R,则a2与a1也有关系R,那么,集合A上的关系R是对称关系。 翻译程序translator将源语言翻译为目标语言的程序。 翻译模式translation scheme进行机器翻译时所采用的方式。 组合compositionality认为语言是由较小单位构成较大单位的一种观点。 基本运算elementary operation加、减、乘、除和取整运算中的一种。 链chain链是一种数据类型,数据对象实例的每个元素都放在单元或节点中进行描述,每个节点中有包括了与该节点相关的其他节点的位置信息。 链长length of a chain链表中所包含的单元或节点的个数。 流程图flowchart应用箭头和各种形状的方框表示控制的流程或事件进展的过程,使其直观、易懂的一种图形形式。 命题演算proposition calculus由命题与命题联结词构成的更复杂命题,以及这样构成的命题间的推理关系的运算。 模式识别pattern recognition所谓模式是指人认识具体事物或现象时,按照规定的相似性抽象出来的分类。所谓模式识别是指按模式抽象对事物或现象进行分类,辨识类的特征而做出判断的过程。模式识别是研究人类识别能力的数学模型,并借助于计算机技术实现对其模拟的科学。 内涵逻辑intensional logic应用内涵和外延算子将一个词项与它在上下文中的具体意义加以区别的一种逻辑。 派生derivation派生就是经过一系列的合乎逻辑的运算步骤,从一个结果到达另一个结果的过程。 派生树derivation tree派生过程中,各派生出来的对象所组成的层次化结构关系,称为派生树(或继承树)。 歧义文法ambiguous grammar所谓歧义就是一个字词串经过文法分析器后产生多个合格输出的现象,或者说歧义指的是同一句子可能有几个符合句法解释的现象。歧义文法是指同一语法形式可以表示多种语法意义。二义性文法、含混文法 乔姆斯基文法Chomsky grammar以乔姆斯基为首的一些语言学家在50年代建立起来的一种形式语言理论体系,语言的文法被分成4种类型,即0型(短语文法)、Ⅰ型(上下文有关文法)、Ⅱ型(上下文无关文法)和Ⅲ型(正规文法)。 圈cycle若图中的一条路经,除了起点和终点相同外,其余的顶点均不相同,则称此路径为简单回路或圈。 全序集total ordered set设£是集合A 上的二元关系,如果对于A中任意两个元素a, b,必有a £ b或b £ a,则称 £是A上的全序关系(或线性次序关系)。若集合A具有全序关系£ 或R,则称A为全序集或线性次序集,记为(A, £)或(A, R) 。 树tree生成语法采用的一种二维图形表示,能方便地显示由一组规则生成句子的内部层级结构。 范畴语言categorial language用范畴语法生成的语言。 算术表达式arithmetic expression算术表达式是由算术运算符和括号连接起来的式子。 算子文法operator grammar类似于依存文法、范畴文法以及数学逻辑中的谓词演算,它识别操作符,施事,受事并进行相应运算。 算子优先文法operator precedence grammar算子文法的一种,在每对终极符号之间必存在一种优先关系。 算子优先语言operator precedence language可由算子优先文法生成的语言,称为算子优先语言。 算子语言operator language算子定义语言是一个精简指令集,这些指令完整地定义了一个算子。 特征函数characteristic function一个集合的特征函数是二值函数。如果一个逻辑论述是集合的一个成分,则此时该集合的特征函数为真值,否则,若逻辑论述不属于集合,这特征函数为假。character [′k?rikt?] n.特性;性质;人物;字 (初中英语单词)
原创文章,作者:白, 小雪,如若转载,请注明出处:https://www.tanglaohu.cn/15553.html
声明:本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,邮箱:153055113@qq.com 我们会及时删除。