编译原理中的token简介
admin
2024-03-20 08:36:10
0

编译原理中的token简介

编译原理是介绍如何将高级程序设计语言转换成计算机硬件能识别的机器语言,以便计算机进行处理。

词法分析(Lexical Analyzer)是编译器的第一个步骤,它也被称为 扫描(scanning)。词法分析器(semantic analyzer)通过读入外部的字符流(源程序)对其进行扫描,并且把它们组成有意义的词素(lexeme)序列,对于每个词素,词法分析器都会产生词法单元(token) 作为输出。

编译原理领域中将高级程序语言中的最小的单元称为token,token是构成源程序的基本不可再分割的单元。高级程序设计语言在分析源程序时的第一步就是把源程序分割为一个个独立的token,这个过程就称为词法分析。

高级语言中的token

有以下几类:

分隔符(界限符)

关键字和保留字

标识符

操作符

字面值

高级语言中最常见的分隔符(界限符)有空格、换行符、分号、大括号等等,我们可以利用空格来分隔token、用换行符或者分号来分隔语句、用大括号或者是缩进(数量相等的空格或者是制表符)来分隔代码块(复合语句)。操作符也是一种特殊的分隔符。

标识符

编程语言的标识符是用来标识变量、自定义类型、函数等实体的符号名称,我们在后面想要使用这个实体的话只需要用这个实体的名字引用它就可以了。不同类型的标识符具有不同的作用,当标识符代表的是一个变量和函数的时候,它代表的其实是一个内存地址,我们使用变量进行内存访问、使用函数进行子程序的调用;而当标识符作为一个自定义数据类型的时候,它将在编译的时候为编译器提供组织内存的元数据信息。

关键字和保留字

关键字是指语言的设计者保留的具有特定语法含义的字符序列,每个关键字都有自己独特的用途和语法含义,我们只能按照高级程序设计语言的语法规定来使用它们。关键字是一门高级程序设计语言的语法的重要组成部分,同时也是我们为语言的编译器或解释器提供元数据信息的主要手段。保留字是一类比较特殊的关键字,是为了语言后续的升级所预留的,在当前的语言版本中,保留字还不具备任何特殊的语义,但是在后续的语言升级过程中,保留字可能会被提升为关键字。所以我们在为标识符命名的时候,也不能随意使用保留字。

操作符就是语言所使用的符号集合,一般来说操作符代表的是计算类的指令,我们会使用操作符来构建表达式,来完成计算任务。大多数的操作符会被编译成转换成计算类的指令。

按照功能分类,操作符可以做如下分类:

算术运算符

位运算符

赋值运算符

赋值复核运算符(+=这一类的)

比较运算符

逻辑运算符

括号(可以用来改变表达式的计算顺序,也可以用来进行函数调用)

自增自减操作

其他运算符,比如元素数组元素访问[],子元素访问.、->等等

按照操作数的数量,操作符可以做如下分类:

单目运算符

双目运算符

三目运算符

操作符的主要作用是用来构成表达式的,运算符有两个非常重要的特性,即优先级和结合性,这两个特性决定了表达式的计算。

优先级

我们在数学中进行四则运算的时候都知道一个计算式中要先算乘除后算加减,这个规则就是数学中四则运算的优先级规则,高级语言中的运算符的运算规则跟这个是类似的,具有更高优先级的运算符会优先占用操作数组成一个表达式进行计算产生一个值。

在所有语言中运算符的优先级规则都是非常相似的,一般来说操作数越少的操作数优先级越高,而且赋值运算符的优先级比较靠后。

结合性

优先级并不能完全解决表达式的计算顺序问题,在表达式中出现连续的多个优先级相同的运算符的时候,该以什么样的顺序进行计算呢?

高级语言中表达式的结合性就是用来解决连续多个相同优先级的运算符的计算顺序的。

结合性有两种,即左结合性和右结合性。具有左结合性的计算顺序是从左到右,右结合性的计算顺序是从右到左。

在高级语言中,存在三种最基本的字面值形式(不同语言所具有的字面值形式是不同的,但是大多数的语言都支持下面三种形式的字面值):

字符串:因为代码本身就是字符串,通常会使用界定符比如""来区分是字面值还是程序代码

数字:其实就是具有特定格式的字符串(只有数字字符,数字分隔符,进制前缀和类型后缀),因为其格式特殊,所以不需要界定符

逻辑值:通常也称为布尔值,true或者false,大部分程序设计语言中都把true和false作为关键字,但是在比较古老的编程语言中(例如C语言),没有专门代表逻辑值的数据类型,而是使用整数代表逻辑值,0代表false,所有的非0整数都代表true。

表达式(Expression)和语句(Statement)

表达式

表达式是由运算符和其运算对象组成,最简单的表达式是一个单独的运算对象,以此为基础可以创建复杂的表达式。

表达式有一个基本特征——每个表达式都会产生一个值。

根据表达式的复杂程度的不同,可以把表达式分为简单表达式和复合表达式:

简单表达式: “字面值”和“变量”。

复合表达式:由简单表达式和运算符所构成的更复杂的表达式。

语句

语句是代码的基本构建块,其引导了代码的结构,划分了代码的层次。源代码都是由一条一条的语句所构成的。

语句可以分为简单语句和复合语句。

复合语句就是用来把多条语句组合成一个整体的。

通常会在如下情况下把一系列的语句集合起来,形成一条复合语句:

流程控制

在分支或者是循环结构中,某一个分支或者是循环体中的逻辑往往用一条语句是无法完成的,这个时候我们就需要一个复合语句来组织逻辑。

函数体

毫无疑问,一个函数也可能包含多条语句。

语句块

每一门语言也都有自己组织复合语句的方式,比如Java、C、C++等语言中使用{}来组织复合语句,在Python中用缩进来组织复合语句。

编程语言中表达式和语句的关系

表达式有值,而语句不总有值。

程序是由语句组成的。语句可以是表达式,也可以不是。表达式可以当做值赋给变量。

表达式本身可以作为表达式语句,也能作为赋值语句的右值或if语句的条件等,所以表达式可以作为语句的组成部分,但不是必须成分(例如continue语句)。

相关内容

热门资讯

港股全线回调,关注恒生科技ET... 截至收盘,中证港股通消费主题指数下跌1.9%,中证港股通互联网指数下跌2.6%,恒生科技指数下跌2....
瑞幸2025年四季度营收增长利... 界面新闻记者 | 宋佳楠 2月26日,瑞幸咖啡发布2025年第四季度及全年未经审计财务业绩。财报显...
上市券商新年定增“第一单”!西... 来源:21世纪经济报道 21世纪经济报道记者 易妍君 在沪深北交易所优化再融资一揽子措施背景下,20...
河南牧原离职员工家属发文,吐槽... 近日,一篇名为《一位牧原离职员工家属的自述》的文章引起网友关注。 作者称,丈夫原在牧原从事养猪工作,...
【西街观察】理性看待高位金银:... 春节回来,黄金白银又涨了。 尽管价格尚未突破前期高点,但在大类资产中,累计涨幅依旧一骑绝尘,让金银的...
安徽春节观察:从“打卡”到“入... 这个春节,是丙午马年的开场,也是“史上最长假期”的落幕。 当9天的时光画卷缓缓收起,人们回味的,不只...
杭州银行原监事长王立雄再获任副... 2月26日,杭州银行公告称,王立雄杭州银行副行长任职资格已获浙江金融监管局核准。据公告,王立雄此前曾...
郑华国:白癜风患者的情绪调节要... 情绪波动是白癜风病情反复的重要诱因之一,长期焦虑、抑郁、压力过大,会导致内分泌失调、免疫力下降,损伤...
原创 3... 国内能精准预测房地产市场趋势的人并不多,王健林就是其中之一。早在2017年,王健林就宣布万达集团将走...
裁判太偏了?!赵睿10分+犯满... 北京时间2月26日消息,作为中国男篮队长,今晚在冲绳,赵睿尽了全力。身陷犯规困扰的他利用自己的冲击力...
山东城商行“一哥”之争升温:青... 作为山东地区的两家头部城商行,青岛银行和齐鲁银行近年来的发展呈现“你追我赶”的胶着态势。 据最新披露...
特斯拉,又放大招!汽车市场降价... 汽车市场的降价步伐仍未停歇。 2月26日,特斯拉中国官宣新一轮购车金融政策:3月31日前下单,全系车...
超6亿和解金,欣旺达亏了还是赚... 二线品牌备胎难当。 作者|景行 编辑|古廿 “当年在汽车领域,吉利是最早和欣旺达合作的,就是看中欣旺...
机器人产业指数低开低走,机器人... 截至收盘,中证消费电子主题指数上涨1.3%,中证物联网主题指数上涨0.6%,国证机器人产业指数下跌0...
德邦股份,向上交所提出终止上市... 2月26日晚间,德邦股份(603056,股价18.85元,市值190.68亿元)发布公告称,公司拟以...
帝亚吉欧:从未讨论过出售水井坊... 蓝鲸新闻2月26日讯(记者 朱欣悦)水井坊(600779.SH)控股股东帝亚吉欧拟出售其股权的传闻,...
保持银行体系流动性充裕 央行加... 每经记者|张寿林 每经编辑|张益铭 为保持银行体系流动性充裕,2月25日,央行以固定数量、利率招标...
又有外资理财公司总经理,将离任... 【导读】贝莱德建信理财总经理张鹏军将离任 中国基金报记者 吴娟娟 中国基金报记者获悉,贝莱德建信理财...
CBAM豁免政策深度剖析:哪些... 欧盟碳边境调节机制(CBAM)的豁免政策,是缓解企业合规压力的重要保障,尤其惠及中小出口企业。厘清豁...
私有数据,是AI应用唯一的“护... 文|数据猿 “旧的护城河正在瓦解,AI时代的生存法则,才刚刚开始。 这个春节,你用AI点奶茶、买门...