核心要点
这是SitePoint PHP通讯7月25日版的社论。
为什么字符串被称为字符串?你有没有想过这个问题?除了编程之外,我们从未在其他语境中使用过这样一个词来表示粘在一起的一组字母,然而——在编程中,它就像“变量”这个词一样普遍。这是为什么,它从哪里来?
为了弄清楚,我们必须先解决一些相关的术语。历史课时间!
单词font(字体)源自法语fonte——熔化过的事物;铸件。鉴于印刷机的字母确实是金属制成的,并在铅字铸造厂熔化,这很有道理。
术语uppercase(大写)和lowercase(小写)指的是字体运输所用字盒的字面部分。因此,印刷工(人)有一个沉重的字盒,他随身携带或在印刷机上设置,在这个字盒中有两个“级别”——一个大写字母盒,一个小写字母盒。大写字母盒只包含——你猜对了——大写字母,而小写字母盒只包含小写字母。
你会注意到,小写字母比大写字母多。这是可以预料的——一个字母在一页上只能使用一次,毕竟,书面文本中的小写字母比大写字母多得多,因为那时还没有Youtube评论和大小写锁定。
那么这一切与字符串有什么关系呢?
好吧,随着印刷变得越来越主流,印刷机开始向个人提供服务,而不仅仅是报纸和出版商,据说他们决定根据印刷材料的长度(以英尺为单位)收费。当然,很多都是推测性的,但如果他们将生产的印刷材料串在一起,他们就可以很容易地估计成本并向客户收费。因此,我们可以相当肯定地得出结论,他们在这种情况下使用string(字符串)这个词来表示字符序列。
2017年7月26日编辑:正如下面的评论中所指出的,似乎确实有一根实际的绳子用于将字符块捆绑在一起,因为它们在组装后被运送到印刷机!一位Twitter粉丝甚至给我发了以下视频,演示了这个过程!
尽管如此,这与编程领域有什么关系呢?我的意思是,你可以说关于任何东西的任何东西的字符串,它在非编程世界中都会有一定的意义。它只是一个可以很容易地普遍应用于事物的词,即使它通常不被使用。
如果我们看看学术界对第一份参考文献的记载呢?
在1944年的《递归可枚举的正整数集及其判定问题》中,我们提到了一种可能大致类似于现代定义的内容:
为了工作的目的,我们引入字母6,并考虑“字符串”1和b,例如11b1bb1。
在这篇论文中,这个术语指的是相同符号的序列,所以是一串1或一串b。这并不完全符合我们的定义,但这只是一个开始。
然后,整整14年后,在1958年的《一种用于机械翻译的编程语言》中,这个词是这样使用的,而且只使用了一次:
标点符号或空格之间的每个连续字母串都在字典中查找。
好吧,有点类似于我们对字符串的概念,但看起来他只是在描述,嗯,单词。显然,这并不适用——它太笼统了。然而,由于某种原因,它似乎已经流行起来。
在1958年的《一种用于处理符号串的命令语言》中,string(字符串)这个词的使用方式与我们今天完全相同,尽管没有定义为这样。
我们在1959年的《用于机械翻译的COMIT系统》中找到了另一个参考文献:
如果我们想用COS(F) D (F)替换D SIN(F),其中F不受限制,可以是任何任意的组成部分序列,我们使用符号$来表示这个字符串。
有趣!这是我们都从PHP中知道的美元符号,它实际上是BASIC中的字符串符号。
同样在1959年,我们在《Share 709系统:符号编程的机器实现》中得到了一个更直接的定义:
文本是线性排序的位串,表示加载和列表过程中所需的其他信息。
事实上,正是通过1960年4月的ALGOL,字符串似乎采用了其现代的简写形式“string”(在此之前,人们说string of [something])。请参阅这篇论文的摘要。
然后,在1960年5月,《关于算法语言ALGOL 60的报告》以一种触及核心内容的形式提到了它。
从那时起,它就像现代的模因一样迅速传播开来。
1963年的《METEOR:一种用于字符串转换的LISP解释器》使用了相当不具体的“[...]但某些线性列表(字符串)的简单转换在这个符号中很难定义。”
1964年的《关于声明任意编码字母表》提到“字符字符串”。
搜索ACM显示了60年代及以后的许多其他资源,所有这些资源现在都定期使用这个术语,因此,60年代似乎是这个术语演变的催化剂,并使其成为今天的样子,缓慢地,通过它所处的系统的需求。很有趣的是,它最终代表的概念与印刷术时代的概念相似——一组具有含义并带来某些成本的字符(只是这次是在内存中)。
作为旁注——考虑一下60多年前的所有这些论文。60年前,他们用穿孔卡片解决计算机科学问题,并在学术论文中写到这些问题。而我们现在是2017年,有2017年的JavaScript框架,争论着谁可以在Drupal的社区中与谁发生性关系,并试图一遍又一遍地重新定义Facade这个词。当我们争论“东西进入盒子,东西从盒子出来”的现代网络开发的火箭科学时,那些人通过将他们所处的模拟环境转化为数字环境来塑造整个世界,通过本质上欺骗一小撮沙子来记住数字。
结论
所以现在我们知道了——或者至少认为我们知道——string(字符串)从哪里来。计算机科学一直是一个充满神秘和缓慢演变的黑暗空间,就像我们现在知道人眼在其过去有半阶段和半眼一样,计算机科学中的术语也已经超越并围绕其原始含义演变,直到它们给了我们今天所拥有的东西。20世纪60年代在各个地方同时诞生了相同名称的相同概念,直到它演变成一个我们都理解和使用的统一术语,最重要的是,我们都能达成一致。
当你仔细想想,我们还能用一个更好的词吗?虽然由于与“现实世界”中类似术语的完全脱节,string(字符串)几乎感觉不自然(我们不会将书页上的文字称为“strings”),但我无法想到任何更适合这种流行数据类型的术语。你能吗?告诉我。
计算机编程中字符串的常见问题解答(FAQ)
计算机科学中“字符串”一词被认为起源于“字符字符串”短语。它最早是在编程早期使用的,当时数据通常表示为字母数字字符的序列或“字符串”。这个术语被用来描述编程语言中作为字符序列的数据类型,并且它一直沿用至今。
字符串是字符序列,可以包括字母、数字和特殊字符。与整数或布尔值等其他数据类型(分别表示数值或真/假值)不同,字符串用于表示和操作文本。它们几乎是所有编程语言中的基本数据类型,并且它们带有多种内置方法用于操作和分析。
在Java和Python等一些编程语言中,字符串是不可变的。这意味着一旦创建了一个字符串,就不能更改它。这种设计选择主要是出于效率和安全原因。由于字符串经常在程序中大量使用,因此使它们不可变可以使系统优化内存使用和处理速度。它还可以防止与可变字符串相关的潜在安全风险。
字符串通常存储在内存中,作为字符序列,每个字符占用一定数量的字节,具体取决于所使用的字符编码。例如,在ASCII编码中,每个字符占用一个字节的内存,而在Unicode编码中,字符可以占用两个或多个字节。字符串的结尾通常用特殊的空字符标记。
可以对字符串执行许多操作,包括连接(将两个字符串连接在一起)、子字符串提取(获取字符串的一部分)、字符串比较(检查两个字符串是否相等)和字符串搜索(在字符串中查找特定字符或子字符串)。这些操作通常作为编程语言中的内置方法提供。
大多数编程语言都提供函数或方法来将字符串转换为其他数据类型。例如,在Python中,可以使用int()函数将数字字符串转换为整数,或使用float()函数将其转换为浮点数。但是,如果字符串不表示有效的数字,则这些转换将失败。
字符串插值是一种编程技术,其中变量或表达式直接插入到字符串中。这通常用于以更易读和方便的方式格式化字符串。字符串插值的语法因编程语言而异。
字符串是字符序列,而字符数组是一个数组,其中每个元素都是一个字符。在C等一些编程语言中,字符串表示为以空字符结尾的字符数组。但是,在许多高级语言中,字符串是一种具有自身方法和属性的单独数据类型。
字符串文字是直接写入程序源代码的字符串。它通常用引号括起来,具体是单引号还是双引号取决于编程语言。字符串文字被视为常数值,在某些语言中,它们是不可变的。
字符串中的特殊字符,如换行符、制表符或引号字符,通常使用转义序列表示。转义序列是一个反斜杠 () 后跟一个字符或字符序列。确切的语法和可用的转义序列因编程语言而异。
以上是为什么字符串称为字符串?的详细内容。更多信息请关注PHP中文网其他相关文章!