JavaScript 文字列の一般的な基本メソッドの詳細な紹介-jsチュートリアル-php.cn

この記事では、javascript に関する関連知識を紹介します。主に文字列に関する関連知識を紹介します。主に、よく使用される基本的なメソッドと、特殊文字や絵文字の内部表現方法を紹介します。以下の内容が皆様のお役に立てば幸いです。

JavaScript 文字列の一般的な基本メソッドの詳細な紹介

[関連する推奨事項: JavaScript ビデオチュートリアル、Web フロントエンド ]

どんなプログラミングでも言語では、文字列は重要なデータ型です。詳細を学ぶためにフォローしてくださいJavaScript 文字列の知識!

まえがき

文字列は文字で構成される文字列です。C、Java を学習したことがある場合は、文字自体もさまざまな文字列で構成されることを知っているはずです。独立してタイプになります。ただし、JavaScript には単一の文字タイプはなく、長さ 1 の文字列のみがあります。

JavaScript の文字列は、固定の UTF-16 エンコーディングを使用しています。プログラムを作成するときにどのようなエンコーディングを使用しても、影響を受けません。

書き方

文字列を記述するには、一重引用符、二重引用符、バックティックの 3 つの方法があります。

let single = 'abcdefg';//单引号let double = "asdfghj";//双引号let backti = `zxcvbnm`;//反引号

ログイン後にコピー

一重引用符と二重引用符は同じステータスを持ち、区別しません。

文字列の書式設定

バッククォートを使用すると、文字列の加算演算を使用する代わりに、${...}文字列をエレガントに書式設定できます。

let str = `I'm ${Math.round(18.5)} years old.`;console.log(str);

ログイン後にコピー

コードの実行結果:

JavaScript 文字列の一般的な基本メソッドの詳細な紹介

複数行の文字列

バックティックを使用すると、文字列を複数行にまたがることもできます。、複数行の文字列を記述するときに非常に便利です。

let ques = `Is the author handsome?
A. Very handsome;
B. So handsome;
C. Super handsome;`;console.log(ques);

ログイン後にコピー

コード実行結果：

JavaScript 文字列の一般的な基本メソッドの詳細な紹介

何も無いように見えませんか？ただし、これは一重引用符と二重引用符を使用して実現することはできません。同じ結果を得たい場合は、次のように記述できます:

let ques = 'Is the author handsome?\nA. Very handsome;\nB. So handsome;\nC. Super handsome;';console.log(ques);

ログイン後にコピー

上記のコードには、特殊文字 \n が含まれています。プログラミングプロセスで使用される最も一般的な特殊文字。

特殊文字

文字\nは、「改行文字」とも呼ばれ、複数行の文字列を出力するための一重引用符と二重引用符をサポートしています。エンジンが文字列を出力するときに、\n に遭遇すると、別の行に出力を続けるため、複数行の文字列が実現されます。

\n は 2 文字のように見えますが、占有する文字位置は 1 つだけです。これは、\ が文字列内の エスケープ文字であるためです。 #、エスケープ文字で修飾された文字は特殊文字になります。

特殊文字リスト

特殊文字説明出力テキストの新しい行を開始するために使用される改行文字。 #\rWindows## では ## を使用します# system #\r\n\'\"\\\\b \ f\xXXUnicode\uXXXXUnicode (1-6 16 進文字) #XX...X

キャリッジリターン文字、カーソルを行の先頭に移動し、は改行を表します。つまり、新しい行に変更するには、カーソルが最初に行の先頭に移動し、次に次の行に移動する必要があります。他のシステムの場合は、\n を使用してください。

一重引用符と二重引用符。主に一重引用符と二重引用符は特殊文字であるためです。、文字列内で 1 文字と 2 文字を使用する場合は、それらをエスケープしてください。

バックスラッシュも必要です。理由は \ です。 は特殊文字です。自体を出力したい場合は、エスケープする必要があります。

\vバックスペース、ページ送り、垂直タブ - は使用されなくなりました。

は、XX としてエンコードされた 16 進数の文字です。たとえば、 \x7A は z (16 進数) を意味します。 z の Unicode エンコードは 7A です)。

は、XXXX としてエンコードされた 16 進数の文字です。たとえば、\u00A9 は © を意味します。 #\u{X...X}

UTF-32Unicode

. としてエンコードされたシンボル

举个例子：

console.log('I\'m a student.');// \'console.log("\"I love U\"");// \"console.log("\\n is new line character.");// \nconsole.log('\u00A9')// ©console.log('\u{1F60D}');//

ログイン後にコピー

代码执行结果：

JavaScript 文字列の一般的な基本メソッドの詳細な紹介

有了转义符\的存在，理论上我们可以输出任何字符，只要找到它对应的编码就可以了。

避免使用\'、\"

对于字符串中的单双引号，我们可以通过在单引号中使用双引号、在双引号中使用单引号，或者直接在反引号中使用单双引号，就可以巧妙的避免使用转义符，例如：

console.log("I'm a student.");
//双引号中使用单引号console.log('"" is used.');
//单引号中使用双引号console.log(`' " is used.`);
//反引号中使用单双引号

ログイン後にコピー

代码执行结果如下：

JavaScript 文字列の一般的な基本メソッドの詳細な紹介

.length

通过字符串的.length属性，我们可以获得字符串的长度：

console.log("HelloWorld\n".length);//11

ログイン後にコピー

这里\n只占用了一个字符。

《基础类型的方法》章节我们探究了JavaScript中的基础类型为什么会有属性和方法，你还记得吗？

访问字符、charAt()、for…of

字符串是字符组成的串，我们可以通过[字符下标]访问单个的字符，字符下标从0开始：

let str = "The author is handsome.";
console.log(str[0]);//Tconsole.log(str[4]);//aconsole.log(str[str.length-1]);//.

ログイン後にコピー

代码执行结果：

JavaScript 文字列の一般的な基本メソッドの詳細な紹介

我们还可以使用charAt(post)函数获得字符：

let str = "The author is handsome.";console.log(str.charAt(0));
//Tconsole.log(str.charAt(4));
//aconsole.log(str.charAt(str.length-1));//.

ログイン後にコピー

二者执行效果完全相同，唯一的区别在于越界访问字符时：

let str = "01234";console.log(str[9]);//undefinedconsole.log(str.charAt(9));//""（空串）

ログイン後にコピー

我们还可以使用for ..of遍历字符串：

for(let c of '01234'){
    console.log(c);}

ログイン後にコピー

字符串不可变

JavaScript中的字符串一经定义就不可更改，举个例子：

let str = "Const";str[0] = 'c' ;console.log(str);

ログイン後にコピー

代码执行结果：

JavaScript 文字列の一般的な基本メソッドの詳細な紹介

如果想获得一个不一样的字符串，只能新建：

let str = "Const";str = str.replace('C','c');console.log(str);

ログイン後にコピー

看起来我们似乎改变了字符串，实际上原来的字符串并没有被改变，我们得到的是replace方法返回的新字符串。

.toLowerCase()、.toUpperCase()

转换字符串大小写，或者转换字符串中单个字符的大小写。

这两个字符串的方法比较简单，举例带过：

console.log('Good Boy'.toLowerCase());//good 
boyconsole.log('Good Boy'.toUpperCase());//GOOD 
BOYconsole.log('Good Boy'[5].toLowerCase());//b

ログイン後にコピー

代码执行结果：

JavaScript 文字列の一般的な基本メソッドの詳細な紹介

.indexOf()、.lastIndexOf() 查找子串

.indexOf(substr,idx)函数从字符串的idx位置开始，查找子串substr的位置，成功返回子串首字符下标，失败返回-1。

let str = "google google";console.log(str.indexOf('google'));
//0 idx默认为0console.log(str.indexOf('google',1));
//7 从第二个字符开始查找console.log(str.indexOf('xxx'));
//-1 没找到返回-1

ログイン後にコピー

代码执行结果：

JavaScript 文字列の一般的な基本メソッドの詳細な紹介

如果我们想查询字符串中所有子串位置，可以使用循环：

let str = "I love love love love u.";let sub = "love";let pos = -1;while((pos = str.indexOf(sub,pos+1)) != -1)
    console.log(pos);

ログイン後にコピー

代码执行结果如下：

JavaScript 文字列の一般的な基本メソッドの詳細な紹介

.lastIndexOf(substr,idx)倒着查询子串，首先查找最后一个符合的串：

let str = "google google";console.log(str.lastIndexOf('google'));//7 idx默认为0

ログイン後にコピー

按位取反技巧（不推荐，但要会）

由于indexOf()和lastIndexOf()方法在查询不成功的时候会返回-1，而~-1 === 0。也就是说只有在查询结果不为-1的情况下使用~才为真，所以我们可以：

let str = "google google";if(~indexOf('google',str)){
    ...}

ログイン後にコピー

通常情况下，我们不推荐在不能明显体现语法特性的地方使用一个语法，这会在可读性上产生影响。好在以上代码只出现在旧版本的代码中，这里提到就是为了大家在阅读旧代码的时候不会产生困惑。

补充：

~是按位取反运算符，例如：十进制的数字2的二进制形式为0010，~2的二进制形式就是1101（补码），也就是-3。

简单的理解方式，~n等价于-(n+1)，例如：~2 === -(2+1) === -3

.includes()、.startsWith()、.endsWith()

.includes(substr,idx)用于判断substr是否在字符串中，idx是查询开始的位置

console.log('Google Google'.includes('Google'));//trueconsole.log('Google Google'.includes('xxxxxx'));//falseconsole.log('9966'.includes('99',1));//false

ログイン後にコピー

代码执行结果：

JavaScript 文字列の一般的な基本メソッドの詳細な紹介

.startsWith('substr')和.endsWith('substr')分别判断字符串是否以substr开始或结束
```
console.log("google".startsWith('go'));//trueconsole.log('google'.endsWith('le'));//trueconsole.log('google'.endsWith('ie'));//false
```
ログイン後にコピー
代码执行结果：

.JavaScript 文字列の一般的な基本メソッドの詳細な紹介、.JavaScript 文字列の一般的な基本メソッドの詳細な紹介、.JavaScript 文字列の一般的な基本メソッドの詳細な紹介

.JavaScript 文字列の一般的な基本メソッドの詳細な紹介、.JavaScript 文字列の一般的な基本メソッドの詳細な紹介、.JavaScript 文字列の一般的な基本メソッドの詳細な紹介均用于取字符串的子串，不过用法各有不同。

.substr(start,len)

返回字符串从start开始len个字符组成的字符串，如果省略len，就截取到原字符串的末尾。start可以为负数，表示从后往前第start个字符。
```
let str = "0123456789";console.log(str.substr(1))//123456789，从1开始到最后console.log(str.substr(3,2))//34，从3开始的2个字符console.log(str.substr(-3,2))//78，倒数第二个开始
```
ログイン後にコピー
代码执行结果：

.slice(start,end)

返回字符串从start开始到end结束（不包括）的字符串。start和end可以为负数，表示倒数第start/end个字符。

let str = '0123456789';console.log(str.slice(1,5));//1234，区间[1,5)之间的字符console.log(str.slice(1));//123456789，从1到结尾console.log(str.slice(-4,-1));//678，倒数第四个到倒数第1个

ログイン後にコピー

代码执行结果：

JavaScript 文字列の一般的な基本メソッドの詳細な紹介

.substring(start,end)

作用几乎和.JavaScript 文字列の一般的な基本メソッドの詳細な紹介相同，差别在两个地方：
- 允许end > start;
- 不允许负数，负数视为0;
举例：
```
let str = '0123456789';console.log(str.substring(1,3));//12console.log(str.substring(3,1));//12console.log(str.substring(-1,3));//012，-1被当作0
```
ログイン後にコピー
代码执行结果：

对比三者的区别：

方法	描述	参数
`.slice(start,end)`	`[start,end)`	可负
`.substring(start,end)`	`[start,end)`	负值为`0`
`.substr(start,len)`	从`start`开始长为`len`的子串	可负

方法多了自然就选择困难了，这里建议记住.JavaScript 文字列の一般的な基本メソッドの詳細な紹介就可以了，相比于其他两种更灵活。

.JavaScript 文字列の一般的な基本メソッドの詳細な紹介、JavaScript 文字列の一般的な基本メソッドの詳細な紹介

我们在前文中已经提及过字符串的比较，字符串按照字典序进行排序，每个字符背后都是一个编码，ASCII编码就是一个重要的参考。

例如:

console.log('a'>'Z');//true

ログイン後にコピー

字符之间的比较，本质上是代表字符的编码之间的比较。JavaScript使用UTF-16编码字符串，每个字符都是一个16为的代码，想要知道比较的本质，就需要使用.codePointAt(idx)获得字符的编码：

console.log('a'.codePointAt(0));//97console.log('Z'.codePointAt(0));//90

ログイン後にコピー

代码执行结果：

JavaScript 文字列の一般的な基本メソッドの詳細な紹介

使用String.fromCodePoint(code)可以把编码转为字符：

console.log(String.fromCodePoint(97));console.log(String.fromCodePoint(90));

ログイン後にコピー

代码执行结果如下：

JavaScript 文字列の一般的な基本メソッドの詳細な紹介

这个过程可以用转义符\u实现，如下：

console.log('\u005a');//Z，005a是90的16进制写法console.log('\u0061');//a，0061是97的16进制写法

ログイン後にコピー

下面我们探索一下编码为[65,220]区间的字符：

let str = '';for(let i = 65; i<p>代码执行部分结果如下：</p><p><img src="/static/imghw/default1.png" data-src="https://img.php.cn/upload/article/000/000/067/0f4e2a78ef52090d845bd32f6b72d01c-17.png" class="lazy" alt="JavaScript 文字列の一般的な基本メソッドの詳細な紹介"></p><p>上图并没有展示所有的结果，快去试试吧。</p><h2>.localeCompare()</h2><p>基于国际化标准<code>ECMA-402</code>，<code>JavaScript</code>已经实现了一个特殊的方法（<code>.localeCompare()</code>）比较各种字符串，采用<code>str1.localeCompare(str2)</code>的方式：</p><ol>
<li>如果<code>str1 ，返回负数；</code>
</li>
<li>如果<code>str1 > str2</code>，返回正数；</li>
<li>如果<code>str1 == str2</code>,返回0；</li>
</ol><p>举个例子：</p><pre class="brush:php;toolbar:false">console.log("abc".localeCompare('def'));//-1

ログイン後にコピー

为什么不直接使用比较运算符呢？

这是因为英文字符有一些特殊的写法，例如，á是a的变体：

console.log('á' <p>虽然也是<code>a</code>，但是比<code>z</code>还要大！！</p><p>此时就需要使用<code>.localeCompare()</code>方法：</p><pre class="brush:php;toolbar:false">console.log('á'.localeCompare('z'));//-1

ログイン後にコピー

常用方法

str.trim()去除字符串前后空白字符，str.trimStart()、str.trimEnd()删除开头、结尾的空格；
```
let str = "  999   ";console.log(str.trim());//999
```
ログイン後にコピー
str.repeat(n)重复n次字符串；
```
let str = '6';console.log(str.repeat(3));//666
```
ログイン後にコピー
str.replace(substr,newstr)替换第一个子串，str.replaceAll()用于替换所有子串；
```
let str = '9+9';console.log(str.replace('9','6'));//6+9console.log(str.replaceAll('9','6'));//6+6
```
ログイン後にコピー

还有很多其他方法，我们可以访问手册获取更多知识。

进阶内容

生僻字、JavaScript 文字列の一般的な基本メソッドの詳細な紹介、特殊符号

JavaScript使用UTF-16编码字符串，也就是使用两个字节（16位）表示一个字符，但是16位数据只能表示65536个字符，对于常见字符自然不在话下，但是对于生僻字（中文的）、JavaScript 文字列の一般的な基本メソッドの詳細な紹介、罕见数学符号等就力不从心了。

这种时候就需要扩展，使用更长的位数（32位）表示特殊字符，例如：

console.log(''.length);//2console.log('?'.length);//2

ログイン後にコピー

代码执行结果：

JavaScript 文字列の一般的な基本メソッドの詳細な紹介

这么做的结果是，我们无法使用常规的方法处理它们，如果我们单个输出其中的每个字节，会发生什么呢？

console.log(''[0]);console.log(''[1]);

ログイン後にコピー

代码执行结果：

JavaScript 文字列の一般的な基本メソッドの詳細な紹介

可以看到，单个输出字节是不能识别的。

好在JavaScript 文字列の一般的な基本メソッドの詳細な紹介和.JavaScript 文字列の一般的な基本メソッドの詳細な紹介两个方法是可以处理这种情况的，这是因为二者是最近才加入的。在旧版本的JavaScript中，只能使用String.fromCharCode()和.charCodeAt()两个方法转换编码和字符，但是他们不适用于特殊字符的情况。

我们可以通过判断一个字符的编码范围，判断它是否是一个特殊字符，从而处理特殊字符。如果一个字符的代码在0xd800~0xdbff之间，那么他是32位字符的第一部分，它的第二部分应该在0xdc00~0xdfff。

举个例子：

console.log(''.charCodeAt(0).toString(16));//d83
dconsole.log('?'.charCodeAt(1).toString(16));//de02

ログイン後にコピー

代码执行结果：

JavaScript 文字列の一般的な基本メソッドの詳細な紹介

规范化

在英文中，存在很多基于字母的变体，例如：字母 a 可以是 àáâäãåā 的基本字符。这些变体符号并没有全部存储在UTF-16编码中，因为变化组合太多了。

为了支持所有的变体组合，同样使用多个Unicode字符表示单个变体字符，在编程过程中，我们可以使用基本字符加上“装饰符号”的方式表达特殊字符：

console.log('a\u0307');//ȧ
console.log('a\u0308');//ȧ
console.log('a\u0309');//ȧ
console.log('E\u0307');//Ė
console.log('E\u0308');//Ë
console.log('E\u0309');//Ẻ

ログイン後にコピー

代码执行结果：

JavaScript 文字列の一般的な基本メソッドの詳細な紹介

一个基础字母还可以有多个装饰，例如：

console.log('E\u0307\u0323');//Ẹ̇
console.log('E\u0323\u0307');//Ẹ̇

ログイン後にコピー

代码执行结果：

JavaScript 文字列の一般的な基本メソッドの詳細な紹介

这里存在一个问题，在多个装饰的情况下，装饰的排序不同，实际上展示的字符是一样的。

如果我们直接比较这两种表示形式，却会得到错误的结果：

let e1 = 'E\u0307\u0323';
let e2 = 'E\u0323\u0307';
console.log(`${e1}==${e2} is ${e1 == e2}`)

ログイン後にコピー

代码执行结果：

JavaScript 文字列の一般的な基本メソッドの詳細な紹介

为了解决这种情况，有一个**Unicode规范化算法，可以将字符串转为通用**格式，由str.normalize()实现：

<span   style="max-width:90%" microsoft yahei sans gb helvetica neue tahoma arial sans-serif>let e1 = 'E\u0307\u0323';<br>let e2 = 'E\u0323\u0307';<br>console.log(`${e1}==${e2} is ${e1.normalize() == e2.normalize()}`)</span><br>

ログイン後にコピー

代码执行结果：

JavaScript 文字列の一般的な基本メソッドの詳細な紹介