Java String 性能优化技巧 - 摩柯技术社区

理解 Java 中的 String 类

在 Java 编程中，String 类是使用最为频繁的类之一。它用于表示字符串，是一个典型的不可变类。所谓不可变，即一旦一个 String 对象被创建，其内容就不能被改变。这一特性是理解 String 性能优化的关键。

String 的不可变原理

String 类的不可变性是由其内部实现决定的。在 String 类中，字符串的值存储在一个 private final char[] value 数组中。final 关键字修饰这个数组，意味着它一旦被初始化，就不能再指向其他数组。并且 String 类没有提供任何方法来直接修改这个数组的内容。

public final class String
    implements java.io.Serializable, Comparable<String>, CharSequence {
    private final char value[];
    // 其他代码
}

例如，当执行以下代码时：

String str = "Hello";
str = str + " World";

表面上看，str 的值发生了变化，但实际上，在内存中，"Hello" 这个字符串对象并没有改变。而是创建了一个新的字符串对象 "Hello World"，str 变量重新指向了这个新对象。

不可变特性带来的优势

字符串常量池：由于 String 不可变，Java 虚拟机（JVM）可以将相同的字符串字面量共享，放入字符串常量池中。例如，定义 String s1 = "Hello" 和 String s2 = "Hello"，在字符串常量池中只会存在一个 "Hello" 字符串对象，s1 和 s2 都指向这个对象，节省了内存空间。
安全性：在多线程环境下，不可变的 String 是线程安全的。因为其内容不会被修改，多个线程可以安全地共享同一个 String 对象。例如，在网络连接、数据库连接等配置信息中使用 String，可以避免线程安全问题。
哈希值的固定性：String 的不可变性保证了其哈希值的固定性。因为 String 对象内容不会改变，其哈希值也不会改变，这使得 String 非常适合作为 HashMap 的键。一旦计算出哈希值，就可以一直使用，提高了哈希表的性能。

使用 StringBuilder 和 StringBuffer

在处理字符串拼接操作时，如果使用 String 类的 + 运算符，会产生性能问题。因为每次使用 + 进行拼接时，都会创建新的 String 对象，这在字符串数量较多或字符串较长时，会消耗大量的内存和时间。

StringBuilder 类

StringBuilder 类是可变的字符序列，专门用于高效地拼接字符串。它提供了一系列的 append 方法，可以将各种类型的数据追加到字符串序列中。

StringBuilder sb = new StringBuilder();
sb.append("Hello");
sb.append(" ");
sb.append("World");
String result = sb.toString();

在上述代码中，通过 StringBuilder 的 append 方法逐步构建字符串，最后通过 toString 方法将 StringBuilder 对象转换为 String 对象。StringBuilder 在内部维护一个字符数组，当字符数组容量不足时，会自动扩容。

StringBuffer 类

StringBuffer 类和 StringBuilder 类类似，也是可变的字符序列，提供了 append 等方法用于字符串拼接。但 StringBuffer 是线程安全的，其方法大多使用 synchronized 关键字修饰。

StringBuffer sb = new StringBuffer();
sb.append("Hello");
sb.append(" ");
sb.append("World");
String result = sb.toString();

然而，由于线程安全的特性，StringBuffer 的性能相对 StringBuilder 较低。在单线程环境下，应优先使用 StringBuilder；只有在多线程环境下，才需要使用 StringBuffer。

性能对比

为了更直观地了解 String、StringBuilder 和 StringBuffer 在字符串拼接性能上的差异，我们可以编写一个性能测试代码：

public class StringPerformanceTest {
    public static void main(String[] args) {
        int numIterations = 10000;
        long startTime, endTime;

        // 使用 String 进行拼接
        startTime = System.currentTimeMillis();
        String str = "";
        for (int i = 0; i < numIterations; i++) {
            str += "a";
        }
        endTime = System.currentTimeMillis();
        System.out.println("String 拼接时间: " + (endTime - startTime) + " ms");

        // 使用 StringBuilder 进行拼接
        startTime = System.currentTimeMillis();
        StringBuilder sb = new StringBuilder();
        for (int i = 0; i < numIterations; i++) {
            sb.append("a");
        }
        String result1 = sb.toString();
        endTime = System.currentTimeMillis();
        System.out.println("StringBuilder 拼接时间: " + (endTime - startTime) + " ms");

        // 使用 StringBuffer 进行拼接
        startTime = System.currentTimeMillis();
        StringBuffer sbf = new StringBuffer();
        for (int i = 0; i < numIterations; i++) {
            sbf.append("a");
        }
        String result2 = sbf.toString();
        endTime = System.currentTimeMillis();
        System.out.println("StringBuffer 拼接时间: " + (endTime - startTime) + " ms");
    }
}

运行上述代码，你会发现 String 的拼接时间远远长于 StringBuilder 和 StringBuffer，而 StringBuilder 的拼接时间又略短于 StringBuffer（在单线程环境下）。

避免不必要的 String 创建

在编写代码时，要尽量避免创建不必要的 String 对象，这有助于提高性能和节省内存。

避免在循环中创建不必要的 String 对象

例如，以下代码在每次循环中都创建了一个新的 String 对象：

for (int i = 0; i < 1000; i++) {
    String temp = "Value: " + i;
    System.out.println(temp);
}

更好的做法是使用 StringBuilder 来构建字符串：

StringBuilder sb = new StringBuilder();
for (int i = 0; i < 1000; i++) {
    sb.setLength(0);
    sb.append("Value: ").append(i);
    System.out.println(sb.toString());
}

在这个改进版本中，通过重用 StringBuilder 对象，避免了在每次循环中创建新的 String 对象。

减少隐式的 String 创建

有些操作会隐式地创建 String 对象，例如 split 方法返回的字符串数组中的元素都是新的 String 对象。如果对这些字符串只是进行简单的比较等操作，可以考虑使用 CharSequence 接口。

String str = "a,b,c";
String[] parts = str.split(",");
for (String part : parts) {
    if (part.equals("b")) {
        System.out.println("Found b");
    }
}

如果只是进行比较操作，可以改为：

String str = "a,b,c";
CharSequence[] parts = str.split(",");
for (CharSequence part : parts) {
    if ("b".contentEquals(part)) {
        System.out.println("Found b");
    }
}

这样可以避免创建不必要的 String 对象，提高性能。

使用 intern() 方法

intern() 方法是 String 类的一个重要方法，它可以将字符串对象添加到字符串常量池中。

intern() 方法的作用

当调用 intern() 方法时，如果字符串常量池中已经存在与当前字符串内容相同的字符串对象，则返回常量池中该对象的引用；否则，将当前字符串对象添加到常量池中，并返回其引用。

String str1 = new String("Hello");
String str2 = str1.intern();
String str3 = "Hello";
System.out.println(str2 == str3); // 输出 true

在上述代码中，str1 是通过 new 关键字创建的字符串对象，位于堆内存中。调用 intern() 方法后，str2 指向了字符串常量池中的 "Hello" 对象。而 str3 直接指向字符串常量池中的 "Hello" 对象，所以 str2 和 str3 引用的是同一个对象。

适用场景

intern() 方法适用于需要大量相同字符串的场景，例如在处理大量文本数据时，如果有很多重复的字符串，通过调用 intern() 方法可以减少内存占用。但需要注意的是，intern() 方法可能会导致性能问题，因为它需要在字符串常量池中进行查找操作。如果字符串常量池中的对象数量过多，查找时间会变长。所以在使用 intern() 方法时，要权衡内存节省和性能开销。

优化字符串匹配操作

在实际编程中，经常需要进行字符串匹配操作，如查找子字符串、判断字符串是否符合某种模式等。优化这些操作可以显著提高程序性能。

使用 indexOf 方法进行简单查找

如果只是简单地查找一个子字符串在字符串中的位置，可以使用 indexOf 方法。indexOf 方法采用朴素的字符串匹配算法，在大多数情况下性能较好。

String str = "Hello World";
int index = str.indexOf("World");
if (index != -1) {
    System.out.println("子字符串 World 位置: " + index);
}

使用正则表达式的注意事项

正则表达式是一种强大的字符串匹配工具，但它的性能相对较低。因为正则表达式的匹配过程较为复杂，需要对模式进行解析和状态机的构建。所以在使用正则表达式时，要确保其必要性。

import java.util.regex.Pattern;

String str = "Hello123";
boolean isMatch = Pattern.matches("^[A-Za-z]+\\d+$", str);
if (isMatch) {
    System.out.println("字符串符合模式");
}

如果只是进行简单的格式判断，如判断字符串是否为数字，可以使用更高效的方法，如 Character.isDigit 方法：

String str = "123";
boolean isDigit = true;
for (int i = 0; i < str.length(); i++) {
    if (!Character.isDigit(str.charAt(i))) {
        isDigit = false;
        break;
    }
}
if (isDigit) {
    System.out.println("字符串是数字");
}

预编译正则表达式

如果需要多次使用同一个正则表达式进行匹配，可以预编译正则表达式，以提高性能。通过 Pattern.compile 方法可以将正则表达式编译成 Pattern 对象，然后使用 Pattern 对象的 matcher 方法进行匹配。

import java.util.regex.Matcher;
import java.util.regex.Pattern;

Pattern pattern = Pattern.compile("^[A-Za-z]+\\d+$");
String str1 = "Hello123";
String str2 = "World456";
Matcher matcher1 = pattern.matcher(str1);
Matcher matcher2 = pattern.matcher(str2);
if (matcher1.matches()) {
    System.out.println("str1 符合模式");
}
if (matcher2.matches()) {
    System.out.println("str2 符合模式");
}

这样在多次匹配时，不需要每次都编译正则表达式，提高了匹配效率。

处理大字符串时的优化

在处理大字符串时，由于其占用内存较大，需要特别注意性能优化。

分段处理大字符串

如果大字符串需要进行复杂的操作，可以考虑将其分段处理。例如，在读取大文件内容并进行处理时，可以逐行读取，而不是一次性读取整个文件内容到一个大字符串中。

import java.io.BufferedReader;
import java.io.FileReader;
import java.io.IOException;

public class BigStringProcessor {
    public static void main(String[] args) {
        String filePath = "largeFile.txt";
        try (BufferedReader br = new BufferedReader(new FileReader(filePath))) {
            String line;
            while ((line = br.readLine()) != null) {
                // 对每一行进行处理
                System.out.println(line);
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

使用内存映射文件

对于非常大的字符串数据，可以考虑使用内存映射文件（Memory - Mapped Files）。内存映射文件允许将文件内容直接映射到内存中，就像访问内存数组一样访问文件内容，避免了大量数据在内存和磁盘之间的频繁读写。

import java.io.File;
import java.io.IOException;
import java.io.RandomAccessFile;
import java.nio.MappedByteBuffer;
import java.nio.channels.FileChannel;

public class MemoryMappedFileExample {
    public static void main(String[] args) {
        File file = new File("largeFile.txt");
        try (RandomAccessFile raf = new RandomAccessFile(file, "r");
             FileChannel channel = raf.getChannel()) {
            MappedByteBuffer mbb = channel.map(FileChannel.MapMode.READ_ONLY, 0, file.length());
            // 处理 MappedByteBuffer 中的数据，这里简单示例读取数据
            byte[] buffer = new byte[(int) file.length()];
            mbb.get(buffer);
            String content = new String(buffer);
            System.out.println(content);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

通过内存映射文件，可以显著提高对大文件内容（可视为大字符串）的处理效率。

缓存字符串相关计算结果

在某些情况下，字符串的一些计算结果是固定的或很少变化的，可以考虑缓存这些结果，避免重复计算。

缓存哈希值

如果需要频繁计算 String 对象的哈希值，可以缓存哈希值。虽然 String 类本身已经缓存了哈希值，但在某些特殊情况下，可能需要手动缓存。

import java.util.HashMap;
import java.util.Map;

public class StringHashCache {
    private static final Map<String, Integer> hashCache = new HashMap<>();

    public static int getCachedHash(String str) {
        if (hashCache.containsKey(str)) {
            return hashCache.get(str);
        }
        int hash = str.hashCode();
        hashCache.put(str, hash);
        return hash;
    }

    public static void main(String[] args) {
        String str = "Hello";
        int hash1 = getCachedHash(str);
        int hash2 = getCachedHash(str);
        System.out.println("缓存的哈希值: " + hash1 + ", " + hash2);
    }
}

缓存字符串处理结果

对于一些复杂的字符串处理操作，如格式化、转换等，如果结果很少变化，可以缓存处理结果。

import java.text.SimpleDateFormat;
import java.util.Date;
import java.util.HashMap;
import java.util.Map;

public class StringFormatCache {
    private static final Map<Date, String> formatCache = new HashMap<>();
    private static final SimpleDateFormat sdf = new SimpleDateFormat("yyyy - MM - dd HH:mm:ss");

    public static String getFormattedDate(Date date) {
        if (formatCache.containsKey(date)) {
            return formatCache.get(date);
        }
        String formattedDate = sdf.format(date);
        formatCache.put(date, formattedDate);
        return formattedDate;
    }

    public static void main(String[] args) {
        Date date = new Date();
        String format1 = getFormattedDate(date);
        String format2 = getFormattedDate(date);
        System.out.println("缓存的格式化日期: " + format1 + ", " + format2);
    }
}

通过缓存字符串相关计算结果，可以避免重复计算带来的性能开销，提高程序的整体性能。

总结优化策略

在 Java 编程中，对 String 进行性能优化可以从多个方面入手。首先要深刻理解 String 的不可变特性，这是许多优化策略的基础。在字符串拼接时，根据场景选择合适的类，单线程环境优先使用 StringBuilder，多线程环境使用 StringBuffer。要避免不必要的 String 对象创建，减少隐式创建 String 的操作。合理使用 intern() 方法，但要注意其性能开销。在字符串匹配操作中，优先使用简单高效的方法，如 indexOf，谨慎使用正则表达式，必要时预编译正则表达式。处理大字符串时，采用分段处理或内存映射文件的方式。最后，对于字符串相关的固定计算结果，考虑进行缓存。通过综合运用这些优化技巧，可以显著提高涉及 String 操作的程序的性能和内存使用效率。