
URL 编码的重要性
url 编码是将 url 中的字符转换为可通过互联网传输的格式的过程。url 只能使用 ascii 字符集中的字符。由于 url 经常包含 ascii 字符集之外的字符,以及某些在 url 中具有特殊含义的字符(例如空格、?、&、#),因此需要对 url 进行编码。
URL 编码通过将这些字符替换为 % 符号后跟两位十六进制数来完成。例如,空格被编码为 %20。
Java 中的 URL 编码
Java 提供了 java.net.URLEncoder 类来执行 URL 编码。URLEncoder.encode(String s, String encoding) 方法将字符串 s 使用指定的编码格式(通常为 UTF-8)进行编码。
示例:
import java.net.URLEncoder;
import java.io.UnsupportedEncodingException;
public class URLEncodingExample {
public static void main(String[] args) {
String url = "https://www.example.com/search?q=你好 世界";
String encodedURL = null;
try {
encodedURL = URLEncoder.encode(url, "UTF-8");
System.out.println("Encoded URL: " + encodedURL);
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
}
}
}输出:
立即学习“Java免费学习笔记(深入)”;
Encoded URL: https%3A%2F%2Fwww.example.com%2Fsearch%3Fq%3D%E4%BD%A0%E5%A5%BD%20%E4%B8%96%E7%95%8C
从字符串中提取 URL 并进行编码
有时,URL 可能嵌入在更大的字符串中。在这种情况下,需要首先提取 URL,然后再对其进行编码。可以使用正则表达式来提取 URL。
示例:
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import java.net.URLEncoder;
import java.io.UnsupportedEncodingException;
public class URLExtractionAndEncoding {
public static void main(String[] args) {
String text = "output=[\"https://i5.walmartimages.com/asr/a4ae31fc-572f-45a3-9d2a-4bf311b27e5d_1.ce84f66fa446e24c989f7f43f0a2a665.jpeg?odnHeight=450&odnWidth=450&odnBg=ffffff\"]";
List extractedUrls = extractUrls(text);
for (String url : extractedUrls) {
System.out.println("URL: " + url);
try {
System.out.println("Encoded URL: " + URLEncoder.encode(url, "UTF-8"));
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
}
}
}
public static List extractUrls(String text) {
List containedUrls = new ArrayList<>();
String urlRegex = "((https?|ftp|gopher|telnet|file):((//)|(\\\\))+[\\w\\d:#@%/;$()~_?\\+-=\\\\\\.&]*)";
Pattern pattern = Pattern.compile(urlRegex, Pattern.CASE_INSENSITIVE);
Matcher urlMatcher = pattern.matcher(text);
while (urlMatcher.find()) {
containedUrls.add(text.substring(urlMatcher.start(0), urlMatcher.end(0)));
}
return containedUrls;
}
} 代码解释:
-
extractUrls(String text) 方法:
- 使用正则表达式 urlRegex 定义了 URL 的模式。
- Pattern.compile(urlRegex, Pattern.CASE_INSENSITIVE) 创建一个忽略大小写的模式。
- Matcher urlMatcher = pattern.matcher(text) 创建一个匹配器,用于在输入文本中查找匹配的 URL。
- while (urlMatcher.find()) 循环遍历所有找到的 URL。
- text.substring(urlMatcher.start(0), urlMatcher.end(0)) 提取匹配的 URL 子字符串。
- 将提取的 URL 添加到 containedUrls 列表中。
-
main 方法:
- 调用 extractUrls 方法从输入字符串中提取 URL。
- 循环遍历提取的 URL 列表,并使用 URLEncoder.encode 对每个 URL 进行编码。
- 打印原始 URL 和编码后的 URL。
输出:
立即学习“Java免费学习笔记(深入)”;
URL: https://i5.walmartimages.com/asr/a4ae31fc-572f-45a3-9d2a-4bf311b27e5d_1.ce84f66fa446e24c989f7f43f0a2a665.jpeg?odnHeight=450&odnWidth=450&odnBg=ffffff Encoded URL: https%3A%2F%2Fi5.walmartimages.com%2Fasr%2Fa4ae31fc-572f-45a3-9d2a-4bf311b27e5d_1.ce84f66fa446e24c989f7f43f0a2a665.jpeg%3FodnHeight%3D450%26odnWidth%3D450%26odnBg%3Dffffff
注意事项
- 始终指定正确的字符编码(通常为 UTF-8)以避免编码错误。
- 仅对 URL 的查询字符串部分进行编码,而不是整个 URL。如果对协议(例如 https://)进行编码,可能会导致 URL 无效。
- 在发送 URL 请求之前进行编码。
- 在接收到 URL 响应后,如果需要,可以使用 java.net.URLDecoder 类进行解码。
总结
URL 编码是确保数据在网络上传输过程中正确性和完整性的关键步骤。通过使用 Java 的 URLEncoder 类和正则表达式,可以轻松地提取和编码 URL。请记住始终指定正确的字符编码并仅对 URL 的必要部分进行编码。遵循这些最佳实践可以避免常见的 URL 编码问题。










