URL的编码解码(一),仅针对ASCII码字符

用十六进制对特定字符编码,利用百分号标识搜索字符串解码十六进制字符。


(笔记模板由python脚本于2024年06月09日 18:05:25创建,本篇笔记适合喜好探寻URL的coder翻阅)


【学习的细节是欢悦的历程】


  自学并不是什么神秘的东西,一个人一辈子自学的时间总是比在学校学习的时间长,没有老师的时候总是比有老师的时候多。
            —— 华罗庚


等风来,不如追风去……


用十六进制对特定字符编码
URL的编码解码(一)
(利用百分号标识搜索字符串解码十六进制字符)


本文质量分:

96 96 96

本文地址: https://blog.csdn.net/m0_57158496/

CSDN质量分查询入口:http://www.csdn.net/qc


目 录

  • ◆ URL的编码解码(一)
    • 1、需要编码的URL字符集
    • 2、ASCII字符集
    • 3、主机域名限制
    • 4、url解码
      • 4.1 解码函数
      • 4.2 代码解析
    • 5、URL编码
      • 5.1 编码函数
      • 5.2 代码解析
    • 6、完整源码(Python)


◆ URL的编码解码(一)


1、需要编码的URL字符集


  需要编码的URL字符集,通常包括那些在URL中有特殊意义的字符,以及非ASCII字符。这些字符需要被编码,以便URL可以正确地被解析和传输。


  • 以下是需要编码的字符集的详细列表
  1. 非ASCII字符:任何非ASCII字符都需要被编码,因为URL标准是基于ASCII字符集的。(由于非ascii字符的编码解码,相对复杂一些,请见我的专门讨论笔记:《非ASCII码的编码》,本篇笔记仅讨论ascii字符的编码解码。)
  2. 保留字符:即使某些字符在URL的特定部分是允许的,但如果它们用于其他目的,也需要被编码。这些字符包括:
    • ; (%3B)
    • / (%2F)
    • ? (%3F)
    • : (%3A)
    • @ (%40)
    • & (%26)
    • = (%3D)
    • + (%2B)
    • $ (%24)
    • , (%2C)
  3. 不安全字符:这些字符在URL中有特殊意义,或者在某些情况下可能导致URL解析错误。它们包括:
    • (空格) 被编码为 %20+
    • " (%22)
    • < (%3C)
    • > (%3E)
    • # (%23)
    • % (%25)
    • { (%7B)
    • } (%7D)
    • | (%7C)
    • \\ (%5C)
    • ^ (%5E)
    • ~ (%7E)
    • [ (%5B)
    • ] (%5D)
    • " (%22)
    • ' (%27)
    • ( (%28)
    • ) (%29)
  4. 控制字符:ASCII码中的控制字符(0-31和127)通常也被编码,因为它们可能在传输过程中被某些系统错误处理。


  在URL编码过程中,这些字符通常被替换为%后跟两位十六进制数,代表该字符的ASCII码。例如,空格字符(ASCII码为32)被编码为%20。在某些情况下,+也可以用来代替空格,但这通常只适用于表单提交中的URL编码,而不是在HTTP GET请求的URL中。



回页目录


2、ASCII字符集


  ASCII(美国信息交换标准代码)字符集总共包含128个字符。这些字符包括:


  • 95个可打印字符:大小写字母A-Z、a-z、数字0-9、标点符号和其它符号。

  • 33个非打印控制字符:用于控制打印机等硬件设备或提供数据流的控制。


  这些字符被用于早期的计算机系统中,现在虽然已被更广泛的字符集如Unicode所取代,但ASCII仍然是计算机历史上一个重要的里程碑。


  • ASCII码的95个可打印字符
    在这里插入图片描述


  ASCII字符集共计128,除去0到31和127为控制码,这33个字符必须编码。另有保留字符10个,不安全字符18个,另有a-zA-Z大小写字母52个和10数字0-9可以不用编码外,不用编码的其它字符仅有 5 5 5(128-33-28-62 = 5)而已。这5个字符,编不编码对浏览器解析url都没有影响。

  鉴于此,为简单起见,不去纠结它们到底是哪几个字符,都给一并编码。这样子,就是字母数字不编码,设计代码实现逻辑,就不难了。🤪



回页目录


3、主机域名限制


  URL中的主机域名字符串有一些特定的限制,这些限制是由互联网标准和协议决定的。


  • 以下是一些主要的限制
  1. 字符集限制:域名可以包含字母(A-Z,不区分大小写)、数字(0-9)和连字符(-)。域名不区分大小写,但在域名系统中注册时,每个标签(由点分隔的部分)会被转换为小写。
  2. 长度限制:域名的总长度不能超过253个字符,包括点分隔符。每个标签(域名的部分)的长度不能超过63个字符。
  3. 标签限制:域名不能以连字符开头或结尾。
  4. 特殊字符:除了字母、数字和连字符外,域名中不允许使用其他特殊字符,如空格、百分号、下划线等。
  5. 顶级域名:域名必须有一个顶级域名(TLD),如.com、.org、.net等,并且TLD必须在ICANN(互联网名称与数字地址分配机构)或相应国家代码顶级域(ccTLD)的官方列表中。
  6. 国际化域名:虽然传统的域名只允许ASCII字符,但国际化域名(IDN)允许使用非ASCII字符,如中文、阿拉伯文等。这些字符会被转换为ASCII兼容的编码形式(Punycode)。


  这些限制确保了域名在全球范围内的唯一性和可互操作性。遵守这些规则对于确保网站的正常访问和DNS(域名系统)的稳定运行至关重要。


  大多数url仅包括主机域名和路径,路径一般都是用英文字符,因此仅对csaii字符编码解码,已可以应付大部分url。



回页目录


4、url解码


  url解码,就是把编码url中紧跟%后的两个十六进制字符,还原成ascii码。由于本文探讨的仅是ascii码的单字节字符,代码实现逻辑超强简单。只需用while循环遍历url字符串,将有编码过的十六进制字符还原就好了。


4.1 解码函数


Python代码


url = "https://blink.csdn.net/m/details/1714315?csdn_share_tail=%7B%22type%22%3A%22blink%22,%22rType%22%3A%22blink%22,%22rId%22%3A%221714315%22,%22source%22%3A%22m0_57158496%22%7D"

def charDecode(chars: str, char: str, k: int) -> tuple:
    return (chr(int(chars[k+1:k+3],16)), k+3) if char == '%' else (char, k+1) # 如果有编码则解码返回,并更新检索url下标变量k


def urlDecode(url: str) -> str:
    urlList = []; k = 0; n = len(url)

    while k < n:
        char, k = charDecode(url, url[k], k) # 函数返回解码字符并更新url遍历检索下标。
        urlList += [char] # 追加收集已解码字符
    
    return ''.join(urlList) # 拼接解码后的url字符串返回


if __name__ == '__main__':
    strDecode = urlDecode(url)
    print(f"\n编码Url:\n{url}\n\n解码后;\n{strDecode}")


  • 代码运行效果截屏图片
    在这里插入图片描述
      如图所见,程序函数把有编码的字符都还原成了ascii码。



回页目录


4.2 代码解析


这段代码的目的是实现URL解码功能

  • 让我们逐步分析这段代码
  1. charDecode 函数
    这个函数接受三个参数:chars(要解码的字符串),char(当前字符),和k(当前字符在字符串中的索引)。如果当前字符是%,它假设接下来的两个字符是十六进制数,代表一个字符的ASCII码。函数将这些十六进制数转换为对应的字符,并返回这个字符以及更新后的索引k(增加3,因为跳过了%和两个十六进制数字符)。如果当前字符不是%,它就直接返回这个字符和下一个索引k+1
  2. urlDecode函数
    这个函数接受一个参数url(要解码的URL字符串)。它初始化一个空列表urlList来存储解码后的字符,以及一个变量k来跟踪当前字符的索引。函数遍历整个URL字符串,对每个字符调用charDecode函数进行解码,并将解码后的字符添加到urlList中。最后,它使用join方法将urlList中的所有字符拼接成一个字符串,并返回这个字符串。
  3. if __name__ == '__main__':
    这部分是Python代码的常见结构,用于检测该脚本是否作为主程序运行。如果是,它将执行下面的代码。
  4. strDecode = urlDecode(url)
    这行代码调用urlDecode函数,将提供的URL字符串解码,并将结果存储在变量strDecode中。
  5. print(f"\n编码Url:\n{url}\n\n解码后;\n{strDecode}")
    这行代码打印出原始的编码URL和解码后的URL。


总结

  这段代码提供了一个简单的URL解码实现,可以处理包含十六进制编码字符的URL。它首先定义了一个辅助函数来解码单个字符,然后使用这个函数来解码整个URL字符串。



回页目录


5、URL编码


  URL编码,就是把url中不适宜的字符用%后接两个十六进制字符的形式。由于本文探讨的仅是ascii码的单字节字符,代码实现逻辑相对简单。只需用while循环遍历url字符串,将有编码需求的字符转换就好。


5.1 编码函数


Python代码


## 编码 ##
def charEncode(chars: str, char: str, k: int) -> tuple:
    chars = set('abcdefghijklmnopqrstuvwxyzABCDRFGHIJKLMNOPQRSTUVWXYZ0123456789') # 不用url编码字符集
    return (char, k+1) if char in chars else (f"%{hex(ord(char))[2:].upper()}", k+1) 


def urlEncode(url: str) -> str:
    urlList = []; k = 0; n = len(url)

    while k < n:
        char, k = charEncode(url, url[k], k)
        urlList += [char]
    
    return ''.join(urlList)

  • 代码运行效果截屏图片
    在这里插入图片描述
    :/.?也一并编码了。😅😅这是一个 意 外 意外 。😋😋

修正代码

## 编码 ##
def charEncode(chars: str, char: str, k: int) -> tuple:
    chars = set('abcdefghijklmnopqrstuvwxyzABCDRFGHIJKLMNOPQRSTUVWXYZ0123456789') # 不用url编码字符集
    puncs = set('/.?,_=') # 编码放行标点字符
    #return (char, k+1) if char in chars.union(puncs) else (f"%{hex(ord(char))[2:].upper()}", k+1) 
    return (char, k+1) if char in chars | puncs else (f"%{hex(ord(char))[2:].upper()}", k+1) # set对象拼接,可用set.union()方法,也可以用 | 连接运算符


def urlEncode(url: str) -> str:
    urlList = [f"{url.split(':')[0]}:"] # 截取网络协议标识字符串
    k = len(urlList[0]) # 检索下标初值
    n = len(url) # 获取url长度

    while k < n:
        char, k = charEncode(url, url[k], k)
        urlList += [char]
    
    return ''.join(urlList)


if __name__ == '__main__':
    strDecode = urlDecode(url)
    reEncode = urlEncode(strDecode)
    print(f"\n编码Url:\n{url}\n\n解码后;\n{strDecode}\n\n重新编码:\n{reEncode}\n\n原始编码 = 重新编码:{url == reEncode}\n")

  • 代码运行效果截屏图片
    在这里插入图片描述
    经与原始编码url比对验证,编码函数重新编码的url与其完全一致。代码修正成功!



回页目录


5.2 代码解析


  正在编辑中……



回页目录


6、完整源码(Python)

(源码较长,点此跳过源码)

#!/sur/bin/nve python
# coding: utf-8


asciis = [chr(i) for i in range(32, 127)]
print(f"\n33个控制字符不可见,可打印的ASCII字符集:\n\n共计{len(asciis)}个(含空格)\n{', '.join(asciis)}\n")



url = "https://blink.csdn.net/m/details/1714315?csdn_share_tail=%7B%22type%22%3A%22blink%22,%22rType%22%3A%22blink%22,%22rId%22%3A%221714315%22,%22source%22%3A%22m0_57158496%22%7D"


## 解码 ##
def charDecode(chars: str, char: str, k: int) -> tuple:
    return (chr(int(chars[k+1:k+3],16)), k+3) if char == '%' else (char, k+1)


def urlDecode(url: str) -> str:
    urlList = []; k = 0; n = len(url)

    while k < n:
        char, k = charDecode(url, url[k], k)
        urlList += [char]
    
    return ''.join(urlList)
 


## 编码 ##
def charEncode(chars: str, char: str, k: int) -> tuple:
    chars = set('abcdefghijklmnopqrstuvwxyzABCDRFGHIJKLMNOPQRSTUVWXYZ0123456789') # 不用url编码字符集
    puncs = set('/.?,_=') # 编码放行标点字符
    #return (char, k+1) if char in chars.union(puncs) else (f"%{hex(ord(char))[2:].upper()}", k+1) 
    return (char, k+1) if char in chars | puncs else (f"%{hex(ord(char))[2:].upper()}", k+1) # set对象拼接,可用set.union()方法,也可以用 | 连接运算符


def urlEncode(url: str) -> str:
    urlList = [f"{url.split(':')[0]}:"] # 截取网络协议标识字符串
    k = len(urlList[0]) # 检索下标初值
    n = len(url) # 获取url长度

    while k < n:
        char, k = charEncode(url, url[k], k)
        urlList += [char]
    
    return ''.join(urlList)


if __name__ == '__main__':
    strDecode = urlDecode(url)
    reEncode = urlEncode(strDecode)
    print(f"\n编码Url:\n{url}\n\n解码后;\n{strDecode}\n\n重新编码:\n{reEncode}\n\n原始编码 = 重新编码:{url == reEncode}\n")



回页首


上一篇:  Python 中的“点阵字体”(“点阵字体”是个啥?,在python中怎么使?在现在全面高清的$5G$时代,它还有用“武”之地)
下一篇: 



我的HOT博:

  本次共计收集 311 篇博文笔记信息,总阅读量43.82w。数据于2024年03月22日 00:50:22完成采集,用时6分2.71秒。阅读量不小于6.00k的有 7 7 7篇。


推荐条件 阅读量突破6.00k
(更多热博,请点击蓝色文字跳转翻阅)

  • 截屏图片
    在这里插入图片描述
      (此文涉及ChatPT,曾被csdn多次下架,前几日又因新发笔记被误杀而落马。躺“未过审”还不如回收站,回收站还不如永久不见。😪值此年底清扫,果断移除。留此截图,以识“曾经”。2023-12-31)



回页首


老齐漫画头像

精品文章:

来源:老齐教室


Python 入门指南【Python 3.6.3】


好文力荐:


CSDN实用技巧博文:


相关推荐

  1. C 语言实例 - 字符ASCII

    2024-06-09 21:58:01       12 阅读
  2. phpUrl 安全base64编码解码

    2024-06-09 21:58:01       34 阅读
  3. Backend - Django URL 路由 & 重定向 & url编码解码

    2024-06-09 21:58:01       35 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-06-09 21:58:01       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-06-09 21:58:01       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-06-09 21:58:01       19 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-06-09 21:58:01       20 阅读

热门阅读

  1. 计算各聚类中心

    2024-06-09 21:58:01       8 阅读
  2. 程序代码问题随时记录

    2024-06-09 21:58:01       10 阅读
  3. 栈和队列的转换

    2024-06-09 21:58:01       11 阅读
  4. 全面解析LG webOS:从开发到智能电视的演进

    2024-06-09 21:58:01       14 阅读
  5. 【CS.SE】Tomcat启动闪退问题解决方法

    2024-06-09 21:58:01       7 阅读
  6. P9 品牌校验

    2024-06-09 21:58:01       9 阅读
  7. Websocket前端传参:深度解析与实战应用

    2024-06-09 21:58:01       10 阅读
  8. C语言:指针(函数回调)

    2024-06-09 21:58:01       9 阅读