安卓 qq 聊天记录数据库解密的一个误区

2023/03/07

安卓解密的具体方法我就不再赘述了，大体方法都是正确的，这里只讲我遇到的问题。

其实这个问题应该是在 Java 外的语言中才会出现，安卓 QQ 的加密方法是写在 so 层的，传入的是 Java 层的 String.toCharArray()，然后将每个 char 异或一次。这里就会涉及到编码的问题。

众所周知 UTF-8 是变长编码的，可能的字节数为 1-4。但是 Java 中toCharArray使用的编码并不是 UTF-8，而是 UTF-16BE。在 UTF-8 长度为四个字节的情况下（例如某些 emoji），UTF-16BE 会将其转换为两个 char，如果我们再按照一个 char 去解密，就会出现乱码。

此处给出正确的解密 python 代码：

1
import struct
2

3
def utf8_to_unicode_arr(utf8_bytes):
4
    string = utf8_bytes.decode('utf-8').encode('utf-16be')
5
    string = struct.unpack(f'>{len(string)//2}H', string)
6
    return list(string)
7

8

9
def convert_to_utf8(char_array):
10
    binary_data = struct.pack(
11
        f'>{len(char_array)}H', *char_array)
12
    utf8_bytes = binary_data.decode('utf-16be').encode('utf-8')
13
    return utf8_bytes.decode('utf-8')
14

15

16
def decrypt(data, key):
17
    if not data:
18
        return data
19
    msg = b''
20
    if type(data) == bytes:
21
        msg = b''
22
        for i in range(0, len(data)):
23
            msg += bytes([data[i] ^ ord(key[i % len(key)])])
24
        return msg
25
    elif type(data) == str:
26
        code_points = utf8_to_unicode_arr(data.encode("utf-8"))
27
        for i in range(0, len(code_points)):
28
            code_points[i] ^= ord(key[i % len(key)])
29
        return convert_to_utf8(code_points)
30
    else:
31
        return data
32

33
print(decrypt(b'xWVYQTDXOC\x10[^^OEC\xc2\x90~\x14\xf0\x93\x8c\x8b'.decode(), "02:00:00:00:00:00"))
34
# 输出：Helianthus annuus L.🌻

当然，在字节长度 1-3 的情况下，直接按照 UTF-8 解密也是可以的，但是在字节长度为 4 的情况下，就会出现乱码，需要特别注意。