首页
论坛
课程
招聘
雪    币: 138
活跃值: 活跃值 (10)
能力值: ( LV9,RANK:370 )
在线值:
发帖
回帖
粉丝

[原创]打造自己的反汇编引擎——Intel指令编码学习报告(一)

2008-10-22 00:22 74431

[原创]打造自己的反汇编引擎——Intel指令编码学习报告(一)

2008-10-22 00:22
74431
写在前面:
   
    学习Intel指令格式已经有近一个月了,本来想把整个反汇编引擎写完整之后再发布源代码和学习报告的,但是,最初的热情过后,剩下的就是辛苦劳动了,现在实在太累了,似乎有点写不下去的感觉了,所以我还是打算,边总结学习的过程,边完成整个反汇编引擎:一方面,希望论坛里对指令解码知识感兴趣的朋友,高手给些鼓励;另一方面,希望能和这些朋友们讨论程序中的bug,讨论整个反汇编引擎的架构(这个我会在后面的学习报告中详细说明我所了解的一些架构)。学习新的知识是一件很令人高兴和满足的事情,但是能和别人分享学习的经验,更令人快乐。
    学习指令编码格式的好处有很多,我在这里提一些吧:
    一、加深对指令的了解。并不是用汇编语言写出的程序速度就一定比其他高级语言快,或者说节省空间,现在大部分的编译器做得比一般的汇编语言初学者,甚至是有一定编程经验的人都好,对一些汇编指令有所了解后,可能利用这些指令写出符合特定条件的好的代码,不管是用在shellcode还是用在关键代码的性能优化方面都有好处。例如:Svin的教程中就有一个题目:
    用四个byte实现下列的算法:(opcode hack)
   IF ZF=1
   inc eax
   ELSE
   mov al,40
   再有,现在的高级语言因为执行效率的原因,一般都舍弃用leave和enter指令,然而这些指令有着空间的优势……等等,此外,学习了指令编码之后会对intel的寻址模式有一个更为深刻的了解。
    二、学习了指令编码可以软件保护中的很多技巧如花指令等有更深刻的了解。
    三、如果这些小的技巧实在是不值一提,那么如果想些一个虚拟机架构的话,就必须对这些指令有所了解。
    ……
    由于我是一个菜鸟,所以有很多说不清楚的地方,还希望高手指正,毕竟,讨论才是学习永恒的主题。本来打算,把这些学习报告发在新手区的,但是看到这个版块有一个专题,就发到这个地方了。很多高手可能想自己学习研究,我会提前把我找到的所有的资料都列在附件中。

实验反汇编引擎介绍:(原代码下载 dasm.rar
    引擎采用了最直观,当然也是最笨拙的方法,switch...case,代码虽然不够简练,但是执行效率和整体结构还是很清楚的,代码的解析和识别只剩下力气活了。
    反汇编引擎目前的进度:
    基本框架已经实现,能解析的指令大约200多条,2-byte的指令还不能解析,浮点指令和mmx指令的解析都还待完成。
   (2008.10.22更新:已经能正确解析所有常用指令(除特权指令,浮点指令,mmx指令之外的指令))
(2008.10.24更新:改正了解析C4,C5指令的一个小bug)
    测试程序:(CrackMe.exe为测试用的pe文件)
    我用了不久前学习pe文件格式的时候写的pe文件解析代码,提取了.text中的数据作测试用,pe文件的解析部分代码很丑,大家感兴趣的话,可以只看反汇编部分的代码,代码没有加注释,我想我会在后续的学习报告中详细解释每一个部分的代码。
     程序的运行方式:dasmMain.exe 待解析的pe文件 >out.txt 最好重定向到文件中看,输出的结构有点多。
     由于有些指令不能识别,导致实际的反汇编代码跟正确的比有些混乱,但是大部分代码还是正确的,我测试的输出结果如图:
     
     跟olly的结果比较一下:
     
     对得不是太齐,但是如果以后做成GUI的形式,因该没有什么问题了。实际的效果大家可以用不同的pe文件测试,当然,程序只是读文件的.text区,没有任何分析,实际效果,大家还是要对照地址来检查。

学习资料:
1、首推Svin的教程,英文原版: tutorial of opcode by svin.rar都是一些保存好的网页,大家可以权当链接使用。当然,论坛上也有翻译后的版本,大家可以找一找,不过还是推荐到原论坛看原帖。
2、The art of disassembly,英文原版: Art Of Disassembly.part1.rar Art Of Disassembly.part2.rar Art Of Disassembly.part3.rar,当然论坛里也有中文版的。
3、罗聪的《学习Opcode教程》: learningopcode.rar
4、指令列表: code table.rar,网上不同的版本很多,但是这个是我见到的做的最好的一份,实际的解码过程也是参照这个表做的,当然同时参考的少不了:
5、Intel® 64 and IA-32 Architectures Software Developer's Manual 2A Instruction Set Reference A-M.pdf
6、Intel® 64 and IA-32 Architectures Software Developer's Manual 2B Instruction Set Reference N-Z.pdf,上面两个就不传上来了,intel的网站上就有。

上面列出来的是能找到的所有关于intel指令编码的资料了,很多教程都不完整,或者没有实现一个真实的反汇编引擎,我想这也是为什么,我想把学习和实现反汇编引擎的经验写出来的原因之一,希望我能写出一个完整的学习过程来。

HWS计划·2020安全精英夏令营来了!我们在华为松山湖欧洲小镇等你

上传的附件:
最新回复 (66)
雪    币: 138
活跃值: 活跃值 (10)
能力值: ( LV9,RANK:370 )
在线值:
发帖
回帖
粉丝
egogg 活跃值 9 2008-10-22 00:32
2
0
明天开始写第一部分
雪    币: 200
活跃值: 活跃值 (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
太难了 活跃值 2008-10-22 01:06
3
0
看看,不错,顶
雪    币: 324
活跃值: 活跃值 (15)
能力值: ( LV4,RANK:50 )
在线值:
发帖
回帖
粉丝
likunkun 活跃值 1 2008-10-22 01:33
4
0
[QUOTE=;]...[/QUOTE]
不错,顶一下
雪    币: 7084
活跃值: 活跃值 (21)
能力值: ( LV9,RANK:610 )
在线值:
发帖
回帖
粉丝
achillis 活跃值 15 2008-10-22 08:08
5
0
[QUOTE=;]...[/QUOTE]
支持楼主!不容易啊
雪    币: 205
活跃值: 活跃值 (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
neverqq 活跃值 2008-10-22 08:37
6
0
支持LZ,争取弄个完整的引擎出来
雪    币: 2014
活跃值: 活跃值 (10)
能力值: ( LV13,RANK:250 )
在线值:
发帖
回帖
粉丝
vxasm 活跃值 6 2008-10-22 09:54
7
0
好文,感谢LZ,给的资料都很有参考价值。
雪    币: 461
活跃值: 活跃值 (65)
能力值: ( LV12,RANK:1010 )
在线值:
发帖
回帖
粉丝
sudami 活跃值 25 2008-10-22 10:18
8
0
嗯,好文.
最近对引擎也很感兴趣.楼主写的不错~~
雪    币: 1519
活跃值: 活跃值 (52)
能力值: ( LV13,RANK:370 )
在线值:
发帖
回帖
粉丝
luocong 活跃值 9 2008-10-22 11:19
9
0
一、
你的代码1605行:
sprintf(DisplacementStr, " + %X", Register32[Base], *((int *)currentCode));
应该改成:
sprintf(DisplacementStr, "%s + %X", Register32[Base], *((int *)currentCode));

二、
ParseSIB()似乎没有考虑:
Base == 5 && Mod == 00 && Index == 4
的情况,Index == 4时,应该只有Displacement,寄存器那里应该是空的。

例如:1B 04 25 00 00 00 00
正确的反汇编应该是:SBB EAX, [00000000]
而不是(你的):SBB EAX, [EBP + 00000000]

三、
改了第一个bug后,1B 04 2D 00 00 00 00
反汇编结果是:sbb eax, dword ptr [ebpebp + 0]
这里错了。
雪    币: 104
活跃值: 活跃值 (10)
能力值: ( LV4,RANK:50 )
在线值:
发帖
回帖
粉丝
Aleaxander 活跃值 1 2008-10-22 13:36
10
0
好文,先顶再看!
雪    币: 504
活跃值: 活跃值 (18)
能力值: (RANK:570 )
在线值:
发帖
回帖
粉丝
笨笨雄 活跃值 14 2008-10-22 14:00
11
0
我讨厌SWITCH  CASE语句
为什么不直接查函数表,或者造成统一的数据结构

用这种语句来实现,你添加得不方便,别人看也不方便。另外2BYTE和3BYTE的OPCODE是不连续的,这样编译就会生成更多的分支,当你解释一些大量使用浮点运算或者MMX的程序时,分支预测错误的概率就增加了
雪    币: 138
活跃值: 活跃值 (10)
能力值: ( LV9,RANK:370 )
在线值:
发帖
回帖
粉丝
egogg 活跃值 9 2008-10-22 14:21
12
0
[QUOTE=luocong;524461]一、
你的代码1605行:
sprintf(DisplacementStr, " + %X", Register32[Base], *((int *)currentCode));
应该改成:
sprintf(DisplacementStr, "%s + %X"...[/QUOTE]

多谢罗聪,没想到能招来大牛帮忙找bug。你的教程让我在入门的路上少走了很多弯路,真的希望能看到你完成那份教程。
您指出的问题我都改了,不知道能不能检查一下修改后的代码。
一、这个部分其实应该这样该:
sprintf(DispalcementStr, "%X", *((int *)currentCode)); 把一个指令的各个部分分解,分别解析各个部分,然后再合成是我在编程过程中想出来的一个小技巧,那时候解析SIB的代码已经写好了,所以大致改写了一下没有认真检查。
二、这个特殊的组合我在学习的时候是注意到了的,只是代码没有写好,改正后的代码应该已经在合成的过程中把这个部分加进去了。
sprintf(SIBStr, "%s%s%s%s%s", BaseStr,
		(strlen(BaseStr) > 0 && strlen(ScaledIndexStr) > 0) ? " + " : "",
		ScaledIndexStr,
		(strlen(BaseStr) > 0 && strlen(ScaledIndexStr) > 0 &&   strlen(DisplacementStr) > 0) ? " + " : "",
		DisplacementStr);

这里如果BaseStr为空(Base == 5 Mod == 0)而且ScaledIndexStr为空(Index == 4)那么就只有displacement 了,相当判断了这种特殊的组合。
三、我把ScaledIndexStr的代码重新写了一下:
Index == 4 ? sprintf(ScaledIndexStr, "") : 
		(Scale ? sprintf(ScaledIndexStr, "%s * %d", Register32[Index], 1 << Scale) : 
		sprintf(ScaledIndexStr, "%s", Register32[Index]));

以前那种写法似乎没有把空串提取出来。

(改正后的代码放到原帖原来的地方了)。

总之,谢谢指正。
雪    币: 138
活跃值: 活跃值 (10)
能力值: ( LV9,RANK:370 )
在线值:
发帖
回帖
粉丝
egogg 活跃值 9 2008-10-22 14:37
13
0
多谢提意见,这个就是我想和大家讨论的关于反汇编体系结构的架构问题,当初学习完prefix, opcode, ModR/M ,SIB 等之后,要写反汇编引擎的时候如何解析各条指令,怎么知道这条指令有多少操作数,操作数是寄存器还是内存地址,立即数大小如何获得等等便成了一个最大的问题(这个在任何教程中都没有提到),我查看了我能找到的反汇编引擎(主要ollydbg自带的,还有Pvdasm),最后还是选择了一个比较直观的方法。因为表格设计建立和设计所需要费的功夫太大,而且要求也高,解析过程能中不能够达到我边解析指令,边重新了解学习指令的目的。

当然我认为一个好的反汇编引擎是应该用查表的方式的,但不是ollydbg自带的那种表,那种表查询时需要时间的。一个好的反编译表应该是这样的:
1、指令编码可以作为表格的索引,直接能找到表项。
2、表的内容尽量简练,ollydbg的反汇编引擎的表项有很多冗余,用Svin的话来说,反汇编不是查出来的,是解析出来的。
3、涵义够简练,直接,能很方便扩充,和修改。
4、最好能在汇编过程中使用。

我真的希望能有一个比较好的汇编表方案,但是这实在需要一些技巧,希望大家讨论。

最后给上一篇关于ollydbg自带的反汇编引擎的指令表的分析文章,不知道是不是论坛里某位大牛写的:(题目为:x86机器码识别及其反汇编算法)
http://linxer.bokee.com/4277473.html
雪    币: 138
活跃值: 活跃值 (10)
能力值: ( LV9,RANK:370 )
在线值:
发帖
回帖
粉丝
egogg 活跃值 9 2008-10-22 22:06
14
0
2008.10.22更新:已经能正确解析所有常用指令(除特权指令,浮点指令,mmx指令之外的指令)
雪    币: 2058
能力值: (RANK:260 )
在线值:
发帖
回帖
粉丝
书呆彭 活跃值 6 2008-10-22 22:14
15
0
开源项目NASM带有一个交互式的反汇编引擎。

借用开发者在文档中的一句话,“手中有一份INTEL的指令码表而不能将它派上更多的用场,总觉得有些过意不去,所以除了汇编器外,我们提供了这个反汇编器”

有兴趣可以参考一下他们的源代码。
呵呵。
雪    币: 5002
活跃值: 活跃值 (15)
能力值: (RANK:1170 )
在线值:
发帖
回帖
粉丝
tankaiha 活跃值 29 2008-10-22 22:33
16
0
罗老对这个比较有心得
雪    币: 138
活跃值: 活跃值 (10)
能力值: ( LV9,RANK:370 )
在线值:
发帖
回帖
粉丝
egogg 活跃值 9 2008-10-23 10:17
17
0
看过了,那张表设计得相当不错,很直观。什么时候决定了写一个比较优美的反编译器的话,设计一张表那是必须的。
不过,只是为了学习一下intel汇编指令格式,顺便学习一下各种指令的用法。从没有想过去写一个和现有的一些有着大量应用的成熟的反汇编引擎可以比拟的东西出来。学习用的工具而已,就像当初学pe格式一样,写些代码,学习的效果格外不一样,比光看强多了。

看来感兴趣的人不是太多,但是还是要写下去。我想最后应该有一篇总结现有汇编/反汇编开源框架的文章才对。
雪    币: 235
活跃值: 活跃值 (10)
能力值: ( LV12,RANK:460 )
在线值:
发帖
回帖
粉丝
火影 活跃值 11 2008-10-23 13:30
18
0
最近学习反汇编的人好像很多
雪    币: 2058
能力值: (RANK:260 )
在线值:
发帖
回帖
粉丝
书呆彭 活跃值 6 2008-10-23 18:47
19
0
我又想起以前看过的一本书,书名叫《硬件编程接口与系统软件实现》,朱春森著,北京大学出版社。

此书的附录B有一个我见过最实用的指令码表,我没看过OD的反汇编引擎,不知道它的解码是怎么做的,但我想绝对不会超过此书中这张表格的。

可惜这本书没有电子档。抑或有但我没找到。
雪    币: 509
活跃值: 活跃值 (10)
能力值: ( LV12,RANK:220 )
在线值:
发帖
回帖
粉丝
xiep 活跃值 5 2008-10-23 22:04
20
0
SUPPORT
雪    币: 229
活跃值: 活跃值 (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
binglan212 活跃值 2008-10-23 22:18
21
0
严重支持楼主,学习一下

辛苦活,多多努力
雪    币: 29
活跃值: 活跃值 (10)
能力值: ( LV6,RANK:90 )
在线值:
发帖
回帖
粉丝
sungy 活跃值 1 2008-10-23 23:21
22
0
学习越来越深入了,高手论剑我的学招
雪    币: 117
活跃值: 活跃值 (10)
能力值: ( LV7,RANK:100 )
在线值:
发帖
回帖
粉丝
haoxf 活跃值 2 2008-10-24 21:40
23
0
不错,顶一下。
我现在也在学习这部分的内容呢。
雪    币: 200
活跃值: 活跃值 (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
samuelchoi 活跃值 2008-11-5 17:17
24
0
看看,不错,顶
雪    币: 200
活跃值: 活跃值 (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
samuelchoi 活跃值 2008-11-5 17:17
25
0
看看,不错,顶
雪    币: 127
活跃值: 活跃值 (10)
能力值: ( LV3,RANK:20 )
在线值:
发帖
回帖
粉丝
greatbob 活跃值 2008-11-30 08:58
26
0
好人啊。学习学习!!!!!!!!!!!!!!!!
雪    币: 50
活跃值: 活跃值 (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
北燕南飞 活跃值 2009-4-25 15:15
27
0
看不懂啊
楼主给讲一下各个代码都有什么用
雪    币: 159
活跃值: 活跃值 (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
eddie 活跃值 2009-5-24 13:26
28
0
虽然是新手 但是顶这句话“学习新的知识是一件很令人高兴和满足的事情,但是能和别人分享学习的经验,更令人快乐。”
雪    币: 202
活跃值: 活跃值 (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
wefgod 活跃值 2009-5-27 00:14
29
0
嗯很厉害····我就没这个水平了现在
雪    币: 202
活跃值: 活跃值 (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
释永信 活跃值 2009-5-29 09:21
30
0
嘿嘿,好。顶了
雪    币: 3
活跃值: 活跃值 (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
babytom 活跃值 2009-6-3 12:00
31
0
好啊,严重支持
雪    币: 1224
能力值: (RANK:680 )
在线值:
发帖
回帖
粉丝
jackozoo 活跃值 14 2009-6-3 18:42
32
0
非常好, 谢谢楼主~~
雪    币: 139
活跃值: 活跃值 (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
gamegm 活跃值 2009-6-18 22:11
33
0
强大啊   赞个
雪    币: 202
活跃值: 活跃值 (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
lyanbing 活跃值 2009-8-8 06:55
34
0
fmt=0;
                                for( ; lastInstruction <currentInstruction; lastInstruction++)
                                {
                     fmt++;
                                        printf("%X%X ", (*lastInstruction >> 4) & 0xF, (*lastInstruction) & 0xF);
                                }
                 for (ifmt=0;ifmt < 24-fmt*3;ifmt++)
                     printf(" ");

这样输出 就对齐了
雪    币: 351
活跃值: 活跃值 (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
x敏m 活跃值 2009-12-16 16:53
35
0
mark...
雪    币: 249
活跃值: 活跃值 (10)
能力值: ( LV4,RANK:50 )
在线值:
发帖
回帖
粉丝
phf峰 活跃值 1 2010-1-11 14:33
36
0
LZ真是强,好东西
雪    币: 5
活跃值: 活跃值 (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
mistkx 活跃值 2010-1-16 19:12
37
0
高手啊,自己写的工具可靠些
雪    币: 200
活跃值: 活跃值 (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
lbaiwhp 活跃值 2010-3-14 09:09
38
0
学习学习在学习,
雪    币: 21
活跃值: 活跃值 (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
kreaty 活跃值 2010-4-23 10:43
39
0
留下个脚印,正在32汇编中,希望能快点达到这里。
雪    币: 38
活跃值: 活跃值 (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
天山云海 活跃值 2010-5-5 10:14
40
0
多谢楼主的辛勤劳动,我正在黑暗中摸索,现在终于有了一点方向!
雪    币: 205
活跃值: 活跃值 (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
fdsajhg 活跃值 2010-5-27 14:00
41
0
  特为观牛,路过此地
雪    币: 270
活跃值: 活跃值 (18)
能力值: ( LV9,RANK:610 )
在线值:
发帖
回帖
粉丝
blueapplez 活跃值 14 2010-5-29 13:52
42
0
悄悄的告诉楼主。。。
00401001      9E            sahf
雪    币: 147
活跃值: 活跃值 (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
dmlover 活跃值 2010-7-5 17:47
43
0
太深奥了,菜鸟看不懂,谢谢
雪    币: 2
活跃值: 活跃值 (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
heartuser 活跃值 2010-7-15 09:59
44
0
看了很久了,源程序有很多不懂的地方
雪    币: 5
活跃值: 活跃值 (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
qyffree 活跃值 2010-12-15 12:06
45
0
没钱怎么下阿
雪    币: 190
活跃值: 活跃值 (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
cscncllf 活跃值 2010-12-15 12:19
46
0
看看,不错,顶
雪    币: 234
活跃值: 活跃值 (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
nwgao 活跃值 2011-2-16 09:15
47
0
mark,方便以后查找
雪    币: 711
活跃值: 活跃值 (45)
能力值: ( LV9,RANK:200 )
在线值:
发帖
回帖
粉丝
房有亮 活跃值 3 2011-4-27 02:09
48
0
转到VC上有很多错误,不知道是否我弄的不对, 比方说 jmp eax  打印出来的是 jmp ax,push ebx为 push bx
雪    币: 147
活跃值: 活跃值 (14)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
xingjunjie 活跃值 2011-6-10 10:59
49
0
强帖,mark
雪    币: 218
活跃值: 活跃值 (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
dclnet 活跃值 2011-10-21 17:51
50
0
顶楼主。。。。。。。。
游客
登录 | 注册 方可回帖
返回