第2章 文本.ppt

上传人:proposalcash356 文档编号:388464 上传时间:2018-10-12 格式:PPT 页数:73 大小:821.50KB
下载 相关 举报
第2章 文本.ppt_第1页
第1页 / 共73页
第2章 文本.ppt_第2页
第2页 / 共73页
第2章 文本.ppt_第3页
第3页 / 共73页
第2章 文本.ppt_第4页
第4页 / 共73页
第2章 文本.ppt_第5页
第5页 / 共73页
亲,该文档总共73页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 2章 文本* 1南京大学多媒体研究所内容内容一、编码一、编码二、文本输入二、文本输入三、文本处理三、文本处理四、文本显示四、文本显示Date 2南京大学多媒体研究所什么是文本 (text)?o 文本是计算机表示文字信息的一种媒体o 文本是一个字符流,它由一连串的字符组成o 文本处理过程:文本展现(阅读器)文本处理(文本处理软件)文本输入其他媒体电子文本文本编辑(编辑器) 格式化的电子文本Date 3南京大学多媒体研究所电子文本的两种形式o 扫描文本n 是纸介质文本经过扫描输入后得到的,实质上是一种特殊的位图图像 (bitmap)。o 合成文本n 也称为编码文本,它是基于特定字符集的、具有上

2、下文相关性的一个字符流,每个字符均使用编码表示。这是计算机中常用的文本形式Date 4南京大学多媒体研究所文本的分类o 按 是否格式化分:n 简单文本 (plain text) / 丰富格式文本 (rich text)o 按结构分:n 线性文本 / 超文本 (hypertext)Date 5南京大学多媒体研究所一、编码一、编码* 6南京大学多媒体研究所几个编码标准几个编码标准o ASCIIo ISO8859-1o GB2312o GB12345o GBKo CJKo BIG5o UCSo Unicodeo UTF-8o UTF-16o UTF-32o GB18030Date 7南京大学多媒体研

3、究所ASCIIo 计算机中使用得最广泛的西文编码字符集 :美国标准信息交换码 (American Standard Code for Information Interchange, 简称 ASCII码 ),后来被批准为 ISO-646-US标准o ASCII字符集中:n 96个可打印字符 32个控制字符n 采用 7位二进制进行编码Date 8南京大学多媒体研究所ASCII码码 / ISO-646-US标准标准012345670 1 2 3 4 5 6 7 8 9 A B C D E FGB 1988-80 (ISO 646-CN) ¥Date 9南京大学多媒体研究所ISO-646的 本地化I

4、SO-646-DK( 丹麦) ISO-646-DE( 德国) Date 10南京大学多媒体研究所ISO 646的不足o 7位 代码空间太小,o 不同国家和地区使用不同的标准,难以兼容,o 东亚地区使用的大字符集无法编码,Date 11南京大学多媒体研究所扩充扩充 ASCII字符集字符集C0 C1 GRGL单 8位 代码空间 1 Latin1 (West European) 2 Latin2 (East European) 3 Latin3 (South European) 4 Latin4 (North European) 5 Cyrillic 6 Arabic 7 Greek 8 Hebre

5、w 9 Latin5 (Turkish) 10 Latin6 (Nordic) 按国家 /地区分别编码。 ISO陆续制定了十多个适用于不同国家和地区(均为拉丁语系)的扩充 ASCII字符集(高位为 1的8位代码),称为 ISO8859. Date 12南京大学多媒体研究所ISO 8859 扩充 ASCII字符集 (举例 )ISO-8859-2(East European) ISO-8859-1(West European) Date 13南京大学多媒体研究所MS-Windows 的 code pageo 代码页实际上就是各个不同的字符集。微软公司在开发 DOS和Windows的各文种产品时,将

6、各文种的字符集加以整理,并对每个具体的代码页都赋以一个代号,称作 “代码页 ID”。 比如: CP1252代码页是 ISO 8859-1的扩充,是 ISO 8859-1的超集Date 14南京大学多媒体研究所汉字的编码汉字的编码o 汉字( Chinese character, Han character, Hanzi) 是记录汉语(国语,华语)的文字,属于表意文字,它用符号直接表达词或词素。中文文本的基本组成单位是汉字字符。o 汉字的特点n 数量大(我国汉字自 古至今累计已超过 7万字 ,国家语委颁布的 “现代汉语通用字表 ”包含 7000汉字)n 多个国家和地区使用:香港,台湾地区,以及日本

7、、韩国、朝鲜,新加坡,马来西亚等。n 字形复杂,同音字多,异体字多。Date 15南京大学多媒体研究所汉字正形汉字正形o 同一个宋体字有不同笔画或不同结构的,选择一个便于辨认,便于书写的形体;o 同一个字宋体和手写楷书笔画结构不同的,宋体尽可能接近手写楷书;不完全根据文字学的传统。Date 16南京大学多媒体研究所GB2312-1980o 1981年颁布, 信息交换用汉字编码字符集 基本集 。o GB2312字符集由三个部分构成n 字母、数字和各种符号,包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共 682个(统称为 GB2312图形符号);n 一级常用汉字,共 3755个,按

8、汉语拼音排列;n 二级常用字,共 3008个,因不太常用,所以按偏旁部首排列。Date 17南京大学多媒体研究所GB2312-80的字符集及字符布局每一个汉字或符号有一个确定的位置,该位置的区号和位号就是这个汉字的 “区位码 ”。大20(14h)83(53h)区位码是 2083,即 0010100, 101001116进制表示为 14 53hDate 18南京大学多媒体研究所GB2312-80汉字交换码首字节 尾字节 0x7E 0xA1 0xFE 0x81 0xFE 0xA1 GB2312汉字 (6763个汉字 ) 图形符号0x30 0x77 大34h73h0x200x20GB2312-80字

9、符集在ISO 2022双 8位代码空间中的位置例如 , “大 ”字的国标交换码是 : 0110100 1110011即 16进制的:34 73hDate 19南京大学多媒体研究所GB2312-80汉字内码0x30 0x77 汉字交换码汉字机内码汉字机内码大B4hF3h“大 ”字的机内码为10110100,11110011( B4F3)为了在机内区别于西文编码,GB2312 汉字字符集在双 8位代码空间中映射到右下角位置,即在国标码的基础上,每个字节的最高位置 1Date 20南京大学多媒体研究所GB12345-1990o GB2312-80是面向简体汉字的编码。o 为了使用繁体汉字,特制订了繁

10、体汉字字符集的国家标准 ( 信息交换用汉字编码字符集 -辅助集 GB12345-1990) 。o 兼容 GB2312, 含 717 个图形符号 , 6866 个汉字n 简体、繁体相同的汉字,编码保持不变,n 对应 1个繁体字的,替换为对应的繁体字 ,如繁体字 “燈 ”,只对应一个简体字 “灯 ”。n 对应多个繁体字的,替换为最常用的那个繁体字,其它对应繁体字放在扩充区 。如 简体字 “发 ”,对应 “發 ”、 “髮 ”2个 繁体字。在 “发展 ”一义时,用 “發展 ”,在 “头发 ”一义时用 “頭髮 ”。再如 “复 ”字,在 “复杂 ”一义时用 “複雜 ”,在 “反复 ”一义时用 “反復”。这

11、样的简体字有 300多个。Date 21南京大学多媒体研究所GB2312和 GB12345的不足o GB2312汉字字数太少,无法满足一些特殊应用的需要:n 人名、地名;n 古籍整理、古典文献研究。o 简体和繁体分属于 2个字符集 ,在简、繁体汉字同时使用时,很不方便。Date 22南京大学多媒体研究所 汉字内码扩展规范汉字内码扩展规范 GBKo GBK全称 汉字内码扩展规范 ( 1995年)n 向下与 GB 2312 编码兼容n 向上准备向 ISO 10646.1 国际标准过渡,是一个承上启下的标准。o GBK 规范收录了 ISO 10646.1 中的全部 CJK 汉字和符号,并有所补充n

12、GB 2312中的全部汉字 (GBK/2)n 其他 CJK汉字和增补的汉字 (GBK/3和 GBK/4),共21003个汉字n 另外还有 883个图形符号( GBK/1, GBK/5)Date 23南京大学多媒体研究所CJK(中日韩 )统一汉字字符集o 所谓 CJK统一汉字编码 , 是指不论国家和地区,不论汉字的字义有无区别,只要字形相同,该汉字就只有一个代码。o CJK字符集以现有各国和地区的标准字符集作为源字符集,将其中的汉字按统一的认同规则进行认同甄别后,生成涵盖各源字集并按东亚著名的四大字典(康熙字典、大汉和字典、汉语大字典及大字源)的页码字位综合排序 (按部首 笔画数目)排序,构成共

13、 27,484个汉字组成的大字符集 。o 经过中、日、韩、越、新的力争,国际标准化组织在 Unicode编码体系中给汉字划出了 9万多个码位,各国将对 CJK汉字字符集作进一步的扩充。Date 24南京大学多媒体研究所GBK汉字编码的特点o 汉字数目多,共 21003个;o 简体和繁体汉字在同一个字符集中;o 包含了中、日、韩认同的全部 CJK汉字;o 双字节编码,第 1字节的最高位必为 “1”,第 2字节的最高位不一定是 “1”;o 与 GB2312-80保持向下兼容;o 与 ISO10646中的汉字字汇兼容,代码不兼容Date 25南京大学多媒体研究所GBK的代码空间以及字符分布图形符号C

14、JK汉字增补汉字总计 23940 个码位,共收入 21003 个汉字和 883图形符号,未使用的区域作为用户自定义区Date 26南京大学多媒体研究所BIG5汉字编码o BIG 5汉字编码是我国台湾地区计算机系统中使用的汉字编码字符集。o 包含 420 个图形符号和 13070 个汉字(不使用简化汉字)。o 编码范围是 0x8140-0xFE7E、 0x81A1-0xFEFE,n 0xA440-0xF97E、 0xA4A1-0xF9FE 是汉字区。Date 27南京大学多媒体研究所BIG5汉字编码空间汉字编码空间Date 28南京大学多媒体研究所GB2312GBK BIG5GB2312,GBK,BIG5代码空间的比较Date 29南京大学多媒体研究所通用编码字符集通用编码字符集 UCSo 需求:n 各个国家和民族都有自己的语言和文字,现代人类使用的语言有 6800种。n 希望所有这些语言文字都能方便地进行计算机通信,特别是允许能同时使用任意多种语言文字o 例如 : n 中文简体:南京大学计算机系n 中文繁体: 南京大学計算機系n 日文: 今日天気n 俄文: n 俄文 : Date 30南京大学多媒体研究所

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 教学课件 > 大学教育

copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1