中国高校课件下载中心 》 教学资源 》 大学文库

鲁东大学(山东烟台师范学院):现代汉语新词语信息电子词典的研究与实现(中文系:亢世勇)

文档信息
资源类别:文库
文档格式:PDF
文档页数:6
文件大小:294.55KB
团购合买:点击进入团购
内容简介
鲁东大学(山东烟台师范学院):现代汉语新词语信息电子词典的研究与实现(中文系:亢世勇)
刷新页面文档预览

《现代汉语新词语信息电子词典》的研究与实现 亢世勇 山东烟台师范学院中文系(264025)Tel:0535-667243 Shandong of China: Yantai Normal College-Chinese Language Dept (264025) Emailkangsy46@sohu.com 内容提要:本文从四个方面说明了《现代汉语新词语信息电子词典》的基本情况。(1)现代汉语新词语的界 定(2)新词语词典的开发思想(3)新词语的采集与新词语词典所描述的属性信息(4)近四万新词语的归类 实践 关键词:中文信息处理新词语电子词典 Development and study of "Modern Chinese new words Information Electronic dictionary Abstract: this paper introduced five aspects of " Modern Chinese New Words Information Electronic Dictionary".(1)basic condition of new word, (2 )developing thought of"New Words Dictionary", (3)collecting of new word and establishing and describing of"New Words Dictionary"attribute information, (4 )classify of thirty thousand new word, (5)value of"New Words Dictionary Key Words: Chinese information processing, New words, Electronic dictionary 0.引言 2001年我们获得了中国国家社科规划项目“《现代汉语新词语信息电子词典》的开发与应用”(项目编号: 0lCYY002)。一年来,我们已按照规划做了大量的工作,项目进展顺利。本文从四个方面介绍《现代汉语新 词语信息电子词典》(以下简称“新词语词典”)的基本情况:(1)现代汉语新词语的界定(2)新词语词典的 开发思想(3)新词语的采集与新词语词典所描述的属性信息(4)近四万词语的归类实践 1.现代汉语新词语的界定 对于“新词语”目前学术界有不同的看法,在全面考察了近4万个新词语并且借鉴、吸收了学术界新词 语研究成果的基础上,我们认为新词语可以定义为:通过各种途径产生的、具有基本词汇没有的新形式、新 意义或新用法的语文词语。新词语的特点在于“新”,“新”具体表现在词形、词义和词语的用法上。鉴定新 词语的参照系是现代汉语基本词汇的词形、词义和用法。只要在这三个方面的任何一点上与现代汉语基本词 汇不同,我们就认为它是新词语。基本词汇的代表是《现代汉语词典》的主体词汇①、《汉语大词典》。“新 还有时间的限定,即1978年以来出现的新词语。我们认定的新词语既有“新”的特点,同时强调了新词语的 使用范围,即必须是在社会生活中广泛使用的语文性质的新词语,可以进入普通词汇的新词语,那些新出现 的专业术语没有增加新的普通词汇意义的,不在我们认定的新词语范围内。我们认定的新词语具体如下: (1)新造词语。比如“打假、扶贫、股盲、展销、股市、高开、低走、哇噻、彩票、足彩、辣妹、酷装、新 新人类、哈韩族、哈日族、知本家、黑哨”等等。 (2)旧词新用。这类词语词形是原有的,“新”主要表现在产生了新意义或有了新的运用。具体分为 种情况:A、原有的词语增加了新的意义,如“下课、上课、气候、跳槽、起飞、红娘、窗口、下岗、亮相、 新登场、跟进、充电、输血、造血”等;B、原有的词语有了新的用法。比如“结构”本来是名词,但用为 动词,如:你为我结构人生;“运气”原为名词,用为形容词,如:你这人很运气。“火”原为名词,用为形 容词,形容事物或人有声势,受欢迎。如:组织者们真没想到晚会竟然这么“火”。C、原有的词语很长一段 本项研究得到中国国家这哲学社会科学规划项目(01CY002)支持 本文于2002年4月在台北举行的“第三届中文词汇语义学会议”上宣读,会后根据专家的意见作了修改,谨致谢忱

《现代汉语新词语信息电子词典》的研究与实现1 亢世勇 山东烟台师范学院中文系(264025) Tel:0535-6672439 Shandong of China: Yantai Normal College - Chinese Language Dept. (264025) Email:kangsy46@sohu.com 内容提要:本文从四个方面说明了《现代汉语新词语信息电子词典》的基本情况。(1)现代汉语新词语的界 定(2)新词语词典的开发思想(3)新词语的采集与新词语词典所描述的属性信息(4)近四万新词语的归类 实践。 关键词:中文信息处理 新词语 电子词典 Development and Study of "Modern Chinese New Words Information Electronic Dictionary" Abstract: this paper introduced five aspects of "Modern Chinese New Words Information Electronic Dictionary".(1)basic condition of new word,(2)developing thought of "New Words Dictionary",(3)collecting of new word and establishing and describing of "New Words Dictionary" attribute information,(4)classify of thirty thousand new word,(5)value of "New Words Dictionary". Key Words:Chinese information processing, New words, Electronic dictionary 0.引言 2001 年我们获得了中国国家社科规划项目“《现代汉语新词语信息电子词典》的开发与应用”(项目编号: 01CYY002)。一年来,我们已按照规划做了大量的工作,项目进展顺利。本文从四个方面介绍《现代汉语新 词语信息电子词典》(以下简称“新词语词典”)的基本情况:(1)现代汉语新词语的界定(2)新词语词典的 开发思想(3)新词语的采集与新词语词典所描述的属性信息(4)近四万词语的归类实践 1.现代汉语新词语的界定 对于“新词语”目前学术界有不同的看法,在全面考察了近 4 万个新词语并且借鉴、吸收了学术界新词 语研究成果的基础上,我们认为新词语可以定义为:通过各种途径产生的、具有基本词汇没有的新形式、新 意义或新用法的语文词语。新词语的特点在于“新”,“新”具体表现在词形、词义和词语的用法上。鉴定新 词语的参照系是现代汉语基本词汇的词形、词义和用法。只要在这三个方面的任何一点上与现代汉语基本词 汇不同,我们就认为它是新词语。基本词汇的代表是《现代汉语词典》的主体词汇① 、《汉语大词典》。“新” 还有时间的限定,即 1978 年以来出现的新词语。我们认定的新词语既有“新”的特点,同时强调了新词语的 使用范围,即必须是在社会生活中广泛使用的语文性质的新词语,可以进入普通词汇的新词语,那些新出现 的专业术语没有增加新的普通词汇意义的,不在我们认定的新词语范围内。我们认定的新词语具体如下: (1)新造词语。比如“打假、扶贫、股盲、展销、股市、高开、低走、哇噻、彩票、足彩、辣妹、酷装、新 新人类、哈韩族、哈日族、知本家、黑哨”等等。 (2)旧词新用。这类词语词形是原有的,“新”主要表现在产生了新意义或有了新的运用。具体分为三 种情况:A、原有的词语增加了新的意义,如“下课、上课、气候、跳槽、起飞、红娘、窗口、下岗、亮相、 新登场、跟进、充电、输血、造血”等;B、原有的词语有了新的用法。比如“结构”本来是名词,但用为 动词,如:你为我结构人生;“运气”原为名词,用为形容词,如:你这人很运气。“火”原为名词,用为形 容词,形容事物或人有声势,受欢迎。如:组织者们真没想到晚会竟然这么“火”。C、原有的词语很长一段 1 本项研究得到中国国家这哲学社会科学规划项目(01CYY002)支持; 本文于 2002 年 4 月在台北举行的“第三届中文词汇语义学会议”上宣读,会后根据专家的意见作了修改,谨致谢忱

时间不用,又重新启用,比如:“高就、赏光、黑道、绑票、撕票、夜总会、小姐、太太、金婚、银婚”等 其中有些意义也发生了一些变化,比如“高就、赏光、太太、小姐”等原来主要用于地位比较高的人,有特 指性,现在已经泛化,不论地位高低都可以用,变成了一种普通的说法。 (3)方言词汇进入普通话词汇。如“炒鱿鱼、发烧友、埋单、的士、连锁店、服装城、跳楼价、大出血、 娱乐圈、拍拖、三级片、主打、金曲、劲歌、劲舞、搞笑、爽、靓、马子、二奶、套磁、磁实、猫腻、腕儿 搓、傍大款、侃大山、膀爷”等。 (4)外来词,从外族语借来的词,又有:A、音译词如“的士、巴土、欧佩克、可口可乐、丁克、克隆、 基因、托福、卡拉OK、拜拜、酷(cool)、蔻(cute)、秀(show)、脱口秀( talk show)、血拼( shopping)、派对(pary)、 伊妹儿(E-mal)”等;B、意译词,如“热点( hot spot)、音乐电视( music television)、热狗( hot dog)、超 级市场( supermarket)”;C、音译兼意译词,如“激光、呼啦圈、桑拿浴、迷你裙、吧女、酒吧、”等;D 直接使用日语的词语,如:“放送、慰安妇、物语、写真、人气”等。 (5)简略词,在原有词语的基础上缩略而成的词语。分为三种情况:A、简称词,如“博导(博士研究 生导师)、澳网(澳大利亚网球公开赛)、超市(超级市场)“;B、略语词,如“严打(严厉打击犯罪活动)、 打假(打击假冒伪劣商品)、防伪(防止假冒伪劣产品)、台资(台湾人投入的资本)”;C、缩语词,如“ 讲、三个代表、三假、三陪、三金”等。 (6)修辞用法稳定下来构成的新词语。主要有:A、比喻引申,如“豆腐渣工程、枕头风、撒胡椒面、 下毛毛雨、泡沫经济、朝阳产业、白色消费、下海、捞人”等;B、借代,如:“菜篮子工程、白发世界、白 条案、老人头”等。C、仿拟比如:“烟民、股民、彩民、网民”,“空姐、海姐、吧姐、呼姐、网姐、空嫂 海嫂、吧娘、呼嫂”,“文盲、科盲、股盲、舞盲、网盲”、“网民、网友、网哥、网姐、网迷、网虫、网蝇” 等等 (7)专用术语意义泛化、转移,扩大使用范围,转为普通词汇。如“软件、硬件、启动、热处理、冷处 理、黄牌、主旋律、套牢、触电、放电”等。 (8)字母词。主要有三类:A、纯粹的字母词,整个词由英文字母构成,如“CT、IBM、CIA、 TOFEL iRE、CEO、ATM、CFO、BBS、CVD、DVD、VS、IT、IN、Q、VIP”等等;B、字母和汉字的组合,如“BP 机、BP族、CALL机、E时代、E人类、IT界、∏业、够ⅣN、ⅥP卡、很Q”等等;C、数字和字母的组合 如“3D、3C、3S”等等。 2.《现代汉语新词语信息电子词典》的开发思想 2.1新词语研究的局限 现代汉语新词语的研究受到了国内外的广泛关注,学者们也做了大量的研究,产生了一些引人注目的研 究成果。出版了新词语词典及词语集三十多种、新词语研究专著两本,但是这些著作对新词语的研究都有 定的局限。主要表现在以下方面:(1)这些研究成果都是印刷品,没有有效的电子版成果,不能实现资源高 度共享。(2)这些成果都是为人用的,而没有考虑到机器使用,应用范围受到了限制。(3)由于受到研究技 术和研究条件的限制,各种词典收词量有限,词语的解释及引例都有欠妥之处,更重要的是词典提供的信息 量极其有限。由于以上的不足,造成现有的各种新词词典应用价值不高 2.2《现代汉语新词语信息电子词典》开发的目标 (1)希望创建现代汉语新词语硏究的基础平台,实现资源高度共享,获得较高的应用价值。本项研究利 用计算机数据库技术和相关的语料库技术进行现代汉语新词语的跟踪研究,研究成果形式为有效、实用的计 算机数据库软件,其中包括新词语电子词典和大规模的相关语料,这样可以实现资源的高度共享,使其具有 较高的应用价值。 (2)希望在汉语硏究和中文信息处理硏究方面做出积极的贡献。以往汉语的研究的资料和手段限制了汉 语大规模的实用化的研究,由此造成的直接后果是严重制约了中文信息处理的发展。本项研究利用计算机技 术进行,积累了大量的机器可读文件,为大规模的实用的汉语研究奠定了基础,其研究成果——新词语属性 信息电子词典以及新词语的构词规律可以直接应用于中文信息处理的未登录词语识别,有利于提高中文信息 处理技术的水平 2.3《现代汉语新词语电子词典》的开发具体思路

时间不用,又重新启用,比如:“高就、赏光、黑道、绑票、撕票、夜总会、小姐、太太、金婚、银婚”等。 其中有些意义也发生了一些变化,比如“高就、赏光、太太、小姐”等原来主要用于地位比较高的人,有特 指性,现在已经泛化,不论地位高低都可以用,变成了一种普通的说法。 (3)方言词汇进入普通话词汇。如“炒鱿鱼、发烧友、埋单、的士、连锁店、服装城、跳楼价、大出血、 娱乐圈、拍拖、三级片、主打、金曲、劲歌、劲舞、搞笑、爽、靓、马子、二奶、套磁、磁实、猫腻、腕儿、 搓、傍大款、侃大山、膀爷”等。 (4)外来词,从外族语借来的词,又有:A、音译词如“的士、巴士、欧佩克、可口可乐、丁克、克隆、 基因、托福、卡拉 OK、拜拜、酷(cool)、蔻(cute)、秀(show)、脱口秀(talk show)、血拼(shopping)、派对(party)、 伊妹儿(E-mail)”等;B、意译词,如“热点(hot spot)、音乐电视(music television)、热狗(hot dog)、超 级市场(supermarket)”;C、音译兼意译词,如“激光、呼啦圈、桑拿浴、迷你裙、吧女、酒吧、”等;D、 直接使用日语的词语,如:“放送、慰安妇、物语、写真、人气”等。 (5)简略词,在原有词语的基础上缩略而成的词语。分为三种情况:A、简称词,如“博导(博士研究 生导师)、澳网(澳大利亚网球公开赛)、超市(超级市场)“;B、略语词,如“严打(严厉打击犯罪活动)、 打假(打击假冒伪劣商品)、防伪(防止假冒伪劣产品)、台资(台湾人投入的资本)”;C、缩语词,如“三 讲、三个代表、三假、三陪、三金”等。 (6)修辞用法稳定下来构成的新词语。主要有:A、比喻引申,如“豆腐渣工程、枕头风、撒胡椒面、 下毛毛雨、泡沫经济、朝阳产业、白色消费、下海、捞人”等;B、借代,如:“菜篮子工程、白发世界、白 条案、老人头”等。C、仿拟比如:“烟民、股民、彩民、网民”,“空姐、海姐、吧姐、呼姐、网姐、空嫂、 海嫂、吧娘、呼嫂”,“文盲、科盲、股盲、舞盲、网盲”、“网民、网友、网哥、网姐、网迷、网虫、网蝇” 等等。 (7)专用术语意义泛化、转移,扩大使用范围,转为普通词汇。如“软件、硬件、启动、热处理、冷处 理、黄牌、主旋律、套牢、触电、放电”等。 (8)字母词。主要有三类:A、纯粹的字母词,整个词由英文字母构成,如“CT、IBM、CIA、TOFEL、 GRE、CEO、ATM、CFO、BBS、CVD、DVD、VS、IT、IN、Q、VIP”等等;B、字母和汉字的组合,如“BP 机、BP 族、CALL 机、E 时代、E 人类、IT 界、IT 业、够 IN、VIP 卡、很 Q”等等;C、数字和字母的组合, 如“3D、3C、3S”等等。 2.《现代汉语新词语信息电子词典》的开发思想 2.1 新词语研究的局限 现代汉语新词语的研究受到了国内外的广泛关注,学者们也做了大量的研究,产生了一些引人注目的研 究成果。出版了新词语词典及词语集三十多种、新词语研究专著两本,但是这些著作对新词语的研究都有一 定的局限。主要表现在以下方面:(1)这些研究成果都是印刷品,没有有效的电子版成果,不能实现资源高 度共享。(2)这些成果都是为人用的,而没有考虑到机器使用,应用范围受到了限制。(3)由于受到研究技 术和研究条件的限制,各种词典收词量有限,词语的解释及引例都有欠妥之处,更重要的是词典提供的信息 量极其有限。由于以上的不足,造成现有的各种新词词典应用价值不高。 2.2《现代汉语新词语信息电子词典》开发的目标 (1)希望创建现代汉语新词语研究的基础平台,实现资源高度共享,获得较高的应用价值。本项研究利 用计算机数据库技术和相关的语料库技术进行现代汉语新词语的跟踪研究,研究成果形式为有效、实用的计 算机数据库软件,其中包括新词语电子词典和大规模的相关语料,这样可以实现资源的高度共享,使其具有 较高的应用价值。 (2)希望在汉语研究和中文信息处理研究方面做出积极的贡献。以往汉语的研究的资料和手段限制了汉 语大规模的实用化的研究,由此造成的直接后果是严重制约了中文信息处理的发展。本项研究利用计算机技 术进行,积累了大量的机器可读文件,为大规模的实用的汉语研究奠定了基础,其研究成果——新词语属性 信息电子词典以及新词语的构词规律可以直接应用于中文信息处理的未登录词语识别,有利于提高中文信息 处理技术的水平。 2.3《现代汉语新词语电子词典》的开发具体思路

介于目前有关新词语的研究比较零散,而且新词语的研究又有十分重要的作用,我们拟对新词语进行大 规模的比较完备的研究。具体思路为 (1)尽量穷尽地收集现有的新词语,做到全面、准确。目前已收录新词语近4万,收录了我们所能见到 的所有新词语。 (2)按照人机两用的研究理念,打造一部适合于“人读”和“机读”的电子词典。增加词典的信息量, 扩大词典的使用范围,提高其应用价值。 (3)以北京大学计算语言学硏究所的《现代汉语语法信息词典》为模型,采用分类与属性描述相结合的 方法,在粗分词类的基础上对每个词语语法语义属性信息进行详细描述。具体采用成熟的关系数据库形式描 述词语和语法、语义属性的二维关系,成果为数据库文件格式的电子词典。 4)一部开放的词典。本词典在新词语的收集及属性的描述方面均坚持开放的原则,将跟踪汉语词汇的 发展变化和汉语信息处理的发展,不断地收集、增加新词语,増加新词语属性信息的描述,以满足实际需要。 3.《现代汉语新词语信息电子词典》词语的采集与所描述的属性信息 3.1新词语的采集 首先利用我们自己开发好的《新词语词典信息库》和语料库整理出一个新词语词表,然后按照我们的收 词原则——全面性原则、规范性与描写性相结合原则、必要性原则、普遍性原则、稳定性原则、音节原则等, 从词表中遴选出新词语3万多个,形成了新词语词典的基础。此后,我们利用语言信息处理技术不断地从网 上抓取新词语及相关的例句集,不断地扩充新词语词典。确定新词语词典中的词目后,利用新词语词典信息 库和包含《人民日报》1978年以来的语料、《南方周末》创刊以来的语料以及人民日报报系其他报纸、人民 网、光明日报、新民晚报等近年来语料的超大规模语料库建立包含该词语的例句集,考察这些词语的意义和 用法,描述其义项、语法属性、语义属性以及其他信息等,从而开发出《现代汉语新词语信息电子词典》。这 些工作很大程度上利用计算机语料库管理技术,在大规模机读语料库的支持下进行,能够比较全面地考察每 个新词语的分布环境,提高新词语采集、收录的合理性和信息描述的准确度和覆盖范围,从而提升词典的质 3.2新词语词典属性信息的确立 新词语词典开发主要是为了学习、研究新词语,特别是为中文信息处理提供一个基本资源。为了达到这 目的,新词语词典属性信息包括了语音信息、来源信息、语法信息和部分语义、语用信息,涉及了新词语 形、音、义以及用法的主要方面。 新词语词典描述的主要属性信息包括以下方面: (1)词的常规信息。包括词的读音、义项、音节、例句等。 (2)语法信息。按照北京大学计算语言学研究所的《现代汉语语法信息词典》的规格描写新词语的语法 信息。词类体系沿用《现代汉语语法信息词典》的18个基本类,再加上成语、惯用语。词类标记与其相同。 各类词语法属性的设立在《现代汉语语法信息词典》基础上有所改动,使其更加优化。 (3)构词法信息。构词法主要分为单纯构词法和合成构词法两类。单纯构词法又分为单音单纯词、多音 单纯词。多音单纯词又分为联绵词、音译词和叠音词等。联绵词又分为双声、叠韵其他等。合成词又分为复 合式、重叠式、附加式三类。复合式又分为联合式、偏正式、补充式、动宾式和主谓式等。附加式又分为两 种类型:“前缀+词根”、“词根+后缀”等。对于复合词将构成复合词的几部分分解开来,分别标上该语素所属 的“词性”,以便进一步考察由语素按照一定的构词方法构成的新词语的词性的规律。 (4)产生途径。根据我们的考察主要包括:新造词,旧词新用,方言词进入普通话的词汇,外来词,简 略词,修辞用法稳定下来构成新词,术语扩大使用范围产生新义。 (5)应用领域。应用领域的划分是一个比较棘手的问题,我们大体上分为政治、经济、法律、军事、文 化、科技、教育、卫生、体育、商业、工业、农业、生活、通用等,暂时作为工作规范,以后在逐渐调整 (6)来源信息,即该词从那本词典或哪些语料中来,如果很多本词典都收录了该词,则说明该词的复现 率比较高,新词语的身份更加确定 (7)时间信息。该词语大致产生的时间,以词典的引例时间为准;使用时间,以词典出版时间为准 3.3新词语词典的结构与各个库的主要属性信息

介于目前有关新词语的研究比较零散,而且新词语的研究又有十分重要的作用,我们拟对新词语进行大 规模的比较完备的研究。具体思路为: (1)尽量穷尽地收集现有的新词语,做到全面、准确。目前已收录新词语近 4 万,收录了我们所能见到 的所有新词语。 (2)按照人机两用的研究理念,打造一部适合于“人读”和“机读”的电子词典。增加词典的信息量, 扩大词典的使用范围,提高其应用价值。 (3)以北京大学计算语言学研究所的《现代汉语语法信息词典》为模型,采用分类与属性描述相结合的 方法,在粗分词类的基础上对每个词语语法语义属性信息进行详细描述。具体采用成熟的关系数据库形式描 述词语和语法、语义属性的二维关系,成果为数据库文件格式的电子词典。 (4)一部开放的词典。本词典在新词语的收集及属性的描述方面均坚持开放的原则,将跟踪汉语词汇的 发展变化和汉语信息处理的发展,不断地收集、增加新词语,增加新词语属性信息的描述,以满足实际需要。 3.《现代汉语新词语信息电子词典》词语的采集与所描述的属性信息 3.1 新词语的采集 首先利用我们自己开发好的《新词语词典信息库》和语料库整理出一个新词语词表,然后按照我们的收 词原则——全面性原则、规范性与描写性相结合原则、必要性原则、普遍性原则、稳定性原则、音节原则等, 从词表中遴选出新词语 3 万多个,形成了新词语词典的基础。此后,我们利用语言信息处理技术不断地从网 上抓取新词语及相关的例句集,不断地扩充新词语词典。确定新词语词典中的词目后,利用新词语词典信息 库和包含《人民日报》1978 年以来的语料、《南方周末》创刊以来的语料以及人民日报报系其他报纸、人民 网、光明日报、新民晚报等近年来语料的超大规模语料库建立包含该词语的例句集,考察这些词语的意义和 用法,描述其义项、语法属性、语义属性以及其他信息等,从而开发出《现代汉语新词语信息电子词典》。这 些工作很大程度上利用计算机语料库管理技术,在大规模机读语料库的支持下进行,能够比较全面地考察每 个新词语的分布环境,提高新词语采集、收录的合理性和信息描述的准确度和覆盖范围,从而提升词典的质 量。 3.2 新词语词典属性信息的确立 新词语词典开发主要是为了学习、研究新词语,特别是为中文信息处理提供一个基本资源。为了达到这 一目的,新词语词典属性信息包括了语音信息、来源信息、语法信息和部分语义、语用信息,涉及了新词语 形、音、义以及用法的主要方面。 新词语词典描述的主要属性信息包括以下方面: (1)词的常规信息。包括词的读音、义项、音节、例句等。 (2)语法信息。按照北京大学计算语言学研究所的《现代汉语语法信息词典》的规格描写新词语的语法 信息。词类体系沿用《现代汉语语法信息词典》的 18 个基本类,再加上成语、惯用语。词类标记与其相同。 各类词语法属性的设立在《现代汉语语法信息词典》基础上有所改动,使其更加优化。 (3)构词法信息。构词法主要分为单纯构词法和合成构词法两类。单纯构词法又分为单音单纯词、多音 单纯词。多音单纯词又分为联绵词、音译词和叠音词等。联绵词又分为双声、叠韵其他等。合成词又分为复 合式、重叠式、附加式三类。复合式又分为联合式、偏正式、补充式、动宾式和主谓式等。附加式又分为两 种类型:“前缀+词根”、“词根+后缀”等。对于复合词将构成复合词的几部分分解开来,分别标上该语素所属 的“词性”,以便进一步考察由语素按照一定的构词方法构成的新词语的词性的规律。 (4)产生途径。根据我们的考察主要包括:新造词,旧词新用,方言词进入普通话的词汇,外来词,简 略词,修辞用法稳定下来构成新词,术语扩大使用范围产生新义。 (5)应用领域。应用领域的划分是一个比较棘手的问题,我们大体上分为政治、经济、法律、军事、文 化、科技、教育、卫生、体育、商业、工业、农业、生活、通用等,暂时作为工作规范,以后在逐渐调整。 (6)来源信息,即该词从那本词典或哪些语料中来,如果很多本词典都收录了该词,则说明该词的复现 率比较高,新词语的身份更加确定。 (7)时间信息。该词语大致产生的时间,以词典的引例时间为准;使用时间,以词典出版时间为准。 3.3 新词语词典的结构与各个库的主要属性信息

3.3.1新词语词典的总体结构 新词语词典采用成熟的关系数据库技术(在 access软件下实现)。填入的信息尽量以直观明了的汉字、 字母、数字表示。根据新词语属性的确立,信息库总体上包括三个方面五个库。总库一个,语法信息库三个 名词库、动词库、形容词库),构词法库一个。另外还设立了旧词库、外来词库、简略词库和方言词库,对 新词语当中的旧词新用、外来词、简略词、方言词等的有关信息进行了描述。这几个库通过“词语、拼音、 项”三个字段连接。构成一个上下连接的有机系统,便于信息的提取。新词语词典的总体结构如下 总库 名词库动词库形容词库构词法库旧词库外来词库简略词库方言词库 3.3.2各个库所描述的主要属性信息 总库主要描述的信息有:词语、拼音、义项、词性、音节、产生途径、领域、时间、来源等。 其他各库共有的属性信息有“词语、拼音、义项”,均从总库中继承,其他属性信息如下 语法信息库中名词库主要描述了与名词搭配的各种量词,名词的子类,能不能直接受数词、数量词、其 他名词、动词的修饰,能受哪些代词直接或加“的”后修饰,前接或后接成分,能不能作定语、主语、宾语, 能不能直接或加“地”作状语,以及能不能重叠、临时充当量词等。动词库主要描述的信息有:动词的子类 系词、助动词、趋向动词、补助动词、形式动词、自主动词、非自主动词、内外动词、存现动词、离合 词等;构成的句式——“把”字句、“被”字句、兼语句、双宾句、存现句等;充当的成分—一定语、名词性 结构的中心语、单作谓语、宾语、状语;后带的成分——体谓准宾语、动时量补语、结果补语、趋向补语等:; 动词自身形态的变化——前受“不、没、很、正”的修饰、后跟“着、了、过”、W、AB、V一V、V了V、 V了一V、wo等。宾语、结果补语、趋向补语的详细信息将另行描述。形容词库描述的主要信息有:子类 直接作定语或加“的”后作定语、作谓语、补语、状语或加“地”后作状语或再加“很”后作状语、作准谓 宾、“有”的宾语、名词性结构的中心语、AA重叠及重叠后的词性、ABAB、A里AB、带“着了过”、准宾语、 趋向补语等。 构词法库描述的主要信息有:1、构词部件,分为“成分1”“成分2”“成分3”,分别填入构成该词语的 成分的类别,其中有的是语素、有的是词。2、构词法,考察该词语的构词方式,主要分为:主谓、动宾、状 中、定中、补充、联合、加前缀、加后缀等。3、词性,填入词语的词性,从总库中继承来。4、音节,填入 该词语的音节数,从总库中继承来。 旧词库描述的主要信息有:1、旧义,填入该词语原来的意义;2、新义,填入该词语新意义或新用法 词性,填入该新词语的词性,如果词性与原词语词性一致,则标词性标记;如果改变了词性则特别标明,如 不及物动词变为及物动词,标为:Vt;及物动词变为不及物动词,标为:Vi。4、词义演变途径,考察由旧词 语演变为新词语的词义的演变途径,主要有36类:(1)同用相比,(2)同果相喻,(3)同质相喻,(4)同状 相喻,(5)特定代普通,(6)具体到抽象,(⑦)同位相喻,(8)语素换义,(9)泛化,(10)个体代全体,(11) 普通代特定,(12)使动化,(13)同感引申,(14)对象更换,(15)客体更换,(16)指称对象扩大,(17) 工具带本体,(18)特征、标志代本体,(19)专化,(20)同形相喻,(21)以果代因,(22)同所相喻,(23) 部分代全体,(24)动静引申,(25)所在代(比如:山头、大哥大),(26)主体扩大,(27)功用代本体,(28) 语用(小姐),(29)社会原因(草业),(30)时空引申,(31)正反引申,(32)句法影响,(33)抽象到具体, (34)特指化,(35)本体代特征,(36)现象代本体。(根据罗正坚的《汉语词义引申导论》和徐国庆的《现 代汉语词汇系统论》归纳出来)5、演变类型,词义演变的类型,主要有9类:(1)转移,(2)扩大,(3)虚 化,(4)转类,(5)缩小,(6)贬降,(7)扬升,(8)弱化,(9)深化。 外来词词库描述的主要信息有:1、途径,外来词进入汉语的主要途径,主要有:(1)音译,(2)谐音, (3)音译加汉语语素,(4)音兼意译,(5)按照外语词语的意义创造一个汉语词语;2、语音变化信息,主 要有:(1)音素的替换,(2)音节的增减;3、意义变化,主要有(1)扩大,(2)缩小,(3)转移,(4)保 持原意;4、缩略,考察外来词语是否有缩略:5、应用领域。 简略词词库描述的主要信息有:1、原词语,填入简略词的原型。2、简略的类型:(1)简称,(2)缩语 (3)略语,(4)准缩略语。3、构成方式:将原词语划段,根据实际情况描述如何进行缩略的,比如“北京

3.3.1 新词语词典的总体结构 新词语词典采用成熟的关系数据库技术(在 access 软件下实现)。填入的信息尽量以直观明了的汉字、 字母、数字表示。根据新词语属性的确立,信息库总体上包括三个方面五个库。总库一个,语法信息库三个 (名词库、动词库、形容词库),构词法库一个。另外还设立了旧词库、外来词库、简略词库和方言词库,对 新词语当中的旧词新用、外来词、简略词、方言词等的有关信息进行了描述。这几个库通过“词语、拼音、 义项”三个字段连接。构成一个上下连接的有机系统,便于信息的提取。新词语词典的总体结构如下: 总库 名词库 动词库 形容词库 构词法库 旧词库 外来词库 简略词库 方言词库 3.3.2 各个库所描述的主要属性信息 总库主要描述的信息有:词语、拼音、义项、词性、音节、产生途径、领域、时间、来源等。 其他各库共有的属性信息有“词语、拼音、义项”,均从总库中继承,其他属性信息如下。 语法信息库中名词库主要描述了与名词搭配的各种量词,名词的子类,能不能直接受数词、数量词、其 他名词、动词的修饰,能受哪些代词直接或加“的”后修饰,前接或后接成分,能不能作定语、主语、宾语, 能不能直接或加“地”作状语,以及能不能重叠、临时充当量词等。动词库主要描述的信息有:动词的子类 ——系词、助动词、趋向动词、补助动词、形式动词、自主动词、非自主动词、内外动词、存现动词、离合 词等;构成的句式——“把”字句、“被”字句、兼语句、双宾句、存现句等;充当的成分——定语、名词性 结构的中心语、单作谓语、宾语、状语;后带的成分——体谓准宾语、动时量补语、结果补语、趋向补语等; 动词自身形态的变化——前受“不、没、很、正”的修饰、后跟“着、了、过”、VV、AABB、V 一 V、V 了 V、 V 了一 V、VVO 等。宾语、结果补语、趋向补语的详细信息将另行描述。形容词库描述的主要信息有:子类、 直接作定语或加“的”后作定语、作谓语、补语、状语或加“地”后作状语或再加“很”后作状语、作准谓 宾、“有”的宾语、名词性结构的中心语、AA 重叠及重叠后的词性、ABAB、A 里 AB、带“着了过”、准宾语、 趋向补语等。 构词法库描述的主要信息有:1、构词部件,分为“成分 1”“成分 2”“成分 3”,分别填入构成该词语的 成分的类别,其中有的是语素、有的是词。2、构词法,考察该词语的构词方式,主要分为:主谓、动宾、状 中、定中、补充、联合、加前缀、加后缀等。3、词性,填入词语的词性,从总库中继承来。4、音节,填入 该词语的音节数,从总库中继承来。 旧词库描述的主要信息有:1、旧义,填入该词语原来的意义;2、新义,填入该词语新意义或新用法;3、 词性,填入该新词语的词性,如果词性与原词语词性一致,则标词性标记;如果改变了词性则特别标明,如 不及物动词变为及物动词,标为:Vt;及物动词变为不及物动词,标为:Vi。4、词义演变途径,考察由旧词 语演变为新词语的词义的演变途径,主要有 36 类:(1)同用相比,(2)同果相喻,(3)同质相喻,(4)同状 相喻,(5)特定代普通,(6)具体到抽象,(7)同位相喻,(8)语素换义,(9)泛化,(10)个体代全体,(11) 普通代特定,(12)使动化,(13)同感引申,(14)对象更换,(15)客体更换,(16)指称对象扩大,(17) 工具带本体,(18)特征、标志代本体,(19)专化,(20)同形相喻,(21)以果代因,(22)同所相喻,(23) 部分代全体,(24)动静引申,(25)所在代(比如:山头、大哥大),(26)主体扩大,(27)功用代本体,(28) 语用(小姐),(29)社会原因(草业),(30)时空引申,(31)正反引申,(32)句法影响,(33)抽象到具体, (34)特指化,(35)本体代特征,(36)现象代本体。(根据罗正坚的《汉语词义引申导论》和徐国庆的《现 代汉语词汇系统论》归纳出来)5、演变类型,词义演变的类型,主要有 9 类:(1)转移,(2)扩大,(3)虚 化,(4)转类,(5)缩小,(6)贬降,(7)扬升,(8)弱化,(9)深化。 外来词词库描述的主要信息有:1、途径,外来词进入汉语的主要途径,主要有:(1)音译,(2)谐音, (3)音译加汉语语素,(4)音兼意译,(5)按照外语词语的意义创造一个汉语词语;2、语音变化信息,主 要有:(1)音素的替换,(2)音节的增减;3、意义变化,主要有(1)扩大,(2)缩小,(3)转移,(4)保 持原意;4、缩略,考察外来词语是否有缩略;5、应用领域。 简略词词库描述的主要信息有:1、原词语,填入简略词的原型。2、简略的类型:(1)简称,(2)缩语, (3)略语,(4)准缩略语。3、构成方式:将原词语划段,根据实际情况描述如何进行缩略的,比如“北京

大学”一“北大”,其构成方式描写为“a1b3”。4、同形:如有同形词语,则有几个填相应的数字。5、缩略 方式:(1)缩合,如:奥林匹克运动会——“奥运会”;(2)节缩,如:电视连续剧 连续剧”;(3)提 取,如:中国高技术研究发展计划纲要—“863计划”(该计划的提出是1986年3月);(4)其他,包括 A、用同义、近义词语替换,如:浮式起重机—一“浮吊”;B、用上位词语代替下位词语,如:中华人民共和 国教育委员会——“国家教委”;C、用英文中的字母缩略,如“MTV”。 旧词新用库、外来词库、简略词库的开发主要是为了研究新词语的产生途径以及主要原因。 各个库属性信息的具体描述方法,请参阅“参考文献(1)(2)” 4.近四万词语的归类实践 进行语法信息的描述首先要对新词语进行分类和归类。新词语词典所坚持的语法理论及词类体系继承了 北京大学计算语言学研究所《现代汉语语法信息词典》所坚持的语法理论和词类体系—词组本位语法体系 针对汉语词类多功能的特点,我们坚持以“优势语法功能”作为词类划分和词语归类的标准。为了明确汉语 词类的优势语法功能,我们以《现代汉语语法信息词典》为基础进行统计,总结出汉语词类语法特征的分布 状况以及优势语法功能。汉语词类优势语法功能如下: 名词:能受数量词修饰,能作主宾语 时间词:修饰名词、直接修饰“指量名”结构、作介词“在”的宾语。 处所词:作“在”的宾语、直接修饰名词构成定中结构、能用“这儿、哪儿、那儿”指代。 区别词:能加“的”后或直接修饰名词作定语。 动词:能受“没”或“不”修饰、能带时态助词“着、了、过”、能单独作谓语。 形容词:作谓语、受“很”“不”修饰、作定语。 状态词:不受“不”“很”修饰、加“的”后修饰名词、加“的”后修饰“数量名”结构、带“的”后作 谓语, 副词:作状语而不作定语 根据以上“优势语法功能”,对新词语进行了分类,并对四万新词语逐一进行了考察,归了类。在归类中, 我们注意到:1、这些优势语法功能不是“对内具有普遍性”,因此不能包打天下,只是具有相对的普遍性, 还有一些例外,需要用其他特征协助判断。2、很多优势语法功能也不是“对外具有排他性”,一些优势功能 也可能是两类词共有的,比如能受“不”的修饰是动词和形容词共同的特征,而不能受“不”的修饰又是名 词、时间词、处所词、区别词、状态词的共同特征。这种情况提醒我们给新词语分类或归类不能按照单一标 准,而要综合运用多个标准。 按照这些标准给现有新词语分类和归类情况如下 名词有:爱虫、爱娇、爱意、安居工程、安乐死、按摩小姐、奥星、奥运战略、八卦新闻、吧女、吧台 吧蝇、霸气、白金唱片、白领、白领犯罪、白领丽人、白判、白色公害、白色收入、板寸、傍姐、保护伞、 保健菜、波霸、长期饭票、超级恐龙、炒家、搞笑片、A制、BBS、e-Bok、SOHo族、等等24874个 动词有:挨宰、暗箱操作、拔份、把脉、罢网、白领化、摆平、扮蔻、扮酷、扮靓、棒杀、傍、傍大款、 包二奶、包二爷、包装、煲电话粥、煲网、保级、暴跌、保廉、暴走族、曝光、爆炒、爆棚、蹦迪、蹦极、 逼宫、飙、飙车、飙价、炒楼花、触网、丰胸、搞掂、Call、12006个, 形容词有:霸气、暴露、倍儿棒、惨、火、火爆、酷、靓、帅、爽、靓丽、IN、Q、CoolⅠ等等1002个。 区别词有:非常、海量、候鸟型、绿色、新锐、主打、袋装、独资、两梄、落地式、程控、等等19个。 副词有:惨、好、绝、毙、倍儿、倍加、等等43个。 成语有:筑巢引凤、引咎辞职、招商引资、一网情深、优化组合、友情出演、友情客串、心灵鸡汤、雾 里看花、闪亮登场、强强联合、牵线搭桥、钱权交易、梦中情人、美丽冻人、快乐老家、高开低走236个 惯用语有:爱谁谁、爱情走私、爱心大放送、把蛋糕做大、别理我,烦着呢、找不着北、有没有搞错、 玩儿深沉、没事偷着乐、老鼠爱大米、空手套白狼、跟着感觉走、第一次亲密接触、常回家看看、潇洒走 回、玩的就是心跳、等等799个。 叹词有:哇噻、yeah2个

大学”—“北大”,其构成方式描写为“a1b3”。4、同形:如有同形词语,则有几个填相应的数字。5、缩略 方式:(1)缩合,如:奥林匹克运动会——“奥运会”;(2)节缩,如:电视连续剧——“连续剧”;(3)提 取,如:中国高技术研究发展计划纲要——“863 计划”(该计划的提出是 1986 年 3 月);(4)其他,包括: A、用同义、近义词语替换,如:浮式起重机——“浮吊”;B、用上位词语代替下位词语,如:中华人民共和 国教育委员会——“国家教委”;C、用英文中的字母缩略,如“MTV”。 旧词新用库、外来词库、简略词库的开发主要是为了研究新词语的产生途径以及主要原因。 各个库属性信息的具体描述方法,请参阅“参考文献(1)(2)”。 4.近四万词语的归类实践 进行语法信息的描述首先要对新词语进行分类和归类。新词语词典所坚持的语法理论及词类体系继承了 北京大学计算语言学研究所《现代汉语语法信息词典》所坚持的语法理论和词类体系——词组本位语法体系。 针对汉语词类多功能的特点,我们坚持以“优势语法功能”作为词类划分和词语归类的标准。为了明确汉语 词类的优势语法功能,我们以《现代汉语语法信息词典》为基础进行统计,总结出汉语词类语法特征的分布 状况以及优势语法功能。汉语词类优势语法功能如下: 名词:能受数量词修饰,能作主宾语。 时间词:修饰名词、直接修饰“指量名”结构、作介词“在”的宾语。 处所词:作“在”的宾语、直接修饰名词构成定中结构、能用“这儿、哪儿、那儿”指代。 区别词:能加“的”后或直接修饰名词作定语。 动词:能受“没”或“不”修饰、能带时态助词“着、了、过”、能单独作谓语。 形容词:作谓语、受“很”“不”修饰、作定语。 状态词:不受“不”“很”修饰、加“的”后修饰名词、加“的”后修饰“数量名”结构、带“的”后作 谓语。 副词:作状语而不作定语。 根据以上“优势语法功能”,对新词语进行了分类,并对四万新词语逐一进行了考察,归了类。在归类中, 我们注意到:1、这些优势语法功能不是“对内具有普遍性”,因此不能包打天下,只是具有相对的普遍性, 还有一些例外,需要用其他特征协助判断。2、很多优势语法功能也不是“对外具有排他性”,一些优势功能 也可能是两类词共有的,比如能受“不”的修饰是动词和形容词共同的特征,而不能受“不”的修饰又是名 词、时间词、处所词、区别词、状态词的共同特征。这种情况提醒我们给新词语分类或归类不能按照单一标 准,而要综合运用多个标准。 按照这些标准给现有新词语分类和归类情况如下: 名词有:爱虫、爱娇、、爱意、安居工程、安乐死、按摩小姐、奥星、奥运战略、八卦新闻、吧女、吧台、 吧蝇、霸气、白金唱片、白领、白领犯罪、白领丽人、白判、白色公害、白色收入、板寸、傍姐、保护伞、 保健菜、波霸、长期饭票、超级恐龙、炒家、搞笑片、AA 制、BBS 、e-Book 、SOHO 族、等等 24874 个。 动词有:挨宰、暗箱操作、拔份、把脉、罢网、白领化、摆平、扮蔻、扮酷、扮靓、棒杀、傍、傍大款、 包二奶、包二爷、包装、煲电话粥、煲网、保级、暴跌、保廉、暴走族、曝光、爆炒、爆棚、蹦迪、蹦极、 逼宫、飙、飙车、飙价、炒楼花、触网、丰胸、搞掂、Call 、12006 个, 形容词有:霸气、暴露、倍儿棒、惨、火、火爆、酷、靓、帅、爽、靓丽、IN 、Q 、Cool 等等 1002 个。 区别词有:非常、海量、候鸟型、绿色、新锐、主打、袋装、独资、两栖、落地式、程控、等等 119 个。 副词有:惨、好、绝、毙、倍儿、倍加、等等 43 个。 成语有:筑巢引凤、引咎辞职、招商引资、一网情深、优化组合、友情出演、友情客串、心灵鸡汤、雾 里看花、闪亮登场、强强联合、牵线搭桥、钱权交易、梦中情人、美丽冻人、快乐老家、高开低走 236 个, 惯用语有:爱谁谁、爱情走私、爱心大放送、把蛋糕做大、别理我,烦着呢、找不着北、有没有搞错、 玩儿深沉、没事偷着乐、老鼠爱大米、空手套白狼、跟着感觉走、第一次亲密接触、常回家看看、潇洒走一 回、玩的就是心跳、等等 799 个。 叹词有:哇噻、yeah2 个

参考文献: 1、亢世勇:《现代汉语新词语信息(电子)词典》的开发应用,《辞书研究》2001年1期 2、亢世勇:《现代汉语新词语信息(电子)词典》的结构,《信息网络时代中日韩语文现代化国际硏讨会论文 集》,香港文化教育出版社,2000年。 3、俞士汶、朱学锋等:《现代汉语语法信息词典详解》,清华大学出版社,19998年4月。 4、亢世勇:语料库技术在新词语词典开发中的具体应用,《中国辞书论集200,中国大百科全书出版社 2001年10月。 5、徐国庆:《现代汉语词汇系统论》,北京大学出版社,1999年4月 6、罗正坚《汉语词义引申导论》,南京大学出版社,1996 7、刘一玲:寻求新的色彩,寻求新的风格——新词语产生的重要途径,《语言文字应用》1993年第1期 8、于夏龙:从方言吸取营养——普通话新词语产生的途径,《语言文字应用》,1992年2期 9、新词新语词典编纂的新收获,《语言文字应用》,1993年1期。 整理汉语新词语的若干思考,《语言文字应用》,1993年3期。 11、张志毅、张庆云:新时期新词语的趋势与选择,《语文建设》,1997年3期。 12、姚汉铭:《新词语·社会·文化》上海辞书出版社,1999年。 13、王铁昆:新词语的判定标准与新词新语词典编纂的原则,《语言文字应用》,1992年4期。 14、亢世勇:《现代汉语新词语信息电子词典》在语言教学中的应用,《 E-Leaning与对外汉语教学》,清华大 学出版社,2002年6月。 15、于根元主编:《网络语言概说》,中国经济出版社,2001年。 《现代汉语新词语信息电子词典》的研究与实现 摘要:本文从四个方面介绍了我们正在开发中的《现代汉语新词语信息电子词典》:(1)现代汉语新词语的界 定,(2)新词语词典的开发思想,(3)新词语的采集与新词语属性信息的描述,(4)近四万新词语的归类实 践。我们认定的新词语是指1978年以来通过各种产生的、具有基本词汇没有的新形式、新意义或新用法的语 文词语。除了词形、词义或用法任何一个方面“新”外,还要求必须是人们日常生活中普遍、广泛使用的语 文词语,人名、地名以及专科术语都不属于我们所说的“新词语”。我们坚持开放的原则,尽量全面的采集收 录新词语,用人机两用的研究理念,以北京大学计算语言学研究所的《现代汉语语法信息词典》为模型打造 一部收词全面、信息丰富、资源高度共享的现代汉语新词语电子词典,为新词语的研究、中文信息处理的研 究提供一个宝贵的资源。目前已收录新词语近4万,首先我们按照现代汉语词类的“优势语法”功能,给这 四万新词语分类并归类,然后,利用成熟的关系数据库(在 ACCESS环境下实现)详细地描述了每个词语的 属性信息。设立总库一个,语法信息库三个,包括名词库、动词库、形容词库,另外还设立了构词法库,旧 词库、外来词库、简略词库。总库和其他各库通过“词语、拼音、义项”三个字段联系起来,构成了一个具 有上下位关系的有机系统,便于信息的提取。这些库总共设立属性字段200多个,包括每个词语的语音信息、 语义信息、来源信息、构词法信息、句法信息和部分语用信息。本词典是目前国内收词量最大、描写信息最 多的一部新词语词典

参考文献: 1、亢世勇:《现代汉语新词语信息(电子)词典》的开发应用,《辞书研究》2001 年 1 期。 2、亢世勇:《现代汉语新词语信息(电子)词典》的结构,《信息网络时代中日韩语文现代化国际研讨会论文 集》,香港文化教育出版社,2000 年。 3、俞士汶、朱学锋等:《现代汉语语法信息词典详解》,清华大学出版社,19998 年 4 月。 4、亢世勇:语料库技术在新词语词典开发中的具体应用,《中国辞书论集 2000》,中国大百科全书出版社, 2001 年 10 月。 5、徐国庆:《现代汉语词汇系统论》,北京大学出版社,1999 年 4 月。 6、罗正坚《汉语词义引申导论》,南京大学出版社,1996; 7、刘一玲:寻求新的色彩,寻求新的风格——新词语产生的重要途径,《语言文字应用》1993 年第 1 期 8、于夏龙:从方言吸取营养——普通话新词语产生的途径,《语言文字应用》,1992年2期。 9、新词新语词典编纂的新收获,《语言文字应用》,1993 年 1 期。 10、整理汉语新词语的若干思考,《语言文字应用》,1993 年 3 期。 11、张志毅、张庆云:新时期新词语的趋势与选择,《语文建设》,1997 年 3 期。 12、姚汉铭:《新词语·社会·文化》上海辞书出版社,1999 年。 13、王铁昆:新词语的判定标准与新词新语词典编纂的原则,《语言文字应用》,1992 年 4 期。 14、亢世勇:《现代汉语新词语信息电子词典》在语言教学中的应用,《E-Leaning 与对外汉语教学》,清华大 学出版社,2002 年 6 月。 15、于根元主编:《网络语言概说》,中国经济出版社,2001 年。 《现代汉语新词语信息电子词典》的研究与实现 摘要:本文从四个方面介绍了我们正在开发中的《现代汉语新词语信息电子词典》:(1)现代汉语新词语的界 定,(2)新词语词典的开发思想,(3)新词语的采集与新词语属性信息的描述,(4)近四万新词语的归类实 践。我们认定的新词语是指 1978 年以来通过各种产生的、具有基本词汇没有的新形式、新意义或新用法的语 文词语。除了词形、词义或用法任何一个方面“新”外,还要求必须是人们日常生活中普遍、广泛使用的语 文词语,人名、地名以及专科术语都不属于我们所说的“新词语”。我们坚持开放的原则,尽量全面的采集收 录新词语,用人机两用的研究理念,以北京大学计算语言学研究所的《现代汉语语法信息词典》为模型打造 一部收词全面、信息丰富、资源高度共享的现代汉语新词语电子词典,为新词语的研究、中文信息处理的研 究提供一个宝贵的资源。目前已收录新词语近 4 万,首先我们按照现代汉语词类的“优势语法”功能,给这 四万新词语分类并归类,然后,利用成熟的关系数据库(在 ACCESS 环境下实现)详细地描述了每个词语的 属性信息。设立总库一个,语法信息库三个,包括名词库、动词库、形容词库,另外还设立了构词法库,旧 词库、外来词库、简略词库。总库和其他各库通过“词语、拼音、义项”三个字段联系起来,构成了一个具 有上下位关系的有机系统,便于信息的提取。这些库总共设立属性字段 200 多个,包括每个词语的语音信息、 语义信息、来源信息、构词法信息、句法信息和部分语用信息。本词典是目前国内收词量最大、描写信息最 多的一部新词语词典

已到末页,全文结束
刷新页面下载完整文档
VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
相关文档