学科分类
/ 1
17 个结果
  • 简介:1.言语统计是中文信息处理的一个重要组成部分:进行言语统计,目的在于根据量的描述给出质的评价,即依靠定量分析得出定性分析。统计结果一般是做出各种频度表,供各个不同专业的人员使用。近年来,利用电子计算机进行言语统计工作,既快又准,统计量不受限制,而且能提供多种参数,因而促进了统计语言学的大发展。

  • 标签: 统计语言学 中文信息处理 出质 词频统计 出现次数 静态数据
  • 简介:随着大规模语料的建设及计算机性能的提高,在语言学界已经形成这样一种共识,即仅靠语言学家的内省和自己的造句不能够充分解释语言现象.另外,随着国际互联网的普及,如何充分、及时、准确地获取我们所需要的语言信息,是语言计算机处理领域重要研究课题.正因为上述原因,通过对语料的观察来把握语言的实际使用情况的经验主义研究方法又重新得到了重视,产生了语料语言学.本文就日语研究需要什么样的语料,怎样利用语料所进行的日语研究进行了论述.

  • 标签: 语料库 日语 计算机 固定搭配 词汇
  • 简介:近些年来,语料规模的不断扩大和与之配套的检索技术的日益完善,极大地方便了各项语言研究工作的开展。传统的辞书编纂工作因此也注入了新的活力,发生了一些革命性变化。辞书编纂的诸多方面,包括选词、配例、释义、义项排列等均能从语料提供的数据中获得帮助。本文在概述国外语料发展基本情况的基础上,重点讨论由语料统计出的词频信息及其他一些特点,介绍了从语料中检索固定搭配和利用语料统计信息排列义项的方法,并简析了口语语料在释义中的作用。

  • 标签: 语料库规模 辞书编纂 义项 词典编纂 口语语料 释义
  • 简介:香港的语料和相关研究概况[香港]胡百华李行德汤志祥从60年代开始,欧美各地的语文工作者次第建立规模不同、目的迥异的语料;但语料得到一般人的注意,可能是英国伯明翰(Birmingham)大学和柯林斯(Colins)出版公司在80年代末联合出版了多...

  • 标签: 语料库 研究概况 香港理工大学 香港中文大学 现代汉语 汉语自动分词
  • 简介:写作需要建立富足的材料仓库。著名作家秦牧就曾提出每个写作者都要建立起自己的材料仓库,他说这种材料仓库应有三个:一是直接材料仓库,二是间接材料仓库,三是人民语言的仓库。但传统写作其材料仓库的建立全靠手抄笔录,极费时费力,例如姚雪垠写《李自成》,他从青年时代就

  • 标签: 电脑写作 材料库 叙述方式 网络信息资源
  • 简介:传统的语言文字学与计算机技术的结合,也成为汉语教学的必然趋势.语言学家编著的各类词典和字典,凝集了语言文字学的精华,为汉语教学提供了丰富的素材.传统典籍的丰富内容为计算机技术的应用提供了广阔的发展空间;而先进的计算机技术又为传统典籍的整理、研究和知识获取提供了科学的手段.这种相辅相成的关系促进了汉语电化教学研究和应用的迅速发展.

  • 标签: 汉语教学 现代汉语 语言文字学 字义 词典 字典
  • 简介:本文论及的现代汉语颜色词属性可视为汉语词库建设中的分支工程。现代汉语颜色词的特殊性,使现代汉语颜色词属性的建设面临了许多难题,这些难题同时也为颜色词属性的拟构提供了路径。文中以《现代汉语词典》中的颜色词为例,对现代汉语颜色词中的一部分静态成员进行了尝试性的属性标记,并对相关颜色词素的构词能力进行了降频统计。试图在信息工程的大背景下借此研究管窥汉语符号系统对客观世界的表记功能

  • 标签: 现代汉语 颜色词属性库 汉语符号系统 表记功能
  • 简介:本文以编译型数据系统开发工具CLIPPER为例,全面介绍在数据系统中,如何使用FOXGRAPH生成数学统计图形的具体方法。

  • 标签: CLAPPER FOXGRAPH
  • 简介:詹姆斯·弗尼莫尔·珀(J.F.Cooper,1789——1851)在历史和文学方面的成就是惊人的。他是美国第一个创作了乌托邦式小说、历史传奇、社会小说、边疆小说和航海小说的伟大作家。他的创作推动了美国浪漫主义文学

  • 标签: 尼莫尔 库珀 乌托邦式 朱迪思 印第安民族 妇女形象
  • 简介:<正>基本词汇是相对于某种语言的一般词汇而言的,它是构成语言词汇的核心。基本词汇是由基本词组成的集合,基本词是基本词汇集合的元素。基本词汇使用范围广,出现频率高,构词能力强,因此,基本词汇的研究和规范,对于整个语言词汇的研究和规范至关重要。现代汉民族共同语是以北京语音为标准音、以北方话为基础方言,以典范的现代白话文著作为语法规范的普通话。普通话基本词汇是在北方话基本词汇的基础上,吸收其它方言的词汇形成的。普通话词汇的规范工作,首先需要对北方话基本词汇进行全面、系统的调查研究,以便提供词汇规范的依据。

  • 标签: 基本词汇 北方话 太阳 普通话 汉语方言 首字母
  • 简介:本文试图在较大规模语料的基础上对离合词的使用情况展开初步的定量分析.首先,通过对有限文本之内423个离合词离、合情况的考察,对常用离合词的离、合频度进行了定量统计和数据分析,并尝试性地确立了汉语普通话中典型离合词数量.其次,在语料标注和统计的基础上就现代汉语离合词几种主要的离散形式进行分析,在给出了各种形式的常用词表之后,文章着重考察了实词类插入形式的词类序列、常见句法成分类型以及离合词中插入助词"了"、"过"、"着"等现象,提出了一些有待进一步探讨的语法现象.

  • 标签: 离合词 语料库 定量分析 离散频度
  • 简介:基于自建的容量为32.5万字的英、汉语通俗歌曲歌词平行生语料,对比统计英汉两种语言人称代词的使用频率,发现歌词语篇中第一、二人称代词占绝对优势,指称主要依靠文外照应。

  • 标签: 歌词 语篇 语料库 人称代词 指称
  • 简介:(中国大百科全书)第二版的出版是一个复杂艰巨的大型工程,许多方面都需要计算机技术的支持,如资料查检,文本编辑,索引编制,名词统一等,实现编辑工作计算机化已成为编纂好这部恢宏巨著的重要手段。“百科全书信息管理数据”的作用,是在百科全书编纂过程中,帮助编辑人员建立原始资料卡片或制作容纳整部百科全书要素的信息,并可以对中内容进行编辑加工及协助处理编务事项等。该数据的特点是以管理为主,兼顾文字编辑。本文介绍了“百科全书信息管理数据”的设计目的、设计方法、功能和使用等。

  • 标签: 百科全书 信息管理 数据库 设计方法 管理工具 功能设计
  • 简介:设立在台北的台湾汉学中心,多年来致力于对海外汉学的推介,近年来通过联络,建立了“典藏国际汉学博士论文摘要数据”。这个数据以台湾汉学中心典藏的海外汉学博士论文为主,收藏的国家包括美国、加拿大、英国、荷兰等,至今总计有9,667余种,皆为海外各大学从事汉学研究的博士论文,资源相当完备。为了方便读者,该数据提供论文题目、论文作者、毕业学校、学位名称、

  • 标签: 汉学 学术文献资料 检索方法 计算机网络
  • 简介:北大图书馆藏宋楼论撰《攻媿集》120卷,是宋刻孤本。此书自宋代刻版以后从未再刻。本文将宋本及今世所传的文渊阁《四》本、据《四》排印的武英殿聚珍本以及据武英殿本影印的《四部鼗刊》本,做了认真的比较。由于乾隆修《四》时并未见到宋本,而是用了一个“两淮监政采进”的手抄本,《四》本不仅改变了原有的卷次,重编为112卷,且又对全书造行了篡改增删,失去原有面貌。比较发现:文渊阁本比宋本少300多篇文字;宋本校勘精细,很少错误,而文渊阁本错误很多。同时发现:一是聚珍本比文渊阁本要好,二是文渊阁本比宋本还有一些多出的文字,其原因及多出文字的来源有待探讨。本文利用了《纂修四全书档案》中的有关资料。

  • 标签: 聚珍本 武英殿 宋本 文渊阁本 书本 图书馆藏
  • 简介:《四全书总目》这部乾隆(1735-1796年在位)时期给人印象深刻的皇家藏书目录,初版本於1781年呈现给乾隆皇帝,无疑是中华帝国晚期最杰出的目录学成就。②然而,尽管当代读者仍能从目录学家的注解中获得有益的见识,但对这部皇家授权的私人藏书集成的审查实效的估价,则仍有进一步讨论的余地.

  • 标签: 《论语义疏》 《四库全书》 经典注释 《四库全书总目》 皇侃 异同