设为首页加入收藏
全站搜索
module file (../../search/module/SearchForm.php) not exist
当前日期时间
页内搜索
语料整理的规范和注意事项
作者:管理员    发布于:2016-02-01 11:35:34    文字:【】【】【
中国语言资源保护与研究中心于2015年10月10日在北京举办“中国语言资源保护工程语料整理培训班”,现将刘晓海、王莉宁老师的讲课要点加以整理,供大家在语料整理工作时参考。
一.主讲人:刘晓海
    正确归档的重要性:如果归档不合规范将无法进入国家数据库。
    1.关于“一个调查条目为一个独立的文件”
   (1)一个调查条目有多个说法,这几种说法都要录在一个文件里,不能分成不同的文件。
   (2)一个调查条目时长较长时,例如讲述部分,不管分几次摄录最后都要合成一个文件。
    2.需要显示所提交各类型的文件扩展名(方法:组织→文件夹和搜索选项→查看→消除隐藏已知文件类型的扩展名)
    3.每个音频视频文件前后至少有1秒的空白。
    4.建议采用摄像机配套光盘中的专用软件进行剪辑,请勿跨摄像机品牌使用使用剪辑软件。
    5.一定要保证录音文件与录像文件同步一致(包括剪辑),每个文件开头和结尾音频和视频的剪辑不要求完全一致,但当一个调查条目有多个说法或时长较长,这些说法中间一旦出现需要剪辑的地方,要求同一个文件内部音频和视频的剪辑要求完全一致。
    6.音频文件名和视频文件名必须保持一致(除了文件扩展名例如wav和m2ts不同之外),需要手动命名的请参照录音文件夹中每个调查条目的文件名(例如:话语讲述部分的音频命名“0001当地情况.wav”,相应的视频文件命名为“0001当地情况. m2ts”)
    7.关于文件命名方法可以参照网上的“关于批量修改文件命的办法”,但建议慎用。除非已经把文件原始名同需要的新文件命完全对应起来,否则一条出错会使得其后的文件命均出错。
    8. 清华大学开发的验收软件可以自动检查归档是否正确,预期在预验收前投入使用。
 
     二.主讲人:王莉宁
    总原则是要有规范意识:四“不要”二“要”
    不要改变模板表文件夹结构
    不要改变模板表的文件名(包括字表)
    不要改变模板表的格式
    不要自造模板表
    要参看各模板表的说明和样例
    要注意模板表与音频、视频三者的一致
  (验收时会抽查,如不一致律超过一定比例就打回头要求重新处理)
     1.关于誊抄
    总的原则是能不誊抄就不誊抄。实在需要誊抄请注意:
  (1)一个点存一本,所以即便是不同的人誊抄同一个点的材料,也需要誊抄在同一本上。
  (2)田野调查时的原始备注内容也一并誊抄到相应的位置。
    2.模板表中是“(无)”的文件在录音和视频文件夹中可以不存在。但如果录音是连续录下来的,录音文件夹中就会有一个没有任何声音的文件存在,这时为了使视频文件夹与音频文件夹一致,就抓拍一个发音人不说话的视频文件放到相应的位置。
    3.如果对视频文件做过剪辑合成或者其他处理,可能会出现处理后的文件格式跟原文件格式不一致也没关系,只要不是受众很小很偏的文件格式就可以(视频更注重的是分辨率是否是高清)。
    4.凡是需要写“(无)”的地方一律不能空(纸本调查表上口头文化发音人如果不足7个,那在第一个不存在的口头文化发音人后面写“(无)”即可,可是在模板表中则需要把其他不存在的口头文化发音人所有材料都填上“(无)”;如果口头文化某一块内容不足,比如歌谣有20条,而我们实际只录了10条,那就要在模板表中歌谣部分后10条位置上均写上“(无)”。)
    5.音系字表中的声母、韵母、声调调查手册和模板表的填写顺序请参照北大《方音字汇》。例如声母部分(1、2等数字代表填写的先后顺序):
 
 
    6.音系说明没有的部分一律写“(无)”,不足10条的就空着,不要删除原文件的条目。单字音“(无)”只要写在“音1声”栏目下即可。
    7.不要留有空格或其他附加符号,音标部分的标点符号与汉字部分的标点一致。
    8.“讲述部分”普通话梗概几句话即可,但如果所说的内容多、丰富建议多写几句梗概。
    9.口头文化发音人特殊条件下可以突破城关口音(例如城关找不到合适的而相近的乡镇又有非常好的发音人),但前提是彼此语音差别很小,也可适当突破年龄限制。
    10.口头文化部分如果自选条目无,那就需要把需要转写的时长匀到前面其他条目上。
    11.关于口头文化分句转写问题
太长的句子一行写不下,可以考虑强制分句,即将原本可能是逗号的地方改成分号,这样可能就可以保证一句为一行了。
    12.关于标记文件的起止时间问题
    以录音文件的起止时间为准。两句话中间存在的停顿时间究竟是归前半段还是后半段要保证处理原则的一致性,一般两句话中间停顿的时间短,那就把停顿时间算作下句话的起止时间;如果停顿时间较长,就一半归前句,一半归后句。
    13.说唱片段在声调意义不大时(可能跟单字音的声调不一致),就可以不记声调,但要求无声调的音节与音节之间空一格以示隔断。
    14.用字代码表要注意与模板表保持一致,最后校对时要通过用字代码表反查模板表。
    15.转写校对记录表中转写人至少与校对人之一不一致,其中二校由调查团队负责人负责。
    16.要求转写口头文化总时长不少于五分钟,那多出来的口头文化部分已经录音录像了,如果不打算转写五分钟之外的部分,那在模板表和录音用表中就写出不转写的每个条目的第一句话(方言说法)。
脚注信息

版权所有:福建省语言文字培训测试教育网     闽ICP备09076568号    
咨询电话:(0591)87812256    电子信箱:fjsywb@sina.cn    地址:福州市鼓屏路162号    邮政编码:350003
技术支持:福建福州联合科技有限公司