openKylin论坛

 找回密码

常用及通用字的部件及基元(TR)   [复制链接]

常用及通用字的部件及基元

发表于 2007-8-21 14:16:43 |只看该作者 mfl1335 |倒序浏览

     常用及通用字的部件及基元


主旨

    相对于拼音文字而言,汉字可认为是拼形文字。拼形基元应是汉字最小的结构单位,亦可称为汉字字母,可自拆分汉字而得。
  汉字的主要缺点是字形结构过于复杂,若能找出一组精简的汉字基元,按照一个标准的笔序,就可较轻易的去组合繁、简通用字。
  在拆分实践过程中,去发现汉字的结构问题,建议优化一些字,是本文的另一目标。


1.0
  取样范围


无疑的,两岸现行规范字应为取样的首要对象。取样的范围有二:
1.
样本1.(rtc) 常用字:包括大陆规范(陆规)3,500个,台湾规范(台规)5,401个,两者并列为5,451组,分列为7,200字。此5,451个常用字,除包括台规全部常用字(5,401)外,实际上还包括了陆规次常用字1,575

2.
样本2.(ptc) 通用字:包括陆规7,000个,台规 5,401个,次常用1719两者并列为7,376组,分列为9,784字。其中还包括不在一方规范但在他方规范内的字,以及一对多262个繁体字。
笔者为求通用字的部件及基元,所要拆分的字,总共是 9,784个。



2.0
拆分原则

就现有多家部件理论及定义中,我比较同意费锦昌先生的说法。他认为部件是
现代汉字字形中具有独立组字能力的构字单位,它大于或等于笔画、小于或等于整字。
因此我的拆分原则只有一条:拆分后的部件,可否与他字匹配,作为独立的构字单位,如可就拆;否则就把它当作一个部件。匹配意为通用性,是指部件有较强的独立组字能力,可以参与两个以上不同结构的构字。通用性符合部件理论提出的意义,
可视为部件的重要特征。但是在具体运用该原则时,各种理论间存在一定分歧。因此
为实践拆分作业,避免拆分的任意性,须定出一些拆分规则。


拆分要避免任意把笔划断开,或重复使用同一笔划,这样才可保持汉字的属性(笔划
数目)于不变。拆分要按照笔序;对于互相交夹的部件,则要按起笔的先后为序;有
次序的拆分才会有利于汉字的学习。

拆分有二义性时,须衡量不同选项的权重大小,以大者为优先:

A. 就部件与部件间的界面言:离 > > (重迭,但笔划不交叉) > (重迭,但笔划相
   交)
B.
就拆分后的部件言:成字 > 部首 > 构件(可与他字匹配的部件)而就笔划言,多笔
   划>单笔划
C.
就有、无理据言:有字理 > 无理据

   拆分后的部件,可作为编码的参考。但为求汉字基元 (字母),不少部件须再行拆分。



3.0
拆分规则


1. 拆分后的部件不可全是单笔划,故2笔划的字不拆。
   通用字笔划为2 的字有:二十丁厂七卜八人入乂儿九匕几刁了乃刀力又乜,计21个均
   作为部件。

2. 部件相离、相接者可拆。
   例:[日月、乞[?、个[人丨、么[丿厶、勺[勹丶] 、亍[一丁]

   若笔划少的部首不拆时。其相当的繁体或变形部首亦不拆。
   例:()()、犬()()、食()、言()均不拆。

3.   拆开后的任一部件,如果不能作为他字的构件者,不拆。
   例: (非的左右部件只可与组字不分)

4. 相夹部件可拆,部件的次序,依起笔的先后而定。
   例:- [木人人,起笔为木;  [大人人,起笔为大;   [囗口]

5. 相交部件拆分的条件如次:
  A. 相交部件如能依笔序分解者可拆。例:
   禹-   [丿口禸]   

   - [ 丿]   
   - [廿口?] (?之竖笔延长之与口相交)

  B. 不照笔序分解,但有字理可依者,亦可拆,例:
- [大弓
       東- [木日]


6. 基本笔划(单笔划)的拆分
   A. 非相交的单笔划: 丿    可拆,如:
[一内、歹[一夕、正[一止 [非一、引[弓丨、矛[予丿、乏[丿之、失[丿

、釆[丿米、血[丿皿、主[丶王、良[丶艮、户[丶尸、尤[尢丶[
  …。

  但组字频率高的独体字或部首,其单笔划不拆出,例:
  王(不折为一土);其它如:戈 豕…(均不拆)

   B. 相交的单笔划则不拆,例:
  中、甲、申-- 单笔划 [] 与其它部件相交,不拆。

   C. 单笔划 [ ] 视同搭挂,不算相交,可拆,例如:
  刃[刀丶、丸[九丶、孓[]

[

[ 本帖最后由 mfl1335 于 2007-8-21 23:42 编辑
楼主
发表于 2013-4-29 19:42:42
回复

使用道具 举报

常用及通用字的部件及基元(TR)   [复制链接]

发表于 2007-8-21 23:26:19 |只看该作者 mfl1335


4.0  常用字部件表 (364)

拆分繁简常用字7,200个后所得的结果:繁、简体部件共 364个,平均码长3.48,其中繁体专用17个。
部件中包括:成字z=181  部首 b=52  构件 g=131   (本表部件內容因論譚無法全部顯示,請參見筆者網頁)  

5.0  通用字部件表 (366)

拆分了两岸通用规范字(ptc)9,784,共得繁、简部件366个,平均码长3.56,其中:成字z=182,部首b=52,构件,g=132。
表内英文大写字母为编码的类别,部件下方数字表静态的组字频率,例如 “大”在9,787个字中出现了402次。字频最高的为 “口” ,共2,310次,其次为”一”,计952,木785,土765,十670,日664,人602。只出现 1-2 次的低频部件共 9 个:成字的有书、事、凸、乜、丱、吏;不成字的有 巜  …。(本表部件內容因論譚無法全部顯示,請參見筆者網頁)  

6.0  常用、通用部件表的比较

  1. 出乎我的意料的,通用字(7,376组)比常用字(5,451组)的部件数目只多二个:一为次常用字 “乜”,一为罕见的”粼”的部件”巜” 。两部件表的其它部件(364个)完全相同。这表示汉字字量虽然增加,但组合汉字的组件却少有改变。这给我们一个启示:由通用字寻找一组精简的汉字基元是有代表性的。

  2. 汉字拆分时原则上取全息码,除少数字之外,均可在7个码元内取毕。依统计,常用字的平均码长为3.48,通用字码长为3.56。

  3. 少数超出7码的字包括:从”囊”的字(囔、攮、齉),从”毚”的字(讒/谗、巉、饞/馋、儳、镵);其它繁复字如 鬱/郁、籲/吁、鬮/阄、爨、懿、灩/滟、籪/簖、獮/狝、躊/踌、囈/呓…,这些字有的已经简化,有的尚待进一步研讨改善。


7.0 通用字基元
                                                               
从5.0节366个部件表中,摘取105个再行拆分(详下附表),拆分依下列条件:
    1. 拆时依笔序进行,所成的子部件(基元),至少须有2个为”部件表”中的现成部件,。
    2. 相交单笔划可拆。拆分的目的在减少基元的数量,部件如无法减量的便不拆分。
                  
   拆分结果:
    1. 原是一个部件的,拆分成多个子部件(基元),如:乍[? ],其中?为旧的, 为新增的。
    2. 新增基元共7个:  (毋母)、 (瓜 )、 (丘追)、 (乍假)、 (母舟)、 (虫禺)、 (巴 )
    3. 原有部件直接当作字母的共261个,即(366-105),加上新基元7个,故通用字基元为268个。

通用字基元(字母)表 (268个)
依笔划及 横(H)、直(I)、撇(P)、点(T)、弯(W)的顺序排列:(詳筆者網頁)

8.0 结语  

1. 本文中初步拟定的 268 个汉字基元草案,虽可涵盖繁简字约10,000个,但是否允当周密,有待大家讨论拟议,才能逐渐修订完妥。

2. 在拆分实践过程中,发现某些汉字,虽然繁复,但基元可依笔序,逐个书写。例如 “懿”,由壹、恣二字合成,其基元依序为:士冖一口  冫⺈人心,共9个,基元数目固然多,但各个基元独立,而且完全顺序,没有分解的困恼。

3. 另有一类汉字,它的字型结构则不同,各基元间互相穿插,且有字形变异的情况,拆分起来颇费周章,例如:”承”,从手,丞声;其部件原为[丞手],但二者穿插迭合,不便分析。又如“釁”(衅),它的基元为 臼冂一口冖酉八刀,其中字头部件”臼同”的界面是夹插关系,增加了复杂性;倘若依興(兴)的简化方式,把字头简为[兴]上 ,就可完全依笔序书写了。

4. 汉字拆分的目的之一是编码输入,另一个是有助于认字书写。如果固执于”交重不分”的原则,把汉字活生生的去头掐尾,例如把”重”拆成丿及”重省”,会使人觉得那”重省丿”的字符怪怪的。其实”交重”本是汉字造形的原创,例如夾就是”大人人”3元相夹,夾的简化字夹,就是 ”大   ” 2元相交。因此我主张交夹的字可拆,只是拆分时要照规定的顺序进行。

5. 部件依笔序拆分,既有助于写字教学,也有助于修正字形。例如繁体”龜”,拆分为 ⺈ …… 6个部件,是依”由中而侧、由左而右”的笔序进行的,各部件分列明显,书写时易于遵循。常見龜的字形把右侧部件” ”,与左侧部件”  ”连写,虽省了两笔,却使部件界限混淆不清,实宜予以改进。

6. 把完全依照笔序书写的基元,编以代码,例如前述”懿”9个基元编为SDHKCBQRX,化二维结构为一维排列,这样的”拼形文字”,在字型结构上言,是否可与ABCD…的拼音文字比美呢?倘若汉字能有统一的标准基元,组字时各个基元完全独立,并可依标准的笔序书写,(未达标准的加以优化。)而且拼形汉字又有 ”意象化” 及 ”组词灵活” 的优点;那末,我们有什么理由去搞拼音汉字呢。

筆者網頁:http://chinese.exponode.com/r4_4.htm




沙发
 楼主| 发表于 2013-4-29 19:43:46
回复

使用道具 举报

常用及通用字的部件及基元(TR)   [复制链接]

本帖最后由 centrish 于 2013-4-30 19:29 编辑

发表于 2007-8-22 12:48:43 |只看该作者 mfl1335


如果一个部件的构字率很低,例如只用于1-2个字,这些部件就值得我们来考量:是否须在字形上改进,或以他字取代。这儿并假定繁简体可以统合,并择优选用。

现在就常用字部件的统计来说,共有17个部件,其构字率在2 字以下:
  成字的:书(1)、事(1)、凸(1)、戉(1)、丱(關聯)、刁(刁叼)、乎(乎呼)、为(为伪)、吏(
  使)、疌(捷睫)、毋(1)
  不成字的:鼎、姊(1)、丝右上、临右下(1)

现在逐字讨论如次:



1,
书:简体表面上看来笔划少易认,却不易记忆,因为这个草书楷化的字,在常用字中是孤另另的一个。繁体由二个部件聿曰组成,部件含盖的常用字有:/津、肇、律、肄、肆、建////,共15字。部件与日相似,含盖的字更多。一般说来,部件使用频率大,学习的机会多,容易记忆。何况是会意字,符合字理:表笔,表说话,便是用笔来表述。如果繁简统合,我将取舍书。



2. 事:这个字可以再折分或改造。


3. (關聯)關聯可改用简体关联是罕用字


4. 其它各字:凸、戉、刁(刁叼)、乎(乎呼)、为(为伪)、吏(吏使)、疌(捷睫)、毋,保持现
  状。


5. :部件难写,可用[部件取代,以表示鼎的三足。而[部件含盖的常用字有流、硫、琉、梳、疏/蔬、毓、侃、荒//11字。


6. 取代,姊部件取消。


7. 右上旁的简化公式是:字头用纟,字尾用糸,故繁体 的简化应改为[


8. :采用简体


9. 右下:临右旁采用繁体的右旁,部件临右下这个独一的部件可取消。


10 用简体部件取消。


11:保持现状。

我利用分析部件的机会,作这个拟案的前提是:如果讨论繁简统合容许我在繁简之间择优选用,并容许某些不合理的字形作一些改进的时候,我将如何处理。虽然文字是约定俗成的产物,修订并不容易,但在今天面临繁简问题争论不休,而书同文又是我们的理想目标时,我们似应从现行规范字的收集与统计中,得到一些启示,从而引导出一条汉字的新出路!






板凳
 楼主| 发表于 2013-4-29 19:45:14
回复

使用道具 举报

常用及通用字的部件及基元(TR)   [复制链接]

发表于 2007-8-24 08:10:27 |只看该作者 mfl1335


    基本笔划作为部件之分析

1.0  基本笔划可作为部件

  基本笔划 [一丨丿丶乙] 可否当作汉字的部件,曾是个较有争论性的问题。

  依笔者对于海峡两岸常用字(5451)及通用字(7376)统计,不少基本笔划与原字脱离后,所余部件仍可成字,或可作部首,或可作匹配的构件(配件),因此个人认为基本笔划应可成为汉字的部件之一,例如:

  百[一白、天[一大、旦[日一、下[一卜,拆分后所余部件: 白、大、日、卜 都可成字。
  又如:互[、升[丿廾,拆分后所余部件、廾都可作部首或构件。


2.0  基本笔划作为部件的讨论

1.
如上述,基本笔划与主元分离后,有的成字,如:丙[一内、歹[一夕、正[一止、韭[非一、引[弓丨、矛[予丿、乏[丿之、失[丿夫、釆[丿米、血[丿皿、主[丶王、良[丶艮、户[丶尸、刃[刀丶、乓[、孓[、尺[、吊[弓丨、丸[九丶…。


有的可作为部首或构件,如:尤[尢丶、禹[丿口禸…。

设若这些字都不分解,汉字需要增加多少部件可想而知。而且这样的分析,有利于汉
字的学习认写,增进汉字字型结构的认识。


2. 以点为例来说明,用点作为独立部件,其主要功用有三。

A. 如前所述,减少汉字部件数目,例: =[勹丶],=[尢丶],
=[又丶],[
    艮]。
    拆分后所余的部件或成字(又、艮)或为部首(勹、尢),都是现成的;因而就不必

  再把勺、尤、叉、良当作部件了。

B. 有些点加在主部件之上,还有"指事"之义,例:刃(刀的刃)、永(水长流)、太
  (过大)

C. 有些点在简化字中代表繁体的偏旁如: ()。两点代表旁的[,应可

    予以分离。


3. 相交的单笔划可否拆开,颇有争议,值得讨论。从下述的字例来看:
  [弓丨、中[口丨、串[口口丨、甲[曰丨、申[曰丨、尹[丿、电[ ,如果

  容许把基本笔划拆开,就会减少 吊、中、串、甲、申、尹、电…部件。虽然如此,笔
  者仍认为以不拆为宜;这样的限制,可免基本笔划拆分的任意性。


4.
有一些基本笔划在组字中是冗余的,其实可以省略掉。省后不仅无碍于字形结构的完

   美,而且有利于认写及计算机编码输入,例如:

A. ""的右上角宜省一点作刃,的结构简为3 个现成的部件,即梁=[氵刃

B. 声符[ 中间的可省略,例:=[士冖车几又,计算机输入时可免与相似结构

    、彀…同码。

C.同理,声符中的亦可省略,以免微、、徽、…同码。(输入时通常取

   首3 码及末码)
   隆、睿中的笔划常漏写,不如将它省去,省后字形结构清楚:=[]

   睿=[卜冖八人目

  依说文,,丰大也,从生,降声;楷书作降省声。既是降省,为何要留个容

  易漏写的笔划

  睿,说文作,深明也,通也,从目,从谷省。因此保留谷省的构件 [八人]

  即可,部件中的应可省略。

  同理,上例中的 [][微省]各字,无论在字形结构上言,或在字理上言,都没

  保留笔划的必要。


5. 另一方面,就字形结构的分析言,基本笔划却只是主部件的附件,例:为左右

  型,左偏旁的主部件为"",首笔" "只是耳的附件,就结构分析言不宜分割。但作编
  码输入时,左偏旁应分为 、耳二个部件。否则便须增加一个新部件[ 。因此汉字
  作结构分析时,应引进部件组的观念,以括号[ ]涵盖之,例

  左右型: = [ ]攵?       = []      = [丿 ][一巾]
                      = [ ]

  上下型: = [][日一]    = [丿

  独体型: = [又丶]          = [非一]       = [丿皿]


3.0  任意性拆分的避免
把基本笔划拆分出来,固可减少汉字部件的总数;但任意性拆分会使部件规范漫无标
准,要使规范标准与部件减化之间取得平衡,就必须确立基本笔划可拆分的规则。

1. 拆分原则:基本笔划须依笔序与他元拆分,分后留下的部件(分元)必须成字,或可作

   为汉字的部首构件;且其中至少要有一个多笔划的部件。

  例:天[一大]   夭[丿大   太[大丶  朮[木丶]  ----成字
      [一廾]   []                      ----部首或配件

2. 与他元相交的基本笔划,不可拆分。但点[与捺[] 算作搭挂,可以拆分。

  例: [刀丶]   [ ]

3. 频率高的部首(<汉字统一部首草案>为准为201),其中的基本笔划,原则上不予

   分,此是对于基本笔划拆分的制约。

  例:不分为[丿]    “不分为[丿]
   “
不分为[]      不分为 [丿]


〔註〕上文中有些部件顯示不出來,請參見我的網頁:


   http://chinese.exponode.com/4_2.htm




地板
 楼主| 发表于 2013-4-30 19:31:23
回复

使用道具 举报

常用及通用字的部件及基元(TR)   [复制链接]

发表于 2007-8-31 11:57:54 |只看该作者 mfl1335


通用字7376組(繁簡) ,9784字(繁簡分列),各碼字數如下:
1碼   175
2碼 1487
3碼 3410
4碼 2818
5碼 1287
6碼   459
7碼   116
7+      32

常用字5451組(繁簡) ,7200字(繁簡分列),各碼字數如下:
1碼   167
2碼 1226
3碼 2533
4碼 1995
5碼   884
6碼   305
7碼    69
7+     21

在通用字(繁简分列)9784中超过7码的字共32个,全部列之如次表:
a.  表中在字前的数目字表示所需完成拆分的码数
b.  在 “----“ 之后,是我建议解决超码字的方式

   超码字表(32个):

8毚、9纔、9攙(搀)、9巉、9讒(谗)、9饞(馋)、9儳、9鑱--- 建议类推简化

8斷(断)、9籪 --- 用简体”断”

8邇(迩)、8彌(弥)、8獼 --- 建议”爾”用简体”尔”

8艷(艳)、9豔、10灩 --- 建议偏旁”豐”简化作”丰”

8藝(艺)、9囈(呓) ---- 用简体

8囔、8攮、8馕、10齉 ---- 建议声符囊简化作 [十口]上下交叉

8鞽(鞒)、10鬮(阄)、8鸝(鹂)、8躊(踌)、8竊(窃)、10鬱(郁)、9籲 (吁) ----
   用简体

9爨、9懿、8壑 ---- 待简化



我想作过汉字拆分编码的人,都有这样的困惑:汉字究竟要拆分多细?拆分粗,码长小,但码数变多。反之,拆分细,码数缩小,但码长增加。以下我举一例题,来说明我的做法,未知是否适当,是否有更好的方法,请大家讨论指正

例题:部首要不要拆分?

由于汉字结复杂多样,某字是否要拆分,须全面权衡拆分前后的得失,方可决定。例如它是个部首,起初我不想拆开,最终我还是把它拆为[⺁、
],其原因是:



1.
[]而言,除用于从斤、斥等字作部件之外,还用于从反、盾、后、派、卮、褫等字上,也就是说即使不拆开,[]这个部件还是要有。



2.
[
]这个部件言,除用于从斤、斥的字之外,还用于繁体(字首)…,也就是说即使斤不拆开,[]这个部件还是要有。



3.
既然[][]这两部件需要存在,把一分为二,正可省下这个部件。


4.
由统计在通用字(繁简分列)9784中,这两个部件的构字频率[]114字,[]107字。




5#
 楼主| 发表于 2013-4-30 19:34:45
回复

使用道具 举报

常用及通用字的部件及基元(TR)   [复制链接]

发表于 2007-9-2 21:03:31 |只看该作者 谢振斌


原帖由 mfl1335 于 2007-8-31 11:57 发表
我想作过汉字拆分编码的人,都有这样的困惑:汉字究竟要拆分多细?拆分粗,码长小,但码数变多。反之,拆分细,码数缩小,但码长增加。以下我举一例题,来说明我的做法,未知是否适当,是否有更好的方法,请大家 ...



关于“斤”的问题。我认为不应该拆分,如果纯粹为了减少基元数量而把一些部件拆解和兼并,只能打乱原本追求的拆分理据性和科学性。

我认为“部件”有别于“构件”,是它必须是负载有一定的含义,虽然个别部件由于不断演变,其含义渐渐模糊或者脱落,沦落为纯粹的“形件”,但这不代表它已经失去了“灵魂”,失去了含义。这好比简化字中有许多“符号字”,其中的符号部件只是充当一个记号而已,无法追溯字源,甚至无字理可谈。但事实上它们依然是表义的。

构件:构成汉字的零件。最底层的是笔画,是构成一切汉字字形的基础零件。上层的是部件,是
形成汉字特征的零部件,也是六书造字的基本构件来源,是形成汉字形体特征和规律的
内在信息单元。

部件:组成“字”的一些具有固定和稳定形体和含义的字块(笔画组合)。也就是古代所说的“文”。

基础部件(基元):是汉字基于部件分解的最小可分解单位。它不能再被分解为更小的部件。

部件拆分和笔画拆分或构件的主要区别在于,部件是“表义”层面的拆分,构件是“表形”层面的拆分。

单笔画部件是一种特殊的部件。除了笔画数为一以外,具备部件的所有属性。

它和笔画是不同的概念。

部件是表义的,笔画只是表形,不表义。

比如:一(yi)和一(heng2横), 一个表义,一个不表义。
旦:下面一横,代表地平线。
灭:上面一横,代表灭火的东西。

部件是有一个或多个笔画组成的,具有一定组字能力和含义的笔画组合。

基础部件(基元)是最小的部件,它不能再被分解为更小部件。




6#
 楼主| 发表于 2013-4-30 19:35:59
回复

使用道具 举报

常用及通用字的部件及基元(TR)   [复制链接]

发表于 2007-9-3 14:22:56 |只看该作者 mfl1335


quote:#10 謝兄:"我认为“部件”有别于“构件”,是它必须是负载有一定的含义…"   

原則上我同意謝兄的觀點,也許我在文內所述的"部件"應以'構件"稱之。

我之所以在拆分時,以字形為主,只在拆分有二義性才把理據(含義)當作優先選項之一。其原因是若以理據為主,則拆分實無法澈底,也無法求得最小的結構單位(基元或中文字母)。

我確實把漢字當作"拼形文字",希望在7000多個通用字範圍內,求得不多於300個的基元,以及一個標準的筆序,這樣或可澈底解決漢字的排序問題(化二維為一維)。

請參見本主題#1 "拆分原則"。我勉勵我自己在實踐中尋求答案。以證實我的想法是否可行。

當然謝兄提出的觀念性的基本問題,值得大家多多討論。




7#
 楼主| 发表于 2013-4-30 19:36:42
回复

使用道具 举报

常用及通用字的部件及基元(TR)   [复制链接]

发表于 2007-9-3 22:40:49 |只看该作者 谢振斌


原帖由 mfl1335 于 2007-9-3 14:22 发表
quote:#10 謝兄:"我认为“部件”有别于“构件”,是它必须是负载有一定的含义…"   

原則上我同意謝兄的觀點,也許我在文內所述的"部件"應以'構件"稱之。

我之所以在拆分時,以字形為主,只在拆分有二 ...



由于一些术语目前没有一个权威的公认的定义,所以也给大家沟通和探讨带来麻烦。
不能说你的“部件”定义是错的,只能说我们两个对部件的界定存在差别。

我很明白你希望达成的目标,我们所追求的目标各自存在一定的有缺点:
(1)以“义”为基础制定出的基元,对传承传统文化有利,但可能遇到一些边界不够明确的问题,需要借助更多的统计数据人为界定。
(2)以“形”为基础制定出的基元,可能会失去一些汉字内在的字理和文化内涵。由于拆分更加细致,它可能会合并和减少一些基元的数量,这样也更容易和26个字母进行匹配。

当然从实用角度说,也许简单易操作是主要的目标,这是我们都要努力达到的。




8#
 楼主| 发表于 2013-4-30 19:37:32
回复

使用道具 举报

常用及通用字的部件及基元(TR)   [复制链接]

发表于 2007-9-5 09:47:23 |只看该作者 mfl1335


据形拆分还是据义拆分的讨论

现在进一步说明,为求汉字结构的最小单位(基元),据义拆分的主要困难有二:
1.
大都需要根据隶变前的古字体:甲骨、金文、篆文…。而我们要拆分的是楷书。

2.
据义拆分,大都难以求得字形结构的最小单位。


台湾文字学者赵友培曾作过广泛而深入的字形研究,曾于1980年代出版<国字基本结构研究>,寻求汉字的字根,可算是据义分析汉字结构的创意之作。全书共25章,并依先民生活活动,衣、食、住、行分作11大类,共得400多个字根。他的基本结构分析大都依据古字体,例如 ---

- 本义:白色。
    结构:文从日而上端尖锐,表示太阳将出来,微露曙光。
    声系:伯、拍、怕、泊()、帕、珀、柏、粕、舶、迫、帛、碧、魄…百(佰陌)

- 本义:天黑了。

    结构:从日六(
文,六是入的异体)日入所以天黑。(mi4)是声符,后又加日
         旁作暝。
    声系:溟、幎、瞑、蓂…。


- 本义:乌鸦

    结构:文象其侧立头有冠毛之形,文与鸟同形而不见睛,声化为雅,又作鸦
          字。
    声系:淤、瘀、烟、阏…。


- 本义:从高处往下走
    结构:文象两脚下抵山级之形,文省作
         声系:洚、绛、隆(窿、癃)…。

由以上随机举出的例子可知,这些所谓字根,不一定都是字形结构的最小单位(基元)。据义言,它们是最小单位,而据形言它们有的是基元();有的不是,如冥、仍可拆分,才可求得基元。




9#
 楼主| 发表于 2013-4-30 19:40:25
回复

使用道具 举报

常用及通用字的部件及基元(TR)   [复制链接]

本帖最后由 centrish 于 2013-4-30 19:46 编辑

发表于 2007-9-5 12:21:04 |只看该作者 xml00


关于3.0拆分规则的讨论

一、三个层次
(一)、核心规则(离接可拆)
其核心规则是2.部件相离、相接者可拆(离接可拆),其主要出发点是“直观性”和“可操作性”,也是大家目前能够接受的规则。其他的规则都是围绕这个核心展开的。
(二)、不可拆规则(要害问题)
但并非所有的相离、相接者均可拆,它有许多的制约规则作为前提:
①二笔划的字不拆(二笔不拆),否则的话,就全部拆为单笔画了。这一条不具涵盖性,3或4笔画的拆不拆?如“氵灬”等。故有下面的规则作补充。
②高频成字或部首,其单笔画不拆(高频不拆),如“王牛白方禾”等。(限定在部首范围内)。
③无组字能力者不拆,如“非”字。
④相交单笔画不拆,如“中申甲”等。
⑤简单部首对应的繁体不拆:馬(马)、門(门)、犬(犭)、糸(纟)、食(饣)、言(讠)。
(三)、可拆规则(次要问题)
有了上述的前提,楼主给出了另一些可拆的情况:
①相夹部件可拆
②部分相交部件可拆
③非相交单笔画可拆
④与点捺搭挂者可拆
这里的“部件”是从大量的“相离、相接”拆分实践中得到的,是这几种特殊情况拆分的基础。以“夷”字为例,在大量的“离接可拆”实践中,我们已经知道“大”和“弓”都是部件,那么,“夷”字拆为“大弓”也没有什么困难。所谓“交重”,往往就是一些我们熟悉的部件,相交、相夹、叠加、嵌套的结果。

总而言之,“离接可拆”是第一层次,是核心问题;“离接不可拆”的限制条件是第二层次,目前争议较大,是真正的要害问题;几种特殊的可拆情况是第三层次,虽有争议,但在实际操作中的难度并不比我们想象的那么大,当属次要问题。
二、不可拆问题分析
我们不妨来看看在什么情况下不可拆这个要害问题。按照潘德孚先生的观点,部件有两个基本属性:可分离性、独立性。所谓独立性,就是部件拆分到此为止,再继续拆下去就乱套了。楼主提出的“二笔不拆”的规则,虽不具有涵盖性,但直观明了,在拆分实践中很容易操作。因此是一条很好的规则。它确定了21个部件的独立性:二十丁厂七卜八人入乂儿九匕几刁了乃刀力又乜。
相对而言,楼主所提出的“高频不拆,限定在部首范围内”的规则,是不直观的不容易操作的,算不上一条好的规则。在拆分过程中去查阅部首表和频度数据,多麻烦啊。
这里引用潘德孚先生的一段话:
然而,相对独立的概念,还是模糊的。这是指它的笔画结构块和基本笔画。陈爱文先生说:“部件是一个‘笔画结构块’(徐注:相对独立的笔画结构块),那么它应该有两个以上笔画,而且应该形成‘块状’。”“一、相交叉的笔画是一个结构块。二、相粘连的笔画,一般属于一个结构块。三、布局匀称的相分离的笔画是一个结构块(徐注:例如“氵”)。四、封闭框内部的笔画如果跟外框是粘连的,则合起来算一个结构块(徐注:日、月、用等)。框内的点笔一般附属于外框。五、单独的点笔一般附属于它附近的结构块。”
潘先生认为:氵属于相离型笔画结构块,由三笔组成;他们布局匀称,在组字时又是相对聚合的。例如“泳”字,氵与右边的“永”字之间有明显的分隔沟。因此是不可再分的,是一个独立的形体。
同理,“用”字中的“奉字底”和外框粘连,故也是一个独立的部件,不能再拆分成“用字框”+“奉字底”,这和“月”字不能再拆分的道理是一样的。部件表中多了一个“用”字并不是大问题,我们需要的是拆分规则的直观性和可操作性。

发表于 2007-9-6 11:40:07 |只看该作者


原帖由 mfl1335 于 2007-9-5 09:47 发表
据形拆分还是据义拆分的讨论

现在进一步说明,为求汉字结构的最小单位(基元),据义拆分的主要困难有二:
1.
大都需要根据隶变前的古字体:甲骨、金文、篆文…。而我们要拆分的是楷书。
2.
据义拆分,大都 ...


最近看过一些部件研究的资料,主要有沈克成父子的著作、潘德孚先生的著作、谢振斌先生的帖子,还有部件规范等。楼主的观点是刚看到,和潘德孚先生的观点相近。我比较倾向于楼主的观点。
部件规范主要服务于汉字拆分,规范在这方面做得是不够好的。我感觉制定部件规范的专家们在研究方向上可能出了偏差。首先应该将复杂的问题简单化,从最简单的问题入手。就像潘德孚先生所说,应该抛掉“义”的束缚。
楼主所制定的部件表共有366个部件,潘先生的表有372 个。末级部件大概也就这个数了。
基元是最小的部件单位——这是楼主的新提法。这对于部件包容现象的研究是有意义的。




10#
 楼主| 发表于 2013-4-30 19:41:30
回复

使用道具 举报

openKylin

GMT+8, 2024-5-20 20:48 , Processed in 0.058703 second(s), 17 queries , Gzip On.

Copyright ©2022 openKylin. All Rights Reserved .

ICP No. 15002470-12 Tianjin

快速回复 返回顶部 返回列表