常用及通用字的部件及基元(TR)

centrish · 发表于 2013-4-29 19:42:42

常用及通用字的部件及基元

发表于 2007-8-21 14:16:43 |只看该作者 mfl1335 |倒序浏览

   常用及通用字的部件及基元

主旨：

相对于拼音文字而言，汉字可认为是拼形文字。拼形基元应是汉字最小的结构单位，亦可称为汉字字母，可自拆分汉字而得。
  汉字的主要缺点是字形结构过于复杂，若能找出一组精简的汉字基元，按照一个标准的笔序，就可较轻易的去组合繁、简通用字。
  在拆分实践过程中，去发现汉字的结构问题，建议优化一些字，是本文的另一目标。

1.0
  取样范围

无疑的，两岸现行规范字应为取样的首要对象。取样的范围有二：
1.
样本1.(rtc) 常用字：包括大陆规范(陆规)3,500个，台湾规范(台规)5,401个，两者并列为5,451组，分列为7,200字。此5,451个常用字，除包括台规全部常用字(5,401)外，实际上还包括了陆规次常用字1,575个。
2.
样本2.(ptc) 通用字：包括陆规7,000个，台规 5,401个，次常用1719个，两者并列为7,376组，分列为9,784字。其中还包括不在一方规范但在他方规范内的字，以及”一对多”的262个繁体字。笔者为求通用字的部件及基元，所要拆分的字，总共是 9,784个。

2.0
拆分原则

就现有多家部件理论及定义中，我比较同意费锦昌先生的说法。他认为部件是
“现代汉字字形中具有独立组字能力的构字单位，它大于或等于笔画、小于或等于整字。”
因此我的拆分原则只有一条：拆分后的部件，可否与他字”匹配”，作为独立的构字单位，如可就拆；否则就把它当作一个部件。”匹配”意为通用性，是指部件有较强的独立组字能力，可以参与两个以上不同结构的构字。通用性符合部件理论提出的意义,
可视为部件的重要特征。但是在具体运用该原则时，各种理论间存在一定分歧。因此为实践拆分作业，避免拆分的任意性，须定出一些拆分规则。

拆分要避免任意把笔划断开，或重复使用同一笔划，这样才可保持汉字的属性(笔划
数目)于不变。拆分要按照笔序；对于互相交夹的部件，则要按起笔的先后为序；有
次序的拆分才会有利于汉字的学习。

拆分有二义性时，须衡量不同选项的权重大小，以大者为优先：

A. 就部件与部件间的界面言：离 > 接 > 夹(重迭,但笔划不交叉) > 交(重迭,但笔划相
交)
B. 就拆分后的部件言：成字 > 部首 > 构件(可与他字匹配的部件)；而就笔划言，多笔
划>单笔划
C. 就有、无理据言：有字理 > 无理据

拆分后的部件，可作为编码的参考。但为求汉字基元 (字母)，不少部件须再行拆分。

3.0
拆分规则

1. 拆分后的部件不可全是单笔划，故2笔划的字不拆。
通用字笔划为2 的字有：二十丁厂七卜八人入乂儿九匕几刁了乃刀力又乜，计21个均
作为部件。

2. 部件相离、相接者可拆。
例:明[日月、乞[?乙、个[人丨、么[丿厶、勺[勹丶] 、亍[一丁]

若笔划少的部首不拆时。其相当的繁体或变形部首亦不拆。
例：馬(马)、門(门)、犬(犭)、糸(纟)、食(饣)、言(讠)均不拆。

3. 拆开后的任一部件，如果不能作为他字的构件者，不拆。
例：非 (非的左右部件只可与”非”组字，”非”不分)

4. 相夹部件可拆，部件的次序，依起笔的先后而定。
例:來- [木人人，起笔为木；  夾[大人人，起笔为大；回[囗口]

5. 相交部件拆分的条件如次：
  A. 相交部件如能依笔序分解者可拆。例:
禹- [丿口禸]
弗- [弓丿丨]
堇- [廿口?] (?之竖笔延长之与口相交)

  B. 不照笔序分解，但有字理可依者，亦可拆，例：
 夷- [大弓
   東- [木日]

6. 基本笔划(单笔划)的拆分
A. 非相交的单笔划：”一丨丿丶ㄟ  乙” 可拆，如：
丙[一内、歹[一夕、正[一止、韭[非一、引[弓丨、矛[予丿、乏[丿之、失[丿
夫、釆[丿米、血[丿皿、主[丶王、良[丶艮、户[丶尸、尤[尢丶、乓[丘ㄟ
  …。

  但组字频率高的独体字或部首，其单笔划不拆出，例：
  王(不折为一土)；其它如：戈牛气方禾白自豕…(均不拆)

B. 相交的单笔划则不拆，例：
  中、甲、申-- 单笔划 [丨] 与其它部件相交，不拆。

C. 单笔划 [丶ㄟ] 视同搭挂，不算相交，可拆，例如：
  刃[刀丶、丸[九丶、孓[了ㄟ]

[

[ 本帖最后由 mfl1335 于 2007-8-21 23:42 编辑

centrish · 发表于 2013-4-29 19:43:46

发表于 2007-8-21 23:26:19 |只看该作者 mfl1335

4.0  常用字部件表 (364)

拆分繁简常用字7,200个后所得的结果：繁、简体部件共 364个，平均码长3.48，其中繁体专用17个。
部件中包括：成字z=181  部首 b=52  构件 g=131 (本表部件內容因論譚無法全部顯示，請參見筆者網頁)

5.0  通用字部件表 (366)

拆分了两岸通用规范字(ptc)9,784，共得繁、简部件366个，平均码长3.56，其中：成字z=182，部首b=52，构件，g=132。
表内英文大写字母为编码的类别，部件下方数字表静态的组字频率，例如 “大”在9,787个字中出现了402次。字频最高的为 “口” ，共2,310次，其次为”一”，计952，木785，土765，十670，日664，人602。只出现 1-2 次的低频部件共 9 个：成字的有书、事、凸、乜、丱、吏；不成字的有巜  …。(本表部件內容因論譚無法全部顯示，請參見筆者網頁)

6.0  常用、通用部件表的比较

  1. 出乎我的意料的，通用字(7,376组)比常用字(5,451组)的部件数目只多二个：一为次常用字 “乜”，一为罕见的”粼”的部件”巜” 。两部件表的其它部件(364个)完全相同。这表示汉字字量虽然增加，但组合汉字的组件却少有改变。这给我们一个启示：由通用字寻找一组精简的汉字基元是有代表性的。

  2. 汉字拆分时原则上取全息码，除少数字之外，均可在7个码元内取毕。依统计，常用字的平均码长为3.48，通用字码长为3.56。

  3. 少数超出7码的字包括：从”囊”的字(囔、攮、齉)，从”毚”的字(讒/谗、巉、饞/馋、儳、镵)；其它繁复字如鬱/郁、籲/吁、鬮/阄、爨、懿、灩/滟、籪/簖、獮/狝、躊/踌、囈/呓…，这些字有的已经简化，有的尚待进一步研讨改善。

7.0 通用字基元

从5.0节366个部件表中，摘取105个再行拆分(详下附表)，拆分依下列条件：
1. 拆时依笔序进行，所成的子部件(基元)，至少须有2个为”部件表”中的现成部件，。
2. 相交单笔划可拆。拆分的目的在减少基元的数量，部件如无法减量的便不拆分。

拆分结果：
1. 原是一个部件的，拆分成多个子部件(基元)，如：乍[? ]，其中?为旧的，为新增的。
2. 新增基元共7个：  (毋母)、 (瓜 )、 (丘追)、 (乍假)、 (母舟)、 (虫禺)、 (巴 )
3. 原有部件直接当作字母的共261个，即(366-105)，加上新基元7个，故通用字基元为268个。

通用字基元(字母)表 (268个)
依笔划及横(H)、直(I)、撇(P)、点(T)、弯(W)的顺序排列：(詳筆者網頁)

8.0 结语

1. 本文中初步拟定的 268 个汉字基元草案，虽可涵盖繁简字约10,000个，但是否允当周密，有待大家讨论拟议，才能逐渐修订完妥。

2. 在拆分实践过程中，发现某些汉字，虽然繁复，但基元可依笔序，逐个书写。例如 “懿”，由壹、恣二字合成，其基元依序为：士冖一口  冫⺈人心，共9个，基元数目固然多，但各个基元独立，而且完全顺序，没有分解的困恼。

3. 另有一类汉字，它的字型结构则不同，各基元间互相穿插，且有字形变异的情况，拆分起来颇费周章，例如：”承”，从手，丞声；其部件原为[丞手]，但二者穿插迭合，不便分析。又如“釁”(衅)，它的基元为臼冂一口冖酉八刀，其中字头部件”臼同”的界面是夹插关系，增加了复杂性；倘若依興(兴)的简化方式，把字头简为[兴]上，就可完全依笔序书写了。

4. 汉字拆分的目的之一是编码输入，另一个是有助于认字书写。如果固执于”交重不分”的原则，把汉字活生生的去头掐尾，例如把”重”拆成丿及”重省”，会使人觉得那”重省丿”的字符怪怪的。其实”交重”本是汉字造形的原创，例如夾就是”大人人”3元相夹，夾的简化字夹，就是 ”大 ” 2元相交。因此我主张交夹的字可拆，只是拆分时要照规定的顺序进行。

5. 部件依笔序拆分，既有助于写字教学，也有助于修正字形。例如繁体”龜”，拆分为⺈ …… 6个部件，是依”由中而侧、由左而右”的笔序进行的，各部件分列明显，书写时易于遵循。常見龜的字形把右侧部件” ”，与左侧部件”  ”连写，虽省了两笔，却使部件界限混淆不清，实宜予以改进。

6. 把完全依照笔序书写的基元，编以代码，例如前述”懿”9个基元编为SDHKCBQRX，化二维结构为一维排列，这样的”拼形文字”，在字型结构上言，是否可与ABCD…的拼音文字比美呢？倘若汉字能有统一的标准基元，组字时各个基元完全独立，并可依标准的笔序书写，(未达标准的加以优化。)而且拼形汉字又有 ”意象化” 及 ”组词灵活” 的优点；那末，我们有什么理由去搞拼音汉字呢。

筆者網頁：http://chinese.exponode.com/r4_4.htm

centrish · 发表于 2013-4-29 19:45:14

本帖最后由 centrish 于 2013-4-30 19:29 编辑

发表于 2007-8-22 12:48:43 |只看该作者 mfl1335

如果一个部件的构字率很低，例如只用于1-2个字，这些部件就值得我们来考量：是否须在字形上改进，或以他字取代。这儿并假定繁简体可以统合，并择优选用。

现在就常用字部件的统计来说，共有17个部件，其构字率在2 字以下：
  成字的：书(1)、事(1)、凸(1)、戉(1)、丱(關聯)、刁(刁叼)、乎(乎呼)、为(为伪)、吏(吏
  使)、疌(捷睫)、毋(1)、
  不成字的：鼎下、姊右(1)、丝右上、帶上、為上、临右下(1)，殷左

现在逐字讨论如次：

1, 书：简体”书”表面上看来笔划少易认，却不易记忆，因为这个草书楷化的字，在常用字中是孤另另的一个。繁体書由二个部件”聿曰”组成，部件”聿”含盖的常用字有：書、筆、晝、畫/劃、津、肇、律、肄、肆、建/键/健/腱/毽’，共15字。部件”曰”与日相似，含盖的字更多。一般说来，部件使用频率大，学习的机会多，容易记忆。何况”書”是会意字，符合字理：”聿”表笔，”曰”表说话，書便是用笔来表述。如果繁简统合，我将取書舍书。

2. 事：这个字可以再折分或改造。

3. 丱(關聯)：關聯可改用简体”关联”，而”丱”是罕用字。

4. 其它各字：凸、戉、刁(刁叼)、乎(乎呼)、为(为伪)、吏(吏使)、疌(捷睫)、毋，保持现
  状。

5. 鼎下：部件难写，可用[巟下部件取代，以表示鼎的三足。而[巟下部件含盖的常用字有流、硫、琉、梳、疏/蔬、毓、侃、荒/慌/谎11字。

6. 姊右：用姐取代，姊右部件取消。

7. 丝右上：糸旁的简化公式是：字头用纟，字尾用糸，故繁体絲的简化应改为[纟糸。

8. 帶上：采用简体带。

9. 临右下：临右旁采用繁体臨的右旁，部件临右下这个独一的部件可取消。

10 為用简体为，為上部件取消。

11殷左：保持现状。

我利用分析部件的机会，作这个拟案的前提是：如果讨论”繁简统合”，容许我在繁简之间择优选用，并容许某些不合理的字形作一些改进的时候，我将如何处理。虽然文字是约定俗成的产物，修订并不容易，但在今天面临繁简问题争论不休，而”书同文”又是我们的理想目标时，我们似应从现行规范字的收集与统计中，得到一些启示，从而引导出一条汉字的新出路！

centrish · 发表于 2013-4-30 19:31:23

发表于 2007-8-24 08:10:27 |只看该作者 mfl1335

基本笔划作为部件之分析

1.0  基本笔划可作为部件

  基本笔划 [一丨丿丶乙] 可否当作汉字的部件，曾是个较有争论性的问题。
  依笔者对于海峡两岸常用字(5451)及通用字(7376)的统计，不少基本笔划与原字脱离后，所余部件仍可成字，或可作部首，或可作匹配的构件(配件)，因此个人认为基本笔划应可成为汉字的部件之一，例如：

  百[一白、天[一大、旦[日一、下[一卜，拆分后所余部件: 白、大、日、卜都可成字。
  又如：互[一彑、升[丿廾，拆分后所余部件彑、廾，都可作部首或构件。

2.0  基本笔划作为部件的讨论

1.
如上述，基本笔划与主元分离后，有的成字，如：丙[一内、歹[一夕、正[一止、韭[非一、引[弓丨、矛[予丿、乏[丿之、失[丿夫、釆[丿米、血[丿皿、主[丶王、良[丶艮、户[丶尸、刃[刀丶、乓[丘ㄟ、孓[了ㄟ、尺[尸ㄟ、吊[弓丨、丸[九丶…。

有的可作为部首或构件，如：尤[尢丶、禹[丿口禸…。

设若这些字都不分解，汉字需要增加多少部件可想而知。而且这样的分析，有利于汉
字的学习认写，增进汉字字型结构的认识。

2. 以点为例来说明，用点作为独立部件，其主要功用有三。

A. 如前所述，减少汉字部件数目，例：勺=[勹丶]，尤=[尢丶]，叉=[又丶]，良[丶
艮]。
拆分后所余的部件或成字(又、艮)或为部首(勹、尢)，都是现成的；因而就不必
　　再把勺、尤、叉、良当作部件了。

B. 有些点加在主部件之上，还有"指事"之义，例：刃(刀的刃)、永(水长流)、太
　　(过大)

C. 有些点在简化字中代表繁体的偏旁如：如办(辦)。两点代表”力”旁的[辛，应可
予以分离。

3. 相交的单笔划可否拆开，颇有争议，值得讨论。从下述的字例来看：
  吊[弓丨、中[口丨、串[口口丨、甲[曰丨、申[曰丨、尹[彐丿、电[曰，如果
  容许把基本笔划拆开，就会减少吊、中、串、甲、申、尹、电…部件。虽然如此，笔
  者仍认为以不拆为宜；这样的限制，可免基本笔划拆分的任意性。

4. 有一些基本笔划在组字中是冗余的，其实可以省略掉。省后不仅无碍于字形结构的完
美，而且有利于认写及计算机编码输入，例如：

A. "梁"的右上角宜省一点作刃，”梁”的结构简为3 个现成的部件，即梁=[氵刃木。

B. 声符[ 中间的”一”可省略，例:毂=[士冖车几又，计算机输入时可免与相似结构
殼、穀、彀…同码。

C.同理，”微”声符中的”一”亦可省略，以免微、徵、徽、黴…同码。(输入时通常取
首3 码及末码)
隆、睿中的笔划’一’常漏写，不如将它省去，省后字形结构清楚：隆=[阝夂生]

睿=[卜冖八人目。

  依说文，”隆”，丰大也，从生，降声；楷书作降省声。既是降省，为何要留个容
  易漏写的笔划”一”？

  睿，说文作 ”叡”，深明也，通也，从目，从谷省。因此保留 ”谷省” 的构件 [八人]
  即可，部件中的”一”应可省略。

  同理，上例中的 [殼省]、[微省]各字，无论在字形结构上言，或在字理上言，都没有
  保留笔划 “一” 的必要。

5. 另一方面，就字形结构的分析言，基本笔划却只是主部件的附件，例：”敢”为左右
  型，左偏旁的主部件为"耳"，首笔" "只是耳的附件，就结构分析言不宜分割。但作编
  码输入时，左偏旁应分为、耳二个部件。否则便须增加一个新部件[ 耳。因此汉字
  作结构分析时，应引进”部件组”的观念，以括号[ ]涵盖之，例 –

  左右型：敢 = [ 耳]攵?    呎 = 口[尸ㄟ]    師 = [丿 ][一巾]
                  物 = 牛[勹 ]

  上下型：昼 = [尸ㄟ][日一] 奥 = [丿冂米大

  独体型：叉 = [又丶]       韭 = [非一]    血 = [丿皿]

3.0  任意性拆分的避免
把基本笔划拆分出来，固可减少汉字部件的总数；但任意性拆分会使部件规范漫无标
准，要使规范标准与部件减化之间取得平衡，就必须确立基本笔划可拆分的规则。

1. 拆分原则：基本笔划须依笔序与他元拆分，分后留下的部件(分元)必须成字，或可作
为汉字的部首或构件；且其中至少要有一个多笔划的部件。

  例：天[一大]   夭[丿大太[大丶  朮[木丶]  ----成字
   开[一廾] 互[一彑]                   ----部首或配件

2. 与他元相交的基本笔划，不可拆分。但点[丶与捺[ㄟ] 算作搭挂，可以拆分。

  例：刃[刀丶]  匆 [勹ㄟ]

3. 频率高的部首(以<汉字统一部首草案>为准为201部)，其中的基本笔划，原则上不予
分离，此是对于基本笔划拆分的制约。

  例：”自”不分为[丿目] “白”不分为[丿日]
“犬” 不分为[大丶]    禾” 不分为 [丿木]

〔註〕上文中有些部件顯示不出來，請參見我的網頁：

　　　http://chinese.exponode.com/4_2.htm

centrish · 发表于 2013-4-30 19:34:45

发表于 2007-8-31 11:57:54 |只看该作者 mfl1335

通用字7376組(繁簡) ,9784字(繁簡分列),各碼字數如下：
1碼 175
2碼 1487
3碼 3410
4碼 2818
5碼 1287
6碼 459
7碼 116
7+    32

常用字5451組(繁簡) ,7200字(繁簡分列),各碼字數如下：
1碼 167
2碼 1226
3碼 2533
4碼 1995
5碼 884
6碼 305
7碼 69
7+    21

在通用字(繁简分列)9784中超过7码的字共32个，全部列之如次表：
a.  表中在字前的数目字表示所需完成拆分的码数
b.  在 “----“ 之后，是我建议解决超码字的方式

超码字表(32个)：

8毚、9纔、9攙(搀)、9巉、9讒(谗)、9饞(馋)、9儳、9鑱--- 建议类推简化

8斷(断)、9籪 --- 用简体”断”

8邇(迩)、8彌(弥)、8獼 --- 建议”爾”用简体”尔”

8艷(艳)、9豔、10灩 --- 建议偏旁”豐”简化作”丰”

8藝(艺)、9囈(呓) ---- 用简体

8囔、8攮、8馕、10齉 ---- 建议声符囊简化作 [十口]上下交叉

8鞽(鞒)、10鬮(阄)、8鸝(鹂)、8躊(踌)、8竊(窃)、10鬱(郁)、9籲 (吁) ----
用简体

9爨、9懿、8壑 ---- 待简化

我想作过汉字拆分编码的人，都有这样的困惑：汉字究竟要拆分多细？拆分粗，码长小，但码数变多。反之，拆分细，码数缩小，但码长增加。以下我举一例题，来说明我的做法，未知是否适当，是否有更好的方法，请大家讨论指正。

例题：部首”斤”要不要拆分？

由于汉字结复杂多样，某字是否要拆分，须全面权衡拆分前后的得失，方可决定。例如”斤”，它是个部首，起初我不想拆开，最终我还是把它拆为[⺁、丅
]，其原因是：

1.
就[⺁]而言，除用于从斤、斥等字作部件之外，还用于从反、盾、后、派右、卮、褫右等字上，也就是说即使”斤”不拆开，[⺁]这个部件还是要有。

2.
就[丅
]这个部件言，除用于从斤、斥的字之外，还用于繁体敢(字首)、兩、爾…，也就是说即使斤不拆开，[丅]这个部件还是要有。

3.
既然[⺁]、[丅]这两部件需要存在，把”斤”一分为二，正可省下”斤”这个部件。

4.
由统计在通用字(繁简分列)9784中，这两个部件的构字频率：[⺁]为114字，[丅]为107字。

centrish · 发表于 2013-4-30 19:35:59

发表于 2007-9-2 21:03:31 |只看该作者谢振斌

原帖由 mfl1335 于 2007-8-31 11:57 发表
我想作过汉字拆分编码的人，都有这样的困惑：汉字究竟要拆分多细？拆分粗，码长小，但码数变多。反之，拆分细，码数缩小，但码长增加。以下我举一例题，来说明我的做法，未知是否适当，是否有更好的方法，请大家 ...

关于“斤”的问题。我认为不应该拆分，如果纯粹为了减少基元数量而把一些部件拆解和兼并，只能打乱原本追求的拆分理据性和科学性。

我认为“部件”有别于“构件”，是它必须是负载有一定的含义，虽然个别部件由于不断演变，其含义渐渐模糊或者脱落，沦落为纯粹的“形件”，但这不代表它已经失去了“灵魂”，失去了含义。这好比简化字中有许多“符号字”，其中的符号部件只是充当一个记号而已，无法追溯字源，甚至无字理可谈。但事实上它们依然是表义的。

构件：构成汉字的零件。最底层的是笔画，是构成一切汉字字形的基础零件。上层的是部件，是
形成汉字特征的零部件，也是六书造字的基本构件来源，是形成汉字形体特征和规律的
内在信息单元。

部件：组成“字”的一些具有固定和稳定形体和含义的字块（笔画组合）。也就是古代所说的“文”。

基础部件（基元）：是汉字基于部件分解的最小可分解单位。它不能再被分解为更小的部件。

部件拆分和笔画拆分或构件的主要区别在于，部件是“表义”层面的拆分，构件是“表形”层面的拆分。

单笔画部件是一种特殊的部件。除了笔画数为一以外，具备部件的所有属性。

它和笔画是不同的概念。

部件是表义的，笔画只是表形，不表义。

比如：一（yi)和一（heng2横), 一个表义，一个不表义。
旦：下面一横，代表地平线。
灭：上面一横，代表灭火的东西。

部件是有一个或多个笔画组成的，具有一定组字能力和含义的笔画组合。

基础部件（基元）是最小的部件，它不能再被分解为更小部件。

centrish · 发表于 2013-4-30 19:36:42

发表于 2007-9-3 14:22:56 |只看该作者 mfl1335

quote：#10 謝兄："我认为“部件”有别于“构件”，是它必须是负载有一定的含义…"

原則上我同意謝兄的觀點，也許我在文內所述的"部件"應以'構件"稱之。

我之所以在拆分時，以字形為主，只在拆分有二義性才把理據(含義)當作優先選項之一。其原因是若以理據為主，則拆分實無法澈底，也無法求得最小的結構單位(基元或中文字母)。

我確實把漢字當作"拼形文字"，希望在7000多個通用字範圍內，求得不多於300個的基元，以及一個標準的筆序，這樣或可澈底解決漢字的排序問題(化二維為一維)。

請參見本主題#1 "拆分原則"。我勉勵我自己在實踐中尋求答案。以證實我的想法是否可行。

當然謝兄提出的觀念性的基本問題，值得大家多多討論。

centrish · 发表于 2013-4-30 19:37:32

发表于 2007-9-3 22:40:49 |只看该作者谢振斌

原帖由 mfl1335 于 2007-9-3 14:22 发表
quote：#10 謝兄："我认为“部件”有别于“构件”，是它必须是负载有一定的含义…"

原則上我同意謝兄的觀點，也許我在文內所述的"部件"應以'構件"稱之。

我之所以在拆分時，以字形為主，只在拆分有二 ...

由于一些术语目前没有一个权威的公认的定义，所以也给大家沟通和探讨带来麻烦。
不能说你的“部件”定义是错的，只能说我们两个对部件的界定存在差别。

我很明白你希望达成的目标，我们所追求的目标各自存在一定的有缺点：
（1）以“义”为基础制定出的基元，对传承传统文化有利，但可能遇到一些边界不够明确的问题，需要借助更多的统计数据人为界定。
（2）以“形”为基础制定出的基元，可能会失去一些汉字内在的字理和文化内涵。由于拆分更加细致，它可能会合并和减少一些基元的数量，这样也更容易和26个字母进行匹配。

当然从实用角度说，也许简单易操作是主要的目标，这是我们都要努力达到的。

centrish · 发表于 2013-4-30 19:40:25

发表于 2007-9-5 09:47:23 |只看该作者 mfl1335

据形拆分还是据义拆分的讨论

现在进一步说明，为求汉字结构的最小单位(基元)，据义拆分的主要困难有二：
1.
大都需要根据隶变前的古字体：甲骨、金文、篆文…。而我们要拆分的是楷书。
2.
据义拆分，大都难以求得字形结构的最小单位。

台湾文字学者赵友培曾作过广泛而深入的字形研究，曾于1980年代出版<国字基本结构研究>，寻求汉字的字根，可算是”据义”分析汉字结构的创意之作。全书共25章，并依先民生活活动，衣、食、住、行分作11大类，共得400多个字根。他的基本结构分析大都依据古字体，例如 ---

白- 本义：白色。
结构：篆文从日而上端尖锐，表示太阳将出来，微露曙光。
声系：伯、拍、怕、泊(箔)、帕、珀、柏、粕、舶、迫、帛、碧、魄…百(佰陌)

冥- 本义：天黑了。
结构：从日六(依甲文，六是入的异体)日入所以天黑。冖(mi4)是声符，后又加日
      旁作暝。
声系：溟、幎、瞑、蓂…。

於- 本义：乌鸦
结构：金文象其侧立头有冠毛之形，篆文与鸟同形而不见睛，声化为雅，又作鸦
      字。
声系：淤、瘀、烟、阏…。

降- 本义：从高处往下走
结构：甲文象两脚下抵山级之形，篆文省作夅
      声系：洚、绛、隆(窿、癃)…。

由以上随机举出的例子可知，这些所谓字根，不一定都是字形结构的最小单位(基元)。据义言，它们是最小单位，而据形言它们有的是基元(白)；有的不是，如冥、於、夅仍可拆分，才可求得基元。

centrish · 发表于 2013-4-30 19:41:30

本帖最后由 centrish 于 2013-4-30 19:46 编辑

发表于 2007-9-5 12:21:04 |只看该作者 xml00

关于3.0拆分规则的讨论

一、三个层次
（一）、核心规则（离接可拆）
其核心规则是2.部件相离、相接者可拆（离接可拆），其主要出发点是“直观性”和“可操作性”，也是大家目前能够接受的规则。其他的规则都是围绕这个核心展开的。
（二）、不可拆规则（要害问题）
但并非所有的相离、相接者均可拆，它有许多的制约规则作为前提：
①二笔划的字不拆（二笔不拆），否则的话，就全部拆为单笔画了。这一条不具涵盖性，3或4笔画的拆不拆？如“氵灬”等。故有下面的规则作补充。
②高频成字或部首，其单笔画不拆（高频不拆），如“王牛白方禾”等。（限定在部首范围内）。
③无组字能力者不拆，如“非”字。
④相交单笔画不拆，如“中申甲”等。
⑤简单部首对应的繁体不拆：馬（马）、門（门）、犬（犭）、糸（纟）、食（饣）、言（讠）。
（三）、可拆规则（次要问题）
有了上述的前提，楼主给出了另一些可拆的情况：
①相夹部件可拆
②部分相交部件可拆
③非相交单笔画可拆
④与点捺搭挂者可拆
这里的“部件”是从大量的“相离、相接”拆分实践中得到的，是这几种特殊情况拆分的基础。以“夷”字为例，在大量的“离接可拆”实践中，我们已经知道“大”和“弓”都是部件，那么，“夷”字拆为“大弓”也没有什么困难。所谓“交重”，往往就是一些我们熟悉的部件，相交、相夹、叠加、嵌套的结果。

总而言之，“离接可拆”是第一层次，是核心问题；“离接不可拆”的限制条件是第二层次，目前争议较大，是真正的要害问题；几种特殊的可拆情况是第三层次，虽有争议，但在实际操作中的难度并不比我们想象的那么大，当属次要问题。
二、不可拆问题分析
我们不妨来看看在什么情况下不可拆这个要害问题。按照潘德孚先生的观点，部件有两个基本属性：可分离性、独立性。所谓独立性，就是部件拆分到此为止，再继续拆下去就乱套了。楼主提出的“二笔不拆”的规则，虽不具有涵盖性，但直观明了，在拆分实践中很容易操作。因此是一条很好的规则。它确定了21个部件的独立性：二十丁厂七卜八人入乂儿九匕几刁了乃刀力又乜。
相对而言，楼主所提出的“高频不拆，限定在部首范围内”的规则，是不直观的不容易操作的，算不上一条好的规则。在拆分过程中去查阅部首表和频度数据，多麻烦啊。
这里引用潘德孚先生的一段话：
然而，相对独立的概念，还是模糊的。这是指它的笔画结构块和基本笔画。陈爱文先生说：“部件是一个‘笔画结构块’（徐注：相对独立的笔画结构块），那么它应该有两个以上笔画，而且应该形成‘块状’。”“一、相交叉的笔画是一个结构块。二、相粘连的笔画，一般属于一个结构块。三、布局匀称的相分离的笔画是一个结构块（徐注：例如“氵”）。四、封闭框内部的笔画如果跟外框是粘连的，则合起来算一个结构块（徐注：日、月、用等）。框内的点笔一般附属于外框。五、单独的点笔一般附属于它附近的结构块。”
潘先生认为：氵属于相离型笔画结构块，由三笔组成；他们布局匀称，在组字时又是相对聚合的。例如“泳”字，氵与右边的“永”字之间有明显的分隔沟。因此是不可再分的，是一个独立的形体。
同理，“用”字中的“奉字底”和外框粘连，故也是一个独立的部件，不能再拆分成“用字框”＋“奉字底”，这和“月”字不能再拆分的道理是一样的。部件表中多了一个“用”字并不是大问题，我们需要的是拆分规则的直观性和可操作性。

发表于 2007-9-6 11:40:07 |只看该作者

原帖由 mfl1335 于 2007-9-5 09:47 发表
据形拆分还是据义拆分的讨论

现在进一步说明，为求汉字结构的最小单位(基元)，据义拆分的主要困难有二：
1.
大都需要根据隶变前的古字体：甲骨、金文、篆文…。而我们要拆分的是楷书。
2.
据义拆分，大都 ...

最近看过一些部件研究的资料，主要有沈克成父子的著作、潘德孚先生的著作、谢振斌先生的帖子，还有部件规范等。楼主的观点是刚看到，和潘德孚先生的观点相近。我比较倾向于楼主的观点。
部件规范主要服务于汉字拆分，规范在这方面做得是不够好的。我感觉制定部件规范的专家们在研究方向上可能出了偏差。首先应该将复杂的问题简单化，从最简单的问题入手。就像潘德孚先生所说，应该抛掉“义”的束缚。
楼主所制定的部件表共有366个部件，潘先生的表有372 个。末级部件大概也就这个数了。
基元是最小的部件单位——这是楼主的新提法。这对于部件包容现象的研究是有意义的。

常用及通用字的部件及基元(TR) [复制链接]

常用及通用字的部件及基元(TR) [复制链接]

常用及通用字的部件及基元(TR) [复制链接]

常用及通用字的部件及基元(TR) [复制链接]

常用及通用字的部件及基元(TR) [复制链接]

常用及通用字的部件及基元(TR) [复制链接]

常用及通用字的部件及基元(TR) [复制链接]

常用及通用字的部件及基元(TR) [复制链接]

常用及通用字的部件及基元(TR) [复制链接]

常用及通用字的部件及基元(TR) [复制链接]

浏览过的版块

		自动登录	找回密码
密码