openKylin论坛

 找回密码

常用及通用字的部件及基元(TR)   [复制链接]

发表于 2007-9-22 01:09:38 |只看该作者 韦剑


原帖由 谢振斌 于 2007/9/21 04:05 发表


韦兄说得有理,只是这方面我不很了解。韦兄如能促成,我将大力支持。
部件表我将抓紧整理。这里先列一些常用的重点,都是一些经常可能引用到的部件或偏旁吧。

*************************************** ...



谢谢振斌兄的支持。应该说让我们共同努力来促成此事吧!具体的部件确定工作希望能得到更多像你、楼主和徐先生那样的热心网友的关心和奉献,至于如何向Unicode提交的事,我想不妨可以大胆摸索和尝试一下。毕竟这也算是一项相当有意义和挑战性的工作呢。




31#
 楼主| 发表于 2013-5-2 20:44:03
回复

使用道具 举报

常用及通用字的部件及基元(TR)   [复制链接]

发表于 2007-9-22 12:05:49 |只看该作者 mfl1335


去年教育部曾拟定<常用字部件草案>,公布在网上供大家提供意见。我把其中没有unicode而无法显示字形在屏幕上的部件辑录如次,以供谢兄参考。可见无论是官方或民间,为便于传讯,都需要部件的unicode。以前官方公布的560部件表也可以挑选一下,当作申请时的理由及依据之一。

最后所汇集的<部件待编码表>内容,也许可参照此表列出编号、部件名称、字例…。

编号
部件字形
部件名称
字例
002

áo)字旁
傲熬赘
021

)字旁
撇憋蔽
031

zhēn)字头
贞绰罩颅
039

céng)字头
曾增蹭
049

两竖liǎngshù
临监坚
062

huāng)字底
流荒疏
077

dāo
班辨
079

shī)字旁
归帅狮
096

duàn)字旁
段缎
110

fèng)字框
凤凰佩
137

guǎ)字

139

guān)字底
官管棺遣
146

hán)字
寒寨囊壤
151

hóu)字旁
侯候猴
159

huà)字
化华花讹
160

huàn)字
幻局成盛
175

yǐ)字旁
以拟
182

jiǎn)字
练拣
200

jǔ)字底
陆举择
203

)字头
具置颠矗
223

liǎngdiǎn/dōng)字底
馋淤
228

lín

232

lǚ
旅派
242

mǎo)字旁

243

mào)字头
冒冕帽
244

méi)字框
声媚
257

)字旁
那哪
266

niǎo
岛凫捣
286

qián)字头
前慈喜膨
289

qiáo)字底
价界乔养
291

qīng)字旁
劲轻茎
311

rán)字角
祭察燃
336

shǐ)
毅缘
347

bāi)字旁

348

寿shòu)字头
邦寿
355

shuāi)字

357

shuài)字

363

)字头

392

wèi)字底
偎展
405

xī)字头

409

)下角

421

xiè)字旁
卸御
424

gōng)字底
慕添
430

xué)字头
应敛检
433

nüè)字底
虐疟
440

yán)字

448

yǎng)字头

449

yáng)字
场烫荡
452

yáo)字头
浇翘
464

shèn)字底
甚喝
472

yīn)字旁

477

yǒng)字头
勇捅
484


祭察
507

yìn)字旁

513

jiàng)下角
鳞瞬
514

shì)字底
是定徙堤
515

)字底
步频涉
528

zhuī)字
追薛孽
532

zǐ)字





32#
 楼主| 发表于 2013-5-2 20:44:45
回复

使用道具 举报

常用及通用字的部件及基元(TR)   [复制链接]

本帖最后由 centrish 于 2013-5-6 19:43 编辑

发表于 2007-9-22 16:20:18 |只看该作者 谢振斌


原帖由 mfl1335 于 2007-9-22 12:05 发表
去年教育部曾拟定,公布在网上供大家提供意见。我把其中没有unicode而无法显示字形在屏幕上的”部件”辑录如次,以供谢兄参考。可见无论是官方或民间,为便于传讯,都需要部件的unicode。以前官方公布的560部件 ...




你说的《部件草案》应该是教育部2003年发的那份,网上有PDF版,我曾转化为纯文本,但是里面许多无法表示的部件是用PUA区自造字,所以无法流通应用。
你上帖所列的部件,部分我已经找到输入编码或替代符号,如下:
敝(bì)字旁: 【㡀】
贞(zhēn)字头: 【⺊】
曾(céng)字头:应拆开
两竖(liǎngshù):【〢】
荒(huāng)字底:应称为巟字底
刀(dāo)中 班辨: 【ソ】
师(shī)字旁:【リ】
凤(fèng)字框:【⺇】
寡(guǎ)字腰:【
官(guān)字底:【㠯】
侯(hóu)字旁:应拆开
化(huà)字边:【&#133390;】Ext-B
幻(huàn)字边:【㇆】【?】
举(jǔ)字底:【キǂ҂キ☨】
两点(liǎngdiǎn)/冬(dōng)字底:【⺀】
卯(mǎo)字旁:【&#131214;】Ext-B
冒(mào)字头:【⺜】
眉(méi)字框:【&#131292;】Ext-B
前(qián)字头:【䒑】
轻(qīng)字旁:【&#139286;】Ext-B
然(rán)字角:称【炙】字头
豕(shǐ)省:【&#162856;】Ext-B
掰(bāi)字旁:【龵】【?】称撇手旁
  寿(shòu)字头:称丰字旁
衰(shuāi)字腰:【⏛】
昔(xī)字头:【龷】【?】
恭(gōng)字底:【⺗】【?】
学(xué)字头:【⺍】【ツ】称畄字头
杨(yáng)字边:【&#131283;】Ext-B
甚(shèn)字底:【㇗】【&#131274;】称竖折
殷(yīn)字旁:【㐆】
甬(yǒng)字头:【龴】【?】【マ】
降(jiàng)下角:【㐄】
是(shì)字底:【&#150803;】Ext-B
步(bù)字底:【&#145730;】
追(zhuī)字心:【&#131236;】Ext-B
姊(zǐ)字边:【&#131220;】Ext-B




33#
 楼主| 发表于 2013-5-2 20:45:30
回复

使用道具 举报

常用及通用字的部件及基元(TR)   [复制链接]

发表于 2007-9-22 16:53:02 |只看该作者 谢振斌


畄字头,称为“学字头”虽然通俗,但容易出现边界歧义,用“举兴应”等也一样会。而不歧义的字又是非常用字(畄単巣畄鼡),所以都不理想。
我想到“氵”,大家习惯称为三点水,不妨仿效此法,称畄字头为“三点头”。正好我的方案中此部件也是归并入“巛”(水部)。
而与它形似的【?⺌】,称为“当字头”或“小字头”,归并入“小”。
不知大家是否赞同?




34#
 楼主| 发表于 2013-5-6 19:44:52
回复

使用道具 举报

常用及通用字的部件及基元(TR)   [复制链接]

发表于 2007-9-22 18:42:20 |只看该作者 韦剑


原帖由 xml00 于 2007/9/22 17:49 发表
没有相应字体显示,交流和研究都非常不便。
如果要提交这样的部件进入Unicode,数量是很多的,很多是来自二元拆分:比如,漢字边,铅字边等。



在现有条件下,对于暂时没有标准字符的部件,建议可以考虑设计一种简易的构形拆合表达式来表示之。比如对于漢字边,可以用表达式【漢-氵】来表示。

我在整理《简化字总表》电子版时对第二表的那几个没有标准字符的简化偏旁就使用了这种表达式,刚好包含了几种基本的构件拆合和表达式嵌套情形,试举例如下,仅供大家参考。

字形: ,表达式:【坚-土】;

字形: ,表达式:【莹-玉】;

字形: ,表达式:【监-皿】;

字形: ,表达式:【臣+(临-〢)|左右结构】;


这种表达式的规则是:

1. 用运算符+和-分别表示参与运算的两个字形的组合和拆分关系。

2. 组合表示两个运算字形结合在一起,组合运算的后面必需加上用|隔开的用以说明两个组合字形之间方位关系的文字,比如上下结构(前一个运算字形在后一个运算字形的上面)、左右结构(前一个运算字形在后一个运算字形的左边、包围结构(前一个运算字形包含后一个运算字形)等。

2. 参与运算的可以是一个字符,也可以是一个表达式(即表达式嵌套),嵌套表达式必需用括号括起来。

3. 拆分表示从前一个运算字形中去掉后一个运算字形的部分。




35#
 楼主| 发表于 2013-5-6 19:46:52
回复

使用道具 举报

常用及通用字的部件及基元(TR)   [复制链接]

发表于 2007-9-22 19:45:21 |只看该作者 谢振斌


针对我前面罗列的一些未编码部件,作一些分析:
【_介】介字底。例字:乔介养弗氘齐 丳亣夰奍。
近形或近义或相关字:
丌:(ji1),按照说文的解释,有“基脚”的意思。象形。
兀:(wu4),高而上平的意思。
廾:(gong3),双手的意思。
亣:(da4),古同“大”。
亓:(qi2),“其”的古字。
介:下面是“八”的变形,分别的意思。
乔:喬简化时用了替代符号。
养:養简化时用了替代符号。
齐:齊古文是三株麦穗平排,也是象形。

总结:“_介”是象形符号。和“丌”有一定的相通。

【_六】共字底。例字:兵共其具典真兴舆與興㒷巺呉恭。
廾:旧字形中间断开【?十】,分别代表左右两只手,有双手“捧”的意思。
经过演变,有些变成“大、丌、_六”等等,如“篡莫共典”。
部分“廾”是“艹艸”演变来的。

兵:斤+_六。
共:卄+_六
其:甘+_六
具:目+_六
典:册+_六

总结:“_六”为“廾”的变体。

【_举】奉字底。例字:择丮举击半奉用舉芈㪯。
手的变形,如“举=挙”、“奉”、“击(擊)”、“丮”。
牛的变形,如“半”。
羊的变体,如“芈”。

总结:“_举”为“手”变体。
【~畄】【⺍】。例字:単巣畄鼡学厳䋝悩。
学:學简化。
应:應简化。
举:舉简化。
佥:僉简化。
其他字头用到的,多数是日本简化字。単=单單、巣=巢、畄=留、鼡=鼠。

总结:“⺍”为简化所用的符号替代。部分象形,如“巣鼡”。
【~已】【コ】叚右角。例字:巨囙已叚兜。
总结:基本属于符号用途。有时可以通“?”。

【~归】【リ】归左旁。例字:归帅师。
归帅师:繁体“歸帥師”。
总结:“リ”为符号部件。

【~州】班字心。例字:州班辨帰疈。
州:川字加三点代表河川中的小岛。象形。
班:从&#149812;从刀。
辨:辧,从刀辡聲。判别、分辨。

总结:含义和形状接近“刀”、“八”,有“分别”之义。象形。

【~临】【〢】临左旁。例字:临监坚竖紧肾贤䝨。
临监坚竖紧肾贤:繁体:臨監堅豎緊腎賢。
总结:“〢”为“臣”简化用的符号。

【_临】临右下。例字:临、二简器字、“象”的旧字形。
临:繁体“臨”。和“器”都有很多“口”。
㑒:佥僉。
&#133540;:單。
&#134126;:品。

总结:“_临”相当于“吅品㗊”,归“口部”。

【~卬】(卬左。例字:卬兜。)
卬:&#133648;yang3 望,欲有所庶及也。从匕从卪。
兜:从&#132217;,从皃省。左右覆盖物,象形。

总结:“~卬”为“匕”的变体或者象形符号。
【_史】史字底。例字:史丈吏更。
史:記事者也。从又持中(中,正也。)。【中又】
丈:十尺也。从又持十。【十又】
吏:治人者也。从一从史,史亦聲。【一史】
更:改也。从攴丙聲。古字【㪅】=【丙攴】

总结:“_史”相当于“又”,手的意思。

【~享】享高头。例字:亨享京亯畗㐔㖜㙶。
京:人所爲絕高丘也。
亯:獻也。从高省,曰象進孰物形。
享:古文“&#131424;”。可通“獻”、“亨”。
亨:古文“亯&#131414;”。通“享”、“烹”。

总结:“~享”可看作“高省”。
【~贵】贵上。此字Ext-B有(&#131088;)。此部件可考虑拆开,不作基础部件。例字:贵遗。
贵:物不賤也。从貝臾聲。臾,古文蕢。
总结:“~贵”为“臾”变体。拆分为“口丨一”码点冗长。见过一本古汉语字典把它看作“虫”的变体,不知妥否。

【_乍】乍下。例字:乍作。(“乍”字可以考虑不拆。)
乍:止也,一曰亡也。从亡从一。鉏駕切〖注〗徐鍇曰:“出亡得一則止,暫止也。”
“亡”古字有几个变形:亾止。
&#131494;:乍本字。

总结:“乍”字形变厉害,难以溯源。按形或可拆为“?+_乍”或者“~竹+二”或者不拆。

【ス】劲左上。例字:劲经茎。
劲经茎:繁体:勁經莖。
总结:“ス”为简化的替代符号。因为和“又”形近且易混,当初应该搞成“又”不就好了,反正“又”已经是万能替代符了。经过统计表明,可以和“又”合并而不重码。

【穴】穴宝盖。例字:空穷。
可以拆分为“宀+八”。
经过统计表明,“穴”并入“宀”只重码字“室窒腟膣”。
但毕竟是传统部首,独立不拆也有不拆的道理。只是编码取码上也许可以取为“宀+八”。

【_屰】屰字底。例字:屰芻雟㪿芔。
“屮”变体。

【_屯】屯字底。Ext-B:&#138494;。例字:屯顿吨。
“屮”变体。
【~占】占字头。部首区已有(⺊)。例字:㔽上卓占卢卣卨貞贞鼑媫㕟桌肻。
“卜”变体。

【?】左上。Ext-B和PUA有(?ナ&#131207;)。例字:左右㔫冇厷友布戎有灰。
“手”变体。左手的意思。

。。。。。。(未完)




36#
 楼主| 发表于 2013-5-6 19:48:10
回复

使用道具 举报

常用及通用字的部件及基元(TR)   [复制链接]

发表于 2007-9-22 20:56:55 |只看该作者 谢振斌


原帖由 韦剑 于 2007-9-22 18:42 发表


在现有条件下,对于暂时没有标准字符的部件,建议可以考虑设计一种简易的构形拆合表达式来表示之。比如对于漢字边,可以用表达式【漢-氵】来表示。

我在整理《简化字总表》电子版时对第二表的那几个没有 ...



可以使用以下直观方式:
左右结构:汉=【氵+又】
上下结构:字=【宀/子】
包围结构:国=【囗@玉】
减法运算:乑=【眾-罒】
字架结构:裹=【衣%果】
复合运算:树=【木+又+寸】 数=【米/女+攵】(运算符优先性平等,左边优先)

其中,左右结构可以省略运算符,而且具有最高优先性:
树=【木又寸】
架=【加/木】=【力口/木】
茄=【艹/力口】
数=【(米/女)  攵】
疑=【(匕/矢)(?/疋)】
赢=【亠/口/月贝凡】

以上表达方式虽然容易明白,但依然比较繁琐。
我目前使用较多的士前缀符号表达法,主要用来示无法输入的子字,目的是减少表达宽度,避免影响整体识认。

【~坚】=【〢又】=【坚-土】  ,后面表达比前面冗长。
【~监】=【〢_?】=【监-皿】,要取“?”的左边又该如何运算?
【_择】=【择-扌】=【又/(举-兴)】,最后一个冗长又难以理解。

前缀符表示法大致有以下几个符号:
~表示前部件,如:【~架】=【加】
_表示后部件,如:【_孬】=【好】
%表示字架,如:【%衣】表示“衣字架”
^表示字盖,如:【^学】表示【学-子】
*表示重复,如:【*又】=【双】
。。。等等。。。(语言文字版我曾发过较详的说明)

[ 本帖最后由 谢振斌 于 2007-9-22 21:27 编辑 ]




37#
 楼主| 发表于 2013-5-6 19:51:13
回复

使用道具 举报

常用及通用字的部件及基元(TR)   [复制链接]

发表于 2007-9-22 21:59:20 |只看该作者 韦剑


我觉得这类表达式主要用于一些小范围的、经常在一起交流的朋友之间使用,虽然不够直观,但根据确定的规则,应该不难理解最终的字形,所以繁琐与否不需要太过于考虑,毕竟只是一种过渡方案嘛。从这个角度讲,振斌兄提到的几种已有的方案都是可行的,其中你提出的用不同运算符来简化组合字形的间架结构表达方法很值得借鉴,如果参与这个帖子的朋友需要并能达成共识的话,不妨考虑博采众长设计一种,以方便大家交流。

一点小意见:虽然名为“表达式”,但只是解决暂时没有的字形的表示的一种权宜之计,这只是方便不同的研究人员交流使用的,所以在设计上只要明确规则即可,不用考虑机器识别的问题,也就说不用为了单纯地降低表达式的长度而过于把表达含义复杂化。

[ 本帖最后由 韦剑 于 2007-9-22 22:07 编辑 ]




38#
 楼主| 发表于 2013-5-6 19:52:29
回复

使用道具 举报

常用及通用字的部件及基元(TR)   [复制链接]

发表于 2007-9-22 23:10:35 |只看该作者 谢振斌


原帖由 韦剑 于 2007-9-22 21:59 发表
我觉得这类表达式主要用于一些小范围的、经常在一起交流的朋友之间使用,虽然不够直观,但根据确定的规则,应该不难理解最终的字形,所以繁琐与否不需要太过于考虑,毕竟只是一种过渡方案嘛。从这个角度讲,振斌 ...



说得没错,目前只是权益之计,达到交流目的才是关键。

我提到的两种方式,各有使用场合。
表达式法用于一般文章的表述,规则不要太复杂,但求容易理解,即便没有告知对方具体规则也能猜个大概不离。我认为“+-/”运算基本可以应付95%以上的需求了,加上醒目的【】框就更加不会歧义了,如果不是为了那么醒目时,则建议使用[ ]括号表示。其他意见大家不妨补充。

而后一种“前缀表达法”的产生也是事出有因的,最早我为了研究部件,对于无法输入的部件,遍寻了各种奇怪符号替代,结果依然不敷使用,于是我考虑一种加“后缀符”的办法,如“择_”表示此字的后半部,这样列出来的部件表不会乱花花的难看。
后来建立数据库后,为了便于电脑处理,我改成“前缀”表达法,【择_】就变成了【_择】,这样好处是识别和排序很容易,排序时这些字不会排列到常规汉字里面去,识别首字符就可以(如果后缀的话还要知道汉字是几个字节才行巨不方便)。
此外,为了处理Unicode全部汉字,我使用UTF-8格式表示汉字,多数汉字3个字节,CJK-B汉字则需要4个字节。(其实当初要是选择GB18030也许更不错,多数汉字2个字节,罕用汉字4个字节,输出对齐也容易)。考虑到扩展子字表达问题,我设置的汉字储存宽度一律是统一为5个字节(没必要浪费就不要浪费),这样最多允许一个CJK-B汉字外加一字节的前缀符号。于是就这么一直沿用下来了。

所以,后一种简省的表达实际主要是给电脑看的,交流一般也是局部的,符号必须严格为半角,是严格和高效的。
而前一种表达式法则不同,全角半角不影响理解,多了空格也无碍,通俗易懂是最终目的。

这就是两者的区别。




39#
 楼主| 发表于 2013-5-6 19:53:05
回复

使用道具 举报

常用及通用字的部件及基元(TR)   [复制链接]

发表于 2007-9-23 21:57:15 |只看该作者 1975xxzzasohu


原帖由 谢振斌 于 2007-9-10 21:51 发表
考虑“丑产妻事来甫”等字如何拆。


这样拆分,可以接受吗?
丑:乛 土
产:立丿
妻:十 彐女 [(十彐 )不拆更好]
事:豆头 彐亅
来:一米
甫:十月丶[(十月 )不拆更好]




40#
 楼主| 发表于 2013-5-6 19:54:02
回复

使用道具 举报

openKylin

GMT+8, 2024-6-3 10:53 , Processed in 0.041559 second(s), 15 queries , Gzip On.

Copyright ©2022 openKylin. All Rights Reserved .

ICP No. 15002470-12 Tianjin

快速回复 返回顶部 返回列表