cdic-xml converter dev. (1)

카테고리 없음

cdic-xml converter dev. (1)

어리 2009. 9. 26. 13:00

일단 .cdic format 0.2의 형태를 분석해 보겠습니다.

{음소, 공백 없음} <SP><SP> [(스펠링)[<SP>(스펠링)]*] <SP><SP> {설명}
{음소, 공백 없음} <SP><SP> [(스펠링)[<SP>(스펠링)]*] <SP><SP> {설명}
....[위의 형식 반복]
[빈 줄]
{단어 표기} '[' [(음소)[<SP>(음소)]*] ']' '(' {어형} '...' {하위 어형} ')' {설명}
{단어 표기} '[' [(음소)[<SP>(음소)]*] ']' '(' {어형} '...' {하위 어형} ')' {설명}
...[위의 형식 반복]
[빈 줄]

이딴 식으로 해 놓으니 좀 정신이 없기는 합니다만, 일단 설명해 보겠습니다.

ConlangDictionary 0.2에서 지원하는 데이터는 두 가지입니다.
하나는 음소이고, 하나는 단어입니다.
그리고 이것이 .cdic 포맷에서 그대로 드러납니다.
빈 줄을 사이에 두고 위쪽은 음소, 아래쪽은 단어입니다.

1. 음소 부분
음성 기호들 사이에는 공백이 들어갈 필요도 없고, 프로그램에서 미리 지워 버립니다.
음소들이 맨 앞에 들어간 후에는 30h 공백을 두 개 넣고 음소를 표기하는 문자를 적습니다.
하나의 음성을 표기하는 데 두 개 이상의 문자가 들어갈 수 있으므로,
각각의 문자는 30h 공백 하나로 구분합니다.
이들 다음에 30h 공백 두 개가 들어가고, 라인 끝까지 이 음소와 문자에 관한 설명이 들어갑니다.

2. 단어 부분
단어는 음성이 아닌 문자로 표기됩니다.
이 때 위에서 등록한 음소-문자 규칙에 따라 저절로 단어의 음성을 생성해 주며,
체크박스를 해제하면 음소-문자 규칙을 어기는 단어를 만들 수도 있습니다.
단어의 표기와 발음 다음에는 단어의 분류가 나옵니다. 대개는 품사를 분류합니다.
단어 분류는 type-subtype으로 이루어지며 각각은 '...'으로 구분됩니다.
단어 분류 다음에는 라인 끝까지 이 단어에 관한 설명이 들어갑니다.

설명을 보는 것보다 이 포맷을 한 번 만들어 해 보는 게 좋지만,
약간 쉬운 방법으로는,

다른 사람이 만들어 놓은 시각 자료를 활용하는 것이 있습니다.-_-;;

빠진 것이 하나 있는데, 설명 부분에서 줄바꿈은 ';;'로 들어간다는 사실입니다.
(프로그램에서 ';;'라고 입력해도 나중에 열 때 줄바꿈이 됩니다.)

다음 글에서는 변환 xml 규격과 이를 받을 dtd를 공개하겠습니다.

현재글cdic-xml converter dev. (1)

Thou arn't unlogical [τ]

제가 주제인 블로그... 그냥 주제 없는 블로그입니다. 전공 분야나 예전 관심 분야 등등에 관한 글이 우선입니다만, 두어 문단을 넘길 만한 글이라면 대강 정리해 기록합니다. 학부생입니다. 트위터에서 볼 수 있습니다. http://aurynj.net/

fedora basearch, rpm ignorearch kernel, Visual Studio, windows tchar, gnome 3.6 한글 입력, windows 98 compatible string, 구글, 표준 24핀, visual studio strin g type, ibus 한글, 비주얼 스튜디오, 표준 20핀, 비주얼 스튜디오 문자열 자료형, fedora 18 한글 입력, microsoft character type, 비주얼 스튜디오 문자 자료형, 윈도우 문자열 자료형, 프로그래밍, visual studio charcter type, 윈도우 98 문자 인코딩 호환,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Thou arn't unlogical [τ]

cdic-xml converter dev. (1)

'카테고리 없음'의 다른글

티스토리툴바