• Không có kết quả nào được tìm thấy

Vì vậy cần có một mô hình ý niệm dữ liệu khi xây dựng một CSDL t ừ vựng

N/A
N/A
Protected

Academic year: 2022

Chia sẻ "Vì vậy cần có một mô hình ý niệm dữ liệu khi xây dựng một CSDL t ừ vựng"

Copied!
13
0
0

Loading.... (view fulltext now)

Văn bản

(1)

TAP CHÍ KHOA HỌC ĐHQGHN, KHTN & CN. T.xx., Số 1, 2004

M Ò H Ỉ N H D Ử L I Ệ U T Ừ V ự N G C Ủ A T Ừ Đ I E N t i n h ọ c

T I Ế N G Đ Ị A P H Ư Ơ N G N G H Ệ - T Ĩ N H

P h a n H uy K h á n h Đại học Đà N ă n g

1 Vân để cơ s ở d ữ l iê u từ v ự n g v à t i ế n g đia p h ư ơ n g

Trong lĩnh vực nghiên cứu ứng dụng tin học xử lý ngôn ngữ tự nhiên, người ta phải xây dựng và tích luỹ các cơ sở dữ liệu (CSDL) t ừ vựng (lexical database) đê từ đó khai thác nhờ các t ừ điên chuyên dụng khác nhau. Đặc điểm chung của các CSDL từ vựng là nguồn dữ liệu r ấ t lớn, không cùng cách tổ chức và không cùng cách biếu diễn bên trong máy tính. Việc bảo trì, cập n h ậ t và khai thác thường gặp r ấ t nhiêu khó khăn.

Một trong nh ững n gu y ê n n h â n là các nguồn dữ liệu t ừ vựng lấy t ừ nhiều nơi, t ừ các từ điên giấy, hoặc t ừ internet, không đồng n h ấ t về cách tổ chức, không hoàn toàn giông n h a u về nội dung. Lấy ví dụ các từ điển tiếng Việt, mỗi tác giả có một cách riêng đê tố chức và diễn giải các mục từ (entry/headword), nhiều khi r ấ t khác n h a u về qu an niệm, vê th u ậ t ngữ.

Đê có được n h ữ n g từ điên phù hợp vói n h u cầu sử dụng khác n h a u trong máy tính, khi ngày nay các dịch vụ mạng, i nt e rn et được phổ cập rộng rãi, cần có giải pháp tổ chức phù hợp cho các nguồn dữ liệu từ vựng. Trong các phương pháp p h â n tích và thiết kê các hệ thô ng t h ô n g tin (cấu trúc, hay hướng đôi tượng), đè có được đối tượng xử lý là các CSDL vật lý, c ầ n xây dựng mô hình ý niệm dữ liệu (data conceptual model), trưốc khi chuyên đôi về một mô hình lôgic dữ liệu (data logical model). Đây là giai đoạn quan trọng mang tính quyết định chất lượng của một hệ thông thông tin. Vì vậy cần có một mô hình ý niệm dữ liệu khi xây dựng một CSDL t ừ vựng.

Hiện nay, n h i ề u từ điển đơn ngữ, đa ngữ về tiếng Việt đã được xây dựng, sử dụng dưới nhiều hì nh th ức như cài đặt tại máy, t r a cứu qua m ạ n g [13]... Nhờ các phương tiện tin học, có thế dễ dàng sưu tập và tích luỹ nguồn dữ liệu t ừ vựng phong phú này đế có được nh ữ n g t ừ điên chuyên dụng đê xử lý tiếng Việt, tuy nhiên vẫ n chưa có n hữ ng từ điên tin học về t iế ng địa phương. Như [1] đã chỉ ra, nghiên cứu tiếng địa phương (hay phương ngôn, phương ngữ) không nhữ ng giúp ích cho việc c h u ẩ n hóa, dạy-học và làm phong phú tiêng Việt, mà còn giúp thực hiện các công trình nghiên cứu tiêng địa phương.

Trong bài báo này, c h ú n g tôi đê x u ấ t giải p h á p xây dựng một mô h ì n h ý niệm dữ liệu để t ừ đó t ạ o nguồn dữ liệu t ừ vựng cho t ừ điên t iế ng địa phương Nghệ-Tĩnh (TĐPNT) có t ê n là Nghê -Tin h Dialectal Dictionary. C h ú n g tôi đã chọn mô h ì n h thực thế-kê t hợp (entity-association model) theo phương p h á p p h â n tích cấu trúc. Chú ng tôi đã chọn t iê ng đ ị a phương Nghệ-Tĩnh n h ư là ví dụ m ẫ u đ ầ u t iê n m i n h hoạ quá t r ì n h t h iế t kê hệ t h ô n g t ừ mô h ì n h dữ liệu đã xây dựng. Các t i ế n g địa phư ơ ng v iệt

(2)

28 P h a n H u y K h á n h Na m khác n h ư B ì n h - T r ị - T h i ê n - H u ế , xứ Quảng, N a m T r u n g Bộ, N a m Bộ sẽ tiếp tục được đưa vào một CSDL từ vựng lớn hơn cũng t ừ mô h ì n h này. Riêng nhữ ng vấ n đề về p h á t â m theo đ ú n g giọng địa phương chưa được giải q u y ế t t r o n g p h ạ m vi bài báo.

2. X ây d ự n g m ô h ì n h d ữ liệ u t ừ v ự n g

2.1. M ô h ì n h ý n i ê m d ữ liê u

Dựa theo cấu t r ú c của một sô" t ừ điển t iếng Việt (8 , 9, 10, 11, 12) và [1], từ điển t in học T Đ P N T là một t ậ p hợp các mục từ. Mỗi mục t ừ được p h i ê n theo cách viết (phục vụ p h á t âm) và có t ừ một đến n hi ều cách giải nghĩa. Mỗi cách giải nghĩa tương ứng với một t ừ loại (word-category) và có t ừ một đế n n h i ề u n g h ĩ a phổ thông (popular meaning). Mỗi n g h ĩ a phổ th ô n g có t h ể có ví d ụ : một hoặc n h i ề u cụm từ, t h à n h ngữ (phrase), câu (sentence) được trích r a t ừ 5 t h ể loại : ca dao, h á t giặm, h á t phường vải, h á t ví và hò-vè Nghệ -Tĩnh . Để đơn giản, các mục t ừ đồng âm n hư ng khác cách giải n g h ĩ a tr on g [1] đều chỉ được xem là một mục từ. M ặ t khác, mỗi nghĩa phổ thô n g x u ấ t hi ện t r o n g CSDL được quy ước là “duy n h ấ t ” (dãy ký t ự có m ặt một lần). Các t ừ ngữ phổ th ô n g không đư a vào làm mục từ tr o ng t ừ điển.

H ìn h 1. Mô hìn h thực t h ể- k ế t hợp cho từ điển tin học TĐPNT.

Mô h ì n h có 5 thực thể: mục t ừ (NT_ENTRY), cách giải nghĩa (EXPLANATION), n g h ĩ a phổ t hôn g (MEANING), cụm t ừ (NT_PHRASE) và câu (NT_SENTENCE). Mỗi thực t h ể có một khóa là thuộc t í n h được i n đậm, ví dụ NT_Entry. Các k ế t hợp giữa các thực t h ể đều là p h â n cấp, có h a i cặp b ả n số là (1-n) và (1-1). C h ẳ n g hạ n , k ế t hợp giữa h a i thực t h ể NT__ENTRY và EXPLANATION được hiểu là : mỗi mục t ừ có tối th iể u 1 và có tối đa n > l cách giải nghĩa, mỗi cách giải ngh ĩa chỉ thuộc về 1 và chỉ 1 mục từ. Trong h ì n h 1, mỗi th ực t h ể là một h ì n h chữ nhậ t, môi k ế t hợp p h â n cấp là một h ì n h ôvan nối với thực t h ể b ằ n g các đoạn t h ẳ n g ghi bả n sô" (cặp các sô n g u y ê n 0 , 1, n).

(3)

Mô h ì n h d ử liêu từ vư n g củ a từ đ iển tin hoc.. 29 Ví dụ mục t ừ b ư n g (trong [1] có 4 mục t ừ riêng) có bốn cách giải n g h ĩ a dựa theo mô h ì n h ý ni ệm n h ư s a u :

1. b ứ n g là đ ộ n g t ừ, có một ng hĩ a phổ th ô n g là m ư n g (nói về m ụ n n h ọ t ha y vết th ươn g sư ng to, p h á t sốt). Ví d ụ bưrtg mủ.

2 . b ư n g là d a n h t ừ, có một n ghĩ a phổ th ô ng là tấ m c h e. Ví dụ, vè N g h ệ - T l n h :

L ấ y tơi nón che sương Đ ất là m bưrtg che gió

3. b ứ n g là độ n g t ừ, có một ng hĩ a phổ th ô n g là che lại, bịt lại.

Ví dụ, h á t giặm N g h ệ - T ĩ n h : G ánh m ột g á n h đ ấ t

Vắt được ba tră m cái nồi Đập m ột con đồi

B ư n g được mười cái trống

4. b ư n g là độ n g t ừ, có ha i nghĩa ph ổ thông.

- bê (dùng t a y n â n g h a y bê lên). Ví dụ, h á t giặm N g h ệ - T ĩ n h : Cỗ bàn rập rin h

B ư n g ra h a i dã y

Ví d ụ khác, h á t giặm N g h ệ - T ĩ n h : Cỗ n ă m m ột bưng ra

- khiêng. Ví dụ h á t giặm N g h ệ - T ĩ n h : Hòn đ ấ t to bưng m à nỏ nổi 2.2. M ô h ì n h lô g ic h d ừ liệ u

Bưốc tiếp theo, c h u y ển mô h ì n h ý niệm dữ liệu về mô h ì n h lôgic dữ liệu, dạ ng các b ả ng dữ liệu và môi q u a n hệ (liên kết lôgic) giữa c h ú n g (có t h ể biểu diễn bởi lược đồ các q u a n hệ).

N T_

PHRASE

NT_

VjSENTENCE^

NT_Sentence

NT_G enre EXPLAN ATIO N

H in h 2. Mô hìn h logic dữ liệu cho từ điển tin học TĐPNT.

(4)

30 P h a n H u y K h á n h Cách c h u y ể n đổi được thực hi ện n h ư s a u : mỗi thực t h ể của mô h ì n h ý n i ệ m dữ liệu trở t h à n h một b ả n g dữ liệu có cùng k h óa với thực thể. Kết hợp giữa h a i t h ự c th ể trở t h à n h q u a n hệ giữa h a i b ả n g b ằ n g cách đ ặ t t h ê m vào b ả n g “con” (phía b ả n sô' 1- 1) khóa “ngoại” là k h óa của b ả n g “c h a ” (phía b ả n sô" 1-n). C h ẳ n g h ạ n t h ự c thể EXPLANATION t h à n h b ả n g EXPLANATION có khó a ngoại là N T _ E nt r y. Mối q u a n hệ m ộ t - n h i ề u giữa các b ả n g là các đường m ũ i t ê n t r on g h ì n h 2 với quy ước ch iều đi từ một đến nhiều.

Từ đây, dữ liệu t ừ vựng được cập n h ậ t trự c tiếp vào các b ả n g để n h ặ n được các tệp CSDL v ậ t lý ở một t r o n g các d ạ n g q u e n thuộc t r on g Windows, n h ư Access MDB, FoxPro DBF, h a y Excel XLS. Để cập n h ậ t dữ liệu được t h u ậ n t iệ n và sử d ụ n g hệ thôn g k h a i t h á c t ừ điển đ ã có ( t h a m k hả o [2, 4, 5, 6, 7]), c h ú n g tôi đã sử d ụ n g m ẫu v ăn b ả n WinWord (d oc um e n t t e m p l a t e ) để l àm mô h ì n h logic dữ liệu. Mô h ì n h biểu diễn CSDL từ vự ng c ủ a t ừ điển t in học T Đ P N T có đ ạ n g tổng q u á t n h ư s a u :

Cấu trúc mâu văn bản Giải thích

N T JE ntry M ụ c từ

N T_P ronciation P h iê n cá c h v iế t củ a m ụ c từ (đ ề p h á t â m )

EXPL_Num _1 Cách giải nghĩa l

EX P L_C ategory_1 T ừ lo ạ i

M eaning_1.1 Nghĩa phổ thông 1 cho cách giải nghĩa 1

NT P hrase 1.1.1 Cụm từ 1 ví dụ cho nghĩa P T 1

N T _P hrase_1 .1.K Cụm từ thứ K, K> 0, ví dụ cho nghĩa PT 1

N T_G enre_1.1.1 Thể loại ví dụ cho nghĩa PT 1

N T_Sentence_1.1.1 Câu tương ứng với thể loại 1

•«•

N T G enre 1.1. L Thể loại thứ L, L> 0, ví dụ cho nghĩa PT 1

N T_ S e n te n ce _ 1 .1 .L C â u tương ứng v ớ i thể lo ạ i L

M eaning_1.M Nghĩa phổ thông M, M> 1, cách giải nghĩa 1

E X PL_N um _N Cách giải nghĩa thứ N, N> 1

H ìn h 3. Mẫ u văn b ả n WinWord của từ diển tin học TĐPNT.

M ẫ u v ă n b ả n gồm các d ạ n g th ức (style). Mỗi d ạ n g thức t h ể h iệ n c á c h định d ạ n g (format) một đ o ạ n v ă n b ả n ( p a r a g r a p h ) là cách sử d ụ n g ph ôn g chữ (font) trong đoạn và t h ể thức t r ì n h bà y đoạn. H ì n h 4 dưới đây m in h hoạ nội d u n g c ủ a mục từ bưng.

(5)

Mô h ì n h d ữ liê u từ v ư n g củ a t ừ đ iển tin hoc.. 31

Ví dụ mục từ bung Tên dạng thức tương ímg

b ư n g N T E n t r y

BUWNG NTPronciation

1 EXPLNum

động từ EXPLCategory

mưng (mụn nhọt hay vết thương sưng to, phát) Meaning

bưng mủ N T P h rase

2 EXPLJNum

danh từ EXPLCategory

tấm che

vè Nghệ Tĩnh : N T Genre

Lấy tơi nón che sương

Đất làm bung che gió N TSentence

3 EXPL Num

động từ EXP L Category

che lại, bịt lại Meaning

hát RỈặnt Nghệ Tình : N T Genre

Gánh một gánh đất Vắt được ba trăm cái nồi Đập một con đồi

Bung được mười cái trống

N TSentence

4 EXPL Num

động từ EXPLjCategory

dùng tay nâng hay bẽ lên Meaning

hát giạm Nghệ Tĩnh : N T Genre

Cô bùn rập rình

Bung ra hai dãy N TSentence

hát giam Nghệ Tĩnh : N T Genre

Cô năm một bimg ra NTJSentence

khiêng Meaning

hát giạm Nghệ Tĩnh : N T Genre

Hòn đất to bưng mà nò nối N T Sentence

H ìn h 4. Ví dụ mục từ bưng của t ừ điển tin học TĐPNT.

Từ điển t iế n g địa phương N g h ệ - T ĩ n h [1] có t ấ t cả 5901 đơn vị mục t ừ được sắp xếp theo t h ứ tự của 30 chữ cái : A(53), Ả(43), Â ( l l ) , B(528), C(891), D(312), Đ(395), DZ(54), E(12), Ê(7), G(238), H(204), 1(12), K(238), L(416), M(437), N(678), 0(36), 0(29), ơ(3), P ( 66), Q(40), R(273), S(196), T(397), TL(15), U(14), Ư(22), V(168), X(113). Các con sô" t r on g cặp d ấ u ngoặc đ ứn g sa u mỗi chữ cái là số lượng mục từ tương ứng.

Từ mô h ì n h lôgic dữ liệu, xây d ựn g được một sơ đồ XML ( e x t e n s i b le M a r k u p L ang ua ge) [3, 8 , 13] b ằ n g cách sử d ụ n g lại t ê n các d ạ n g t hứ c t r o n g m ẫ u v ă n b ả n WinWord t r ê n đây cho các th ẻ (tag) XML.

(6)

32 P h a n H u y K h á n h

<?xml ve rsio n = "1 .0" ?>

<xsl:stylesheet xm ln s:xsl= "http://w w w .w3.org/TRAA/D-xsl" xm ln s= "http://w w w .w 3.org/TR /R E C -htm l40"

result-ns="" />

<!DO CTYPE dictionary SYSTEM "td d p n r>

<dictionary n a m e - ' T D D P N T" source-language="en" target-lang uage="en,vn">

<dictionary>

<NT_Entry> bưng

<N T_P ronciation> /BUVVNG/ </N T_P ronciation>

<E X P L_N um > 1 </E X P L_N um >

<E X P L_C ategory> động từ </E X P L_C ategory>

<M eaning> m ưng (m ụn nhọt hay vết thương sưng to, phát) </M eaning>

<N T_P hrase> bưng mù </N T_Phrase>

<E X P L_N um > 2 </E X P L_N um >

<E X P L_C ategory> danh từ </E X P L_C ategory>

<M eaning> tấm che </M eaning>

<N T_G enre> vè Nghệ Tĩnh : </N T_G enre>

< N T _ S entence> Lấy tơi nón che sương

Đ ắt làm bưng che gió </N T _ S entence>

</NT_Entry>

</dictionary>___________________________________________________________________________________

H ìn h 5. Sơ đồ XML tổ chức dữ liệu cho từ điển tin học TĐPNT.

T rong sơ đồ, s a u p h ầ n tiêu đề k h a i báo p h i ên b ả n của XML và một SC) k h a i báo tuỳ chọn khác, là k h a i báo cấu tr ú c của t ừ điển gồm các k h a i báo mục t ừ n ằ m giữa cặp thẻ là <dictionary> và </dictionary>. Mỗi mục từ, n ằ m giữa cặp thẻ

<N T_ E nt ry> và </ NT_Entry>, là một tổ hợp các p h ầ n tử XML tươn g ứ n g vối các đoạn của m ẫ u v ă n b ả n biểu diễn cấu t r úc lôgic của t ừ điển t i n học TĐ PN T. Ví dụ

p h ầ n t ử <EXP L_C ate go ry> </EXPL_Category>, V. V

Từ cách biểu diễn này, ta n h ậ n được các tệp XML có t ê n tệp (filename) chứa p h ầ n mở rộng là XML. Để gọi được t r ì n h d u y ệ t d u y ệ t xem các tệp XML, cần xây dựng tệp đị nh n g h ĩ a kiểu v ă n b ả n DTD (Document Type Definition) và tệp định nghĩ a kiểu t r ì n h b ày c s s (Cascade Style Sheet).

2.3. C h o n bộ m ã t i ế n g V iêt

Dữ liệu của t ừ điển t in học T Đ P N T là tiếng Việt n ê n cần p h ả i chọn một bộ mã để biểu diễn. Cho đế n nay đã có n h i ề u bộ mã tiến g Việt k há c n h a u được xây dựng và được sử d ụ n g q u e n thuộc ở Việt n a m n h ư TCVN3-ABC, Vi etw are , VNI, BK T PHCM H ầ u h ế t các bộ m ã nà y đề u được xây d ựn g t r ê n bộ mã ÁS C II (1) mở rộng, sử dụ ng 128 vị t r í s a u bảng, t ừ 129 đến 256, theo phư ơ ng p h á p "dựng sẵn " (mã hoá cả 134 chữ Việt viết hoa, viết thường, ghép n g u y ê n â m và d ấ u t h a n h ) . Vì chưa có một bộ mã t iế n g Việt th ôn g n h ấ t (2) , việc t r a o đổi tìm ki ếm t h ô n g ti n t r o n g máy tính, t r ê n các t r a n g Web, gặp n h i ề u khó k h ă n và p h i ề n phức. Giải p h á p t r u n g gian của (!) Hầu hết các bộ mã tiếng Việt hiện nay khác nhau về số bai (byte) sử dụng (1 bai hoặc 2 bai), về cách sắp xếp thú tự các dấu thanh, và về cách bố trí các chữ Việt có dấu (dựng sẵn) trong bộ mã...

*2) Nhiều chuyên gia đề nghị sử dụng Unicode để thống nhất tất cả các bộ mã tiếng Việt.

(7)

Mô h ìn h d ừ liêu từ vitng c ủ a từ đ iển tin hoe.. 33 ch ú n g tôi là sử d ụ n g một bộ mã trục (pivot code) để ch u y ể n đổi qu a lại dễ d à ng giữa các bộ mã. Telex được chọn làm mã trục do telex chỉ sử d ụ n g các ký tự ASCII và q u e n thuộc với n h i ề u người. Ví dụ chuyển từ TC VN3-ABC q u a telex và từ telex qua Unicode, v.v Mã telex đã được chọn để biểu diễn dữ liệu từ vựn g tiế ng Việt của từ điển [4, 5].

2.4. N h ả p n g u ồ n d ử liệ u c h o t ừ đ iê n

Nguồn dữ liệu cho t ừ điển tin học T ĐP N T chủ yếu được lấy t ừ [1]. C h ú n g tôi đã sử d ụ n g phươ ng p h á p đ á n h dấ u quy ước cho tro ng b ả n g 6 dưói đâ y để th ao tác cập n h ậ t được dề d à n g và t ă n g được tốc độ n h ậ p dữ liệu cho nguồn:

Dãy kỷ tự Vị trí Kiêu đoạn (style) Ví dụ gõ vào Kêí quà sau khi xử lý

@ đầu đoạn NT_Entry @bưng bưng

n đầu đoạn EXPL_Num 1 1

Space/Tab đầu đoạn EXPL_Category dt động từ

. đầu đoạn NT_Phrase .b ư n g m ủ bưng IĨ1Ù

.k đầu đoạn NT_Genre .5 N g h ệ Tĩnh :

/ cuối đoạn NT_Sentence

Lấy tơ i n ó n c h e s ư ơ n g /Đ ấ t là m b ư n g c h e g ió

Lấy tơi nón che sương Đất làm bưng che gió H ìn h 6. Bảng đánh dấu quy ưốc n hậ p dữ liệu.

Người sử d ụ n g (NSD) n h ậ p dữ liệu tiến g Việt b ằ n g ph ươ n g p h á p telex t r ê n một tr ìn h soạn t h ả o v ă n b ả n tù y ý, không n h ấ t t h i ế t đ ị n h d ạ n g (nh ư N ot eP ad , hoặc NC Ed itor ), hoặc n h ậ p trực tiếp t r ê n các t r a n g v ă n b ả n WinWord theo m ẫ u văn bả n đã xây d ựn g t r ê n đây. Kiểu đoạn của mỗi đoạn được xác đị n h bởi đ ặ t t h ê m một dãy ký tự quy ước tươn g ứng cho trong bảng, hoặc ở vị t r í đ ầ u đoạn, hoặc ở cuối đoạn, rồi k ế t th úc bởi p h í m E n t e r (tương đương với ký h i ệ u p a r a g r a p h - m a r k ìl). Giá trị của n = 1, 2 cho bi ết đó là cách giải n g hĩ a t h ứ m ấ y t r o n g mục từ. Các từ loại được quy ưốc viết t ắ t n h ư sa u :

d d a n h t ừ p p h ụ từ, h a y tổ hợp p h ụ từ dg động t ừ k k ế t từ, h ay tổ hợp k ế t từ t t í n h từ t r trợ từ, h a y tổ hợp trợ từ

d đại từ th t h á n (cảm) từ, h a y tổ hợp t h á n từ

Giá trị k = 1...5 được quy ước lần lượt là ca dao, h á t giặm, h á t phường vải, h á t ví và h á t vè N g h ệ - T ĩ n h . Ký h iệ u / để n g ắ t dòng các c â u tr íc h đ oạ n ví d ụ tương ứng với t h ể loại k, tương đương vối ký hiệu J ( m a n u a l - l i n e - b r e a k ) . Các đoạ n ngh ĩa phổ thôn g được gõ bì n h thường, k hô n g cần đ ặ t các ký tự quy ưỏc. Cuối cùng, NSD cũng kh ôn g cần gõ p h ầ n p h i ê n theo cách viết theo kiểu gõ telex vì sẽ được tạo r a một cách tự động. Toàn bộ dữ liệu được lưu trữ trong 21 tệp có tên là chữ cái đầ u của các mục từ trong tệp lần lượt là A, B,

c,

D, E, G, H, I, K, L, M, N, o , p, Q, R,

s,

T,

u,

V và X. Như vậy, CSDL nguồn cho từ điển tin học TĐPNT đã được tạo xong gồm các tệp văn bản đán h dấu quy ước ở d ạ ng mã ASCII. Ví dụ một đoạn mã tương ứng với mục từ b ư n g :

(8)

34 P h a n H u y K h á n h

@ buwng 1

dg

muwng (m ujn nhojt hay veest thuw ow ng suw ng to, phast) .buwng mur

2 d taasm che

.4

Laasy towi nosn che suw ow ng/D D aast lafm buwng Che gios

3 dg

che taji, bijt laji .2

Gasnh m oojt gasnh d d a a s W a w s t dduw ow jc ba traw m casi noofi/D D aajp m oojt con ddoofi/Buw ng dduw ow jc m uwowfi casi troosng

4 dg

dufng tay naang hay bee leen

.2

Coox bafn raajp rifnh/B uw ng ra hai daxy

.2

Coox naw m m oojt buw ng ra khieeng

.2

Hofn ddaast to buw ng m af nor noori_________________________________________________________

H ình 7. Đoạn dữ liệu nguồn đá n h dấu quy ước của mục từ bưng trong mã telex.

Từ các tệp dữ liệu nguồn đ á n h d ấ u quy ưốc, dễ d à n g viết các t h ủ tục b ằ n g Macro VBA để c hu yển c h ú n g s a n g vă n b ả n WinWord DOC/RTF nhờ một t h u ậ t toán tổng q u á t ở h ì n h 8 . Nếu nguồn dữ liệu tiếng Việt đã ở d ạ n g mã telex, có t h ể sử dụ n g t r ì n h ch uyể n mã của ƯniKey, hoậc VietKey, v.v để c h u yể n từ m ã telex t h à n h mã TCVN3-ABC, Unicode, hoặc c h uy ển san g một bộ mã nào đó mong muôn, trước khi chuyển s a n g vă n b ả n WinWord.

Thuật toán 1 : C onvert_S rcT ext_ to_W inw ord_D ocum ent

Khởi tạo các biến làm việc trung gian Xác định các tệp nguồn

Do While Chưa hết tệp nguồn M ờ một tệp nguồn

Xác định các tham biên tìm kiếm/thay thế

Xác định kiêu đoạn cần thay thế : R e p la ce m e n t.style = N T_Entry Do W ith Selection.Find

.Text = Dãy ký tự đánh dấu quy ước, chằng hạn “. k \ ..

R eplacem ent.T ext = " "

.Forw ard = True

.W rap = w dF indC ontin ue .Form at = True

End W ith Jh.

S e lection.F in d.E xecute R eplace := wdReplaceAII Loop Until X ử lý hết các dãy ký tự đánh dấu quy ước Loop ‘ Hết tệp nguồn

Ket thúc

H ìn h 8. T h u ậ t toán chuyển nguồn sang văn bả n WinWord.

(9)

Mô h ìn h d ử liêu từ v ư n g c ủ a t ù điên tin hoc.. 35 Tu y n hi ên , do việc ch uy ển mã không q u á phức t ạ p n ê n c h ú n g tôi đã xây dựng t h u ậ t t o á n 2 (Convert_TelexCode_to) để giải qu yế t vấ n đề. Các bước xử lý tương tự t h u ậ t t o á n 1, là xây dự n g một vòng lặp tìm kiếm các đoạ n mã telex của mỗi chữ Việt có dấ u (nguồn) t r o n g tệp v ă n b ả n đ a n g mở để t h a y t h ế bởi mã (đích) tương ứng. Đầu tiên là xử lý (tìm k i ế m / th a y thế) các đoạn m ã telex có độ dài 3, c h ẳ n g h ạ n aaf/ầ, a a r / ẩ , s a u đó xử lý các đoạ n mã telex có độ dài 2, c h ẳ n g h ạ n aa/â, aw/ă Trong trườn g hợp cần tạo n g u ồ n t ừ dữ liệu tiếng Việt kh ôn g ở m ã telex, t h u ậ t toán 3 (Convert_to_TelexCode) thực h iệ n chu yển từ mã hiện h à n h t h à n h m ã telex. Có th ể min h hoạ qu á t r ì n h ch u y ển dữ liệu nguồn đ á n h d ấ u quy ước s a n g các tệp vă n b ả n

W i n W o r d t r o n g m ộ t m ã đ í c h n à o đ ó , c h ẳ n g h ạ n TCVN3-ABC, t r o n g t h u ậ t t o á n s a u :

Xác định các tệp nguồn đánh dấu quy ước If Mã nguồn là telex

Then C onvert_T ele xC ode_to ‘ X ử lý chuyên mã từ telex sang TCVN3-ABC

Else C onvert_to_ T elexC ode ‘ X ừ lý chuyên mã từ TCVN3-ABC sang telex

End If

Xác định lại các tệp nguồn có mã là TCVN3-ABC

C onvert_S rcT ext_ to_W inw ord_D ocum ent

H ìn h 9. T h u ậ t toán chuyển mã.

S a u khi c h u y ể n n g u ồn đ á n h d ấ u quy ước và c h u y ển mã, c h ú n g tôi n h ậ n được CSDL t ừ vựng của t ừ điển tin học T ĐP N T d ư ớ i d ạ n g các tệp v ă n b ả n W i n W o r d

DOC/RTF. Từ đây có t h ể in ra giấy t h à n h từ điển t r a cứu theo m ẫu in tùy ý, hoặc chuyển san g HTML/XML để sử dụng các trình duyệt [5, 6], hay cài đặ t tr ê n CD-ROM.

3. X â y d ự n g t ừ đ i ể n t i n h ọ c T Đ P N T

Cửa sổ l à m việc c h ín h của t ừ điển t i n học T Đ P N T N g h ê - T i n h Dialectal Dictionary gồm 4 vùng. V ùn g 1 có t h a n h tiê u đề ở t r ê n cùn g và t h a n h t r ạ n g t h á i ở dưới cù ng của cửa sổ. V ù n g 2 gồm các lệnh Hệ Thông, ThaoTác, và TrợGiúp. V ù n g 3 gồm các n ú t l ệ n h dễ n h ậ n b iết sử dụng. V ù n g 4 để t r a cứu t ừ điển, gồm cột d a n h sách các mục t ừ b ên t r á i và nội d u n g tương ứ n g ở cột bê n phải. Hệ t h ô n g t r a cứu từ điển T Đ P N T được p h á t t r i ể n từ mã nguồn mở của hệ t h ô n g k h a i t h á c CSDL từ vựng đa ngữ [5, 6 , 7]. N g uy ê n tắc h o ạ t động của h ệ t h ô n g n h ư s a u : các tệp dữ liệu văn b ản DOC được c h u y ể n đổi t h à n h R T F trước k h i ch u yể n đổi s a n g CSDL t r u n g gian Access MDB n h ò các l ệ n h c h u y ển ( da t a import). Tiếp theo, hệ t h ô n g đưa k ế t qu ả lên m àn h ì n h để p h ụ c vụ t r a cứu.

(10)

36 P h a n H u y K h á n h

•Ì5 Nghê-Tinh Dialectal Dictionary a m u

Hệ thống IhôOĨđc Trdộúp -

im

l i s £) M. <0; ~ j ặ *

- ---—....„... ... >..—.... — i

Ì É H

bựa v ô /s

bức *

bức chì bức ki bức má bức vôi

bứi _____________

bừng bựng bươi bư&i bị bư&i đường bười đường đúc bười Phúc Trạch bưỡi Tàu bứt

bữtcò.bỏ ì&m V

bưng

BUWNO 1 động từ

mưng (mụn nhọt hay vết thương sưng to, phát) b ư n g m ủ

2 danh từ

tấm che

vè Nghệ Tĩnh : Lây tơi nón che sương Đất lảm bưng che gió 3

động từ

Typ* or click from Hal Box. NUM 5:23 PM V «r4on1.1

H ìn h 10. Giao diện ch ín h của t ừ điển tin học T Đ P N T .

Các t h a o tá c n h ư s a u : k h i sử d ụ n g N g h ê - T i n h D i a l e c t a l D i c ti o n a r y l ầ n đ ầu tiên, hệ t h ô n g đ ư a r a lời nh ắ c NSD c ần đọc CSDL t ừ vự n g (giai đ o ạ n i m p o r t d a t a to dictionary) t ừ các tệp v ă n b ả n WinWord R T F để c h u y ể n t h à n h CSDL t r u n g gian Access MDB. B ằ n g cách gọi lệ n h đơn C h u y ể n dữ liệu, chọn m ục việc Tạo CSDL mới, khi đó, lần lượt các tệp v ă n b ả n RT F ng uồ n được c h u y ển t ả i vào t ừ điển. N h ữ n g lần chạy chương t r ì n h s a u này, hệ th ô ng mặc n h i ê n sử d ụ n g C S D L t r u n g gi an MDB đã có sẵn. Tu y nh iê n, NSD v ẫ n có t h ể chọn lệ nh bổ s u n g dữ liệ u mối t ừ m ộ t tệp văn b ả n nguồn RT F hợp lệ (lệnh Kết nối vào CSDL), hoặc mở lại C S D L MDB đ ã có (lệnh Mở CSDL có sẵ n) t u ỳ th eo yêu cầu. H ì n h 11 m i n h họa hộp t h o ạ i c ủ a l ện h HệThỐng- Ch u yể n dữ liệu.

•ỉa Im port Data

N g u Ổn RTF iDATuDienDPNgheTinhSData'Artf

r

Đích MDB Chọn việc

Mờ CSDL có Bẩn Kết nối vào CSDL r l ạ o CSDLmới

):VT.úD«wPNQhéT inrm DĐPN T MDB

C hấp n h ậ n ị

Hủy

H ìn h 11. Hộp t h o ạ i lệnh đơn đọc dữ liệu n g u ồ n vào t ừ điển.

(11)

Mô h ì n h d ữ liêu t ừ v itn g c ủ a từ điển tin hoc.. 37 Khi t ừ điển đ ã có dữ liệu và s ẵ n sàng làm việc, NSD tìm chọn để đọc-xem một mục từ từ d a n h sá ch các mục t ừ đã được sắp xếp theo t h ứ tự chữ cái (xem mục 2.1 t r ê n đây) và d ấ u t h a n h : k h ô n g dấu, huyền, ngã, hỏi, sắc, nặ ng. NSD có t h ể sao chép

m ụ c t ừ v à i n r a g i ấ y n ộ i d u n g m ụ c t ừ đ ó, h a y có t h ể s ử a l ạ i m ụ c t ừ n h ờ l ệ n h

T h a o T á c - S ử a lại Mục t ừ (p hí m t ắ t AE). Hệ th ốn g cho p h é p NSD tìm xem lại một mục từ hoặc các m ục t ừ đ ã t r a trước đó từ một d a n h sách, hoặc t h ê m một mục từ mới, hoặc xoá bỏ m ộ t m ục từ.

He thong K J 2 P TroGiup 1 ĩh a o ĩa c Q Q 5 ỊỊQ Ị

1 chuyen Du Lieu Q rl+ Ỉ Ị1 1 Dóc Xem Mùc tu Ctrl+R FI In Noi dung Muc tu ctrl+ p 1 Sua lai Muc tu Ctrl+E

Thoat F4 Thêm Muc tu moi Ctri+A í

Xoá Muc tu Ctrl+D '

Danh sách Tu da tra Ctrl+H L Muc tu truoc

F3 1

H ìn h 12. Một số lệnh đơn của t ừ điển tin học TĐPNT.

Khi ch ạy c h ươ ng t r ì n h , NSD n h ắ p chuột tại n ú t đọc t r ê n t h a n h công cụ để nghe đọc một mục t ừ b ấ t kỳ h i ệ n đ a n g t r a cứu.

4. K ế t l u ậ n

Từ điển t in học T Đ P N T chạy trong Windows 9x. Đây là một đóng góp của ch ú n g tôi tr on g q u á t r ì n h n g h i ê n cứu ứng d ụ n g tin học cho l ĩn h vực xử lý ngôn ngữ tự nhiên, xử lý t i ế n g Việt, góp p h ầ n giải quyết t ừ n g bước n h ữ n g v ấn đề đa ngữ của tiến g Việt đ ặ t ra. T r o n g bối c ả n h này, ch ú ng tôi đã và đ a n g tiếp tục n g h i ê n cứu xử lý tin học về t iế n g Việt n h ư xử lý vă n b ả n tiế ng ÊĐê, t iế ng Chă m, chữ H á n (tiêng T r u n g quốíc, t r ê n cơ sở t ừ H á n - V i ệ t ) và xây d ựn g các t ừ điển đơn ngữ, đa ngữ

Từ điển tin học T Đ P N T giúp NSD nghe hi ểu được lời nói, chữ viết khi tiếp xúc với người N g h ệ - T ĩ n h , h i ể u t h ê m về lịch sử t iế ng Việt, hi ểu t h ê m b ả n sắc v ă n hoá địa phương của một v ù n g đ ấ t miền Trung. Từ điển giúp dạy-họ c môn Tiêng Việt được tốt hơn. Từ k ế t q u ả đã có, có th ể xây dựng một công cụ kiểm sửa lỗi ch ín h tả, ngữ phá p mà NSD, người N g h ệ - T ĩ n h , th ường mắc phải. Đây cũ ng là n h ữ n g yêu tô cần th iế t để tiếp t ụ c xâ y d ự n g các t ừ điển tin học t iế n g địa ph ươ ng khác t r ê n đ ấ t nước Việt Nam.

Với nguồn dữ liệu t ừ v ựn g đã có và với k h ả n ă n g cập n h ậ t , sử a đổi, t ừ điển có t h ể tiếp tục được bổ s u n g mục từ, các trích đoạ n từ các t h ể loại hò, h á t giặm, h á t phường vải, h á t ví, h á t vè, h a y tr ích đoạn văn, thơ, ca dao... có sử d ụ n g các t ừ địa phương N g h ệ - T ĩ n h . Để t ừ đ i ể n t i n học T Đ P N T trở t h à n h một s ả n p h ẩ m h o à n chỉnh, được p h á t t r i ể n và p h ổ b i ế n sử d ụ n g rộng r ã i theo hướng m ã n g u ồ n mở, th o ả m ãn điều kiện mã t i ế n g V iệ t đọc đư ợ c (readability), c ần tiêp tục bổ s u n g các chức n ă n g mới cho N g h ê - T i n h D i a le c t a l Dictionary n h ư k h ả n ă n g t r a chéo mục t ừ (tr a cứu một từ nằ m t r on g p h ầ n giải nghĩa), t r a cứu b ằ n g n h i ề u ph ươ n g p h á p (click-and-see,

a u t o l o o k ), t ì m đ ư a r a c á c c â u n ó i t i ế n g đ ị a p h ư ơ n g t ư ơ n g đ ư ơ n g , v . v

(12)

38 P h a n H u y K h á n h

Lời c ả m ơn: Bài báo t h a m khảo kết quả đồ án tốt nghiệp kỹ sư ngành CNTT của em Lê Thị Phương, sinh viên khoá 1998, đã bảo vệ t h à n h công th án g 6/2003: “Xây dựng từ điển địa phương tiếng Nghệ-Tĩnh” do tác giả hướng dẫn trực tiếp, tại khoa CNTT và ĐTVT, trường Đại học Kỹ th uật, Đại học Đà Nằng. Tác giả chân t h à n h cảm ơn.

T à i liệ u t h a m k h ả o

1. Nguvền Nhã Bản, P h a n Mậu Cảnh, Hoàng Trọng Canh, Nguyền Hoài Nguyên, T ừ điển tiếng địa phương N g h ệ - ĩĩn h, NXB Văn hóa Thông tin, Hà Nội, 1999, 460tr.

2. Ph a n Huy Khánh, Thiết k ế từ điển ph á t âm tiếng Việt trong Microsoft Windows, Tạp chí Khoa học Công nghệ. Số 19+20, 1999, t r .21-27.

3. Phan Huy Khánh (chủ trì), Thiết kê hệ thông khai thác cơ sở dữ liệu từ vựng đa ngừ Pháp-Anh-Việt, Đề tài N C K H cấp Bộ, m ã sô B2001-15-04, Đà N a n g 2001-2002, Lưu Bộ Giáo dục và Đào tạo.

4. Phan Huy Khánh, Võ Tr un g Hùng. Thiết kế cơ sỏ dữ liệu đa ngữ ngữ p h á p tiếng Việt. Tạp chí Khoa học Công nghệ, No 36+37, 2002, tr. 19-24.

5. Phan Huy Khánh, Xây dựng cơ sở dữ liệu từ vựng đa ngữ sử dụng, dạng thức văn bản RTF WinWord, Kỷ yếu Hội thảo Khoa học Quốc gia L ầ n th ứ n h ấ t, ICT.rda’2003 HàNội, 2003, tr l0 3- 11 0 .

6 . M. Mangeot-Lerebours, Environnements centralises et distribués pour lexicographes et lexico-logues en contexte multilingue, L u ậ n án Tiến sĩy 9/2001, UJF, CH Pháp, ĐHTH Joseph Fourrier

7. Hoàng Phê, T ừ điên chính tả, Tr un g tâm Từ điển học, NXB Đà Nẵng, 1995, 511tr.

8. Hoàng Phê, T ừ điển tiếng V iệt, Tr un g t âm Từ điển học, NXB Đà Nẳng, 1997, 1130tr.

9. Nguyền Kim Thản, N g ữ p h á p tiếng V iệt, NXB Giáo dục, 1997, 232 tr.

10. Nguyễn Như Ý, Đ ại từ điển tiếng V iệt, NXB Văn h ó a -T h ô n g tin, Hà Nội 1999, 1892 tr.

(13)

VNU. JOURNAL OF SCIENCE, Nat.. Sci.. & Tech., T.xx, N01, 2004

Mô h ỉn h d ữ liêu từ vitng c ủ a từ đ iển tin hoc... 39

DATA MODELS FOR THE NGHE-TINH DIALECTAL DICTIONARY

P h a n H u y K h a n h The U niversity o f D an a n g

In th e r e s e a r c h of n a t u r a l lang ua ge proce ss ing (NLP), one m u s t always a c c u m u l a t e a n d u p d a t e of more from m a n y of lexical d a t a res ou rces of h e te r o g e n e o u s f o r m a t s for v a ri o u s applications. T h es e re so ur ce s a re often difficult to m a i n t a i n a n d to m a n i p u l a t e . It is ne ces sa ry r e c o n s t r u c t i n g a specific dictionary for every new ap plication. Following the m e t h o d s of a n a l y s i s a n d design of the i nf or m a tio n sys tems, it is ne ce ss a ry to c rea te a d a t a c on cep tua l model a n d t h e n convert it in a d a t a logical model in order to co n s t r u c t a lexical d a t a base. C u r r e n t l y in Vi etn am , t h e r e are a l r e a d y some V ie tn a m is e d ic ti on ar ie s on c om put er, b u t it do esn't ex ist more di al ec ta l dictionary.

We p r e s e n t in t h i s p a p e r a solution of c o n s t r u c t i n g of d a t a models in or der to c reate a N g h e - T i n h dial ect al dictionary. We c o n s t r u c t a n e n ti t y - a s s o c i a ti o n model to r e p r e s e n t the r e l a t i o n s h i f b etw een the e n t r y (headword), e x p la n at i on , po pu la r mea ning , p h r a s e e t se n te nc e from a publish p a p e r N g h e - T i n h d ia le c ta l dictionary.

This model is co nve rt into WinWord d o c um e nt f o rm a t to u p d a t e th e N gh e - T i n h dialectal lexical d a t a b a s e in the pivot telex code. By u si n g a n open sources of a software sy st em of c o ns ul tin g th e m ul ti lig ua l lexical d a t a b a s e developed by us a t the U n i v e rs i ty of D a n a n g , we have build a first vers ion of N g h e - T i n h dialectal dictio nar y on c om pu ter . The lexical resource of th is d ic t i o n ar y c o n ta in s a bo u t 5000 e n tr i e s wi th the possibility of u p d a t e a n d rea da b le . In th e s a m e time, the e n ti t y - association model is also co nverted into Access MDB table a n d XML format.

Tài liệu tham khảo

Tài liệu liên quan

Nhiều công trình sử dụng phương pháp gom cụm dựa trên K-Means nhằm thực hiện bài toán tìm kiếm ảnh đã được công bố gần đây như: Sử dụng thuật toán K-Means kết hợp

Dữ liệu tái phân tích ERA-Interim được nghiên cứu nhằm bổ sung thông tin về khí tượng cho vùng không có dữ liệu, ứng dụng cho lưu vực sông Lô tính

động đã được các cơ quan đo đạc bản đồ quốc gia ở một số nước phát triển áp dụng vào thực tế sản xuất. Các công cụ này tương đối nghèo nàn, chủ yếu dành

Mô hình dữ liệu mức quan niệm trên có tích hợp thêm các lớp ngữ nghĩa để phục vụ cho một ứng dụng cụ thể. CSDL quan hệ đối tượng.. Phần 3 trình bày CSDL mức logic

** ThS, Trường Đại học Đồng Tháp.. Vì vậy, việc nghiên cứu nhằm đưa ra các giải pháp cho phép chuyển đổi dữ liệu từ các cơ sở dữ liệu quan hệ của Web hiện tại sang mô

Từ nhu cầu đó, chúng tôi xây dựng CSDL hình ảnh để nhận dạng, tra cứu đặc điểm một số giống thóc nhằm giảm công sức lao động, các cán bộ kỹ thuật kiểm định chất lượng

Cấu trúc đã nêu ra thực hiện theo nguyên tắc phân cách các Component thuộc về thiết bị với các Component thuộc về Software, như vậy, khi thay đổi trong hệ thống thiết

Phần mềm ñáp ứng ñồng thời 2 nhiệm vụ: phục vụ công tác giảng dạy, học tập và từng bước ñáp ứng nhu cầu thông tin tra cứu thông tin chuyên ngành của