KFCM-F và trong không gian nhân gọi là KFCM-K [4].

(1)

PHƯƠNG PHÁP PHÂN CỤM MỜ CỘNG TÁC ĐA NHÂN VÀ ỨNG DỤNG VÀO BÀI TOÁN XẾP LOẠI SINH VIÊN

Đặng Trọng Hợp^1*, Ngô Thành Long²

1Trường Đại học Công nghiệp Hà Nội

2Học viện Kỹ thuật Quân sự

TÓM TẮT

Phân cụm dữ liệu, đặc biệt phân cụm dữ liệu mờ bằng thuật toán FCM và các thuật toán cải tiến như phân cụm dữ liệu cộng tác đã được ứng dụng rộng rãi trong nhiều bài toán nhận dạng, phân tích và khai phá dữ liệu. Hiện nay việc xếp loại sinh viên trong các trường đại học là “cứng” theo kết quả học tập hoặc kết quả rèn luyện hoặc cả hai. Bài báo đề xuất thuật toán phân cụm mờ cộng tác kết hợp kỹ thuật đa nhân ứng dụng vào xếp loại sinh viên, thuật toán cho phép xếp loại sinh viên mềm đồng thời dựa vào cả kết quả học tập và rèn luyện. Ngoài các thử nghiệm và đánh giá qua chỉ số, thuật toán đã được cài đặt dưới dạng module phần mềm tích hợp vào hệ thống quản lý đào tạo tại Trường Đại học Công nghiệp Hà Nội, dữ liệu cộng tác có thể là kết quả học tập của các môn, các khoa, các phân hiệu nhằm xếp loại sinh viên và đưa ra các thông tin giúp phân tích đánh giá, nâng cao kết quả đào tạo.

Từ khóa: phân cụm; phân cụm cộng tác;kỹ thuật nhân; kỹ thuật đa nhân; xếp loại sinh viên GIỚI THIỆU^*

Phân cụm là một công cụ toán học dùng để phát hiện cấu trúc hoặc các mẫu nào đó trong tập dữ liệu, theo đó có đối tượng bên trong cụm dữ liệu thể hiện bậc tương đồng nhất định. Kỹ thuật phân cụm được áp dụng trong rất nhiều lĩnh vực như khai phá dữ liệu, nhận dạng mẫu, xử lý ảnh…Với tư cách là một chức năng khai phá dữ liệu, phân cụm cũng có thể được sử dụng như một công cụ độc lập để quan sát đặc trưng bên trong sự phân bố của dữ liệu. Các thuật toán phân cụm dữ liệu đã được quan tâm nghiên cứu và ứng dụng rộng rãi như: thuật toán phân cụm k-means và các cải tiến của nó [1]; họ các thuật toán phân cụm mờ Fuzzy c-means [2] [3].

Một trong những khó khăn khi thực hiện phân cụm là do sự phức tạp và đa dạng của dữ liệu, sự phức tạp có thể do nhiều nguyên nhân khác nhau như: kích thước dữ liệu, nhiều loại thuộc tính dữ liệu khác nhau, tính đa dạng của nguồn gốc dữ liệu… Gần đây một trong những kỹ thuật được nghiên cứu để khắc phục vấn đề này là phương pháp nhân [4] [5], trong đó dữ liệu đầu vào được biến đổi thông qua một hàm nhân phi tuyến thành một không gian dữ liệu mới mà ở đó sự phân cụm dữ liệu được thực hiện tuyến tính và dễ dàng hơn.

*Tel: 0983 144899, Email: dangtronghop@gmail.com

Một hướng nghiên cứu khác giải quyết vấn đề phức tạp của dữ liệu là thực hiện phân cụm dựa trên hạt tổng hợp thông tin từ nhiều mẫu, sử dụng mức thông tin trừu tượng của dữ liệu thay vì thông tin chi tiết từng mẫu dữ liệu [6].

Các bài toán nhận dạng và phân cụm dữ liệu thường xuyên phải đối mặt với vấn đề không chắc chắn của dữ liệu trong thực tế. Phân cụm dữ liệu sử dụng tập mờ loại 2 đã được quan tâm nghiên cứu và thu được nhiều kết quả tích cực trong thời gian gần đây [7][8].

Phân cụm mờ cộng tác được giáo sư Pedrycz đề xuất [9] như là công cụ để tìm ra những cấu trúc và nhóm tương đồng của nhiều tập dữ liệu rời rạc có liên quan với nhau. Có 2 đặc điểm của phân cụm dữ liệu cộng tác, một là dữ liệu chi tiết ở các tập không thể trao đổi với nhau mà chỉ có thể trao đổi thông tin về cấu trúc, hai là cần xem xét việc phân cụm ở tập dữ liệu này có tác động và chia sẻ tới việc phân cụm ở các tập dữ liệu khác [9], [10], [11], [16]. Một ví dụ về dữ liệu và kết quả của việc phân cụm cộng tác khi có nhiều tập dữ liệu và cấc tập đó có sự cộng tác trong quá trình phân cụm được mô tả trong Hình 1.

Theo đó, nếu thực hiện phân cụm riêng lẻ từng tập dữ liệu ta sẽ có kết quả như hình (a), nếu thực hiện quá trình phân cụm cộng tác để điều chỉnh sẽ cho kết quả như hình (b). Rõ ràng nếu nhìn toàn bộ dữ liệu của cả 2 tập dữ

(2)

liệu ta sẽ thấy kết quả hình (b) hợp lý hơn do hình dạng của cấu trúc cụm của 2 tập có sự tương đồng.

Hình 1. Kết quả phân cụm (a) trước cộng tác, (b) sau khi cộng tác

Tiếp tục các kết quả của Pedrycz, nhóm của Coletta nghiên cứu các phương pháp tối ưu hóa tham số như tính toán mức độ cộng tác giữa các cặp tập dữ liệu, tính toán tối ưu số cụm dữ liệu trong các tập [16]. Ngoài ra, phương pháp phân cụm dữ liệu cộng tác cũng được nghiên cứu và ứng dụng trong trường hợp dữ liệu có nhiều khung nhìn khác nhau tương ứng với các thuộc tính khác nhau, kết quả phân cụm theo từng khung nhìn có thể cộng tác với nhau [12]. Nhiều hướng nghiên cứu mở rộng cũng như ứng dụng phân cụm mờ cộng tác khác đã được nghiên cứu như:

Zhou giới thiệu giải thuật phân cụm cộng tác trong mạng phân tán P2P [17]; Thuật toán phân cụm cộng tác lai tính toán hạt cũng được nhóm của Z. Han nghiên cứu ứng dụng trong bài toán xếp hạng các nhà cung cấp gas [13];

Yan Liu trình bày phương pháp phân cụm mờ cộng tác cho dữ liệu khoảng có quy mô lớn [14]; Trong nghiên cứu của mình, Z.

Dengcũng đưa ra một hướng tương tự phân cụm cộng tác là phân cụm dựa trên trao đổi mẫu (tâm cụm) [15].

Đánh giá kết quả học tập và phân loại sinh viên là một trong những vấn đề quan trọng của quá trình đào tạo. Hiện nay các quy định của Bộ Giáo dục và Đào tạo về xếp loại học lực và rèn luyện của sinh viên đều dựa theo thang điểm cứng, kết quả học tập của các cơ sở đào tạo, các đối tượng sinh viên khác nhau trong cùng một trường thường có sự khác biệt do chủ quan đánh giá. Do đó, cần có một công cụ xếp loại mềm, sử dụng nhiều tiêu chí

đánh giá và công cụ để so sánh, điều chỉnh kết quả phân loại của các nhóm đối tượng khác nhau một cách khách quan là cần thiết.

Bài toán phân cụm dữ liệu mờ cộng tác đã được nhiều tác giả nghiên cứu, tuy nhiên tập mờ không giải quyết tốt vấn đề phân cụm dữ liệu khi sự chia tách giữa các cụm là phi tuyến. Bài báo này trình bày một phương pháp áp dụng kỹ thuật đa nhân vào bài toán phân cụm mờ cộng tác để giải quyết vấn đề trên bằng cách sử dụng các hàm nhân phi tuyến để chuyển đổi không gian dữ liệu đầu vào sang một không gian dữ liệu khác. Ngoài các dữ liệu thử nghiệm để đánh giá thuật toán đề xuất, thuật toán cũng được cài đặt dưới dạng một module phần mềm để xếp loại và so sánh kết quả học tập của các nhóm đối tượng khác nhau tại Trường Đại học Công nghiệp Hà Nội

Phần tiếp theo giới thiệu bài toán phân cụm mờ cộng tác, sau đó trình bày giải pháp ứng dụng kỹ thuật đa nhân vào bài toán phân cụm cộng tác và các thử nghiệm, cài đặt ứng dụng trong xây dựng phần mềm phân tích kết quả học tập của sinh viên, phần cuối đưa ra một số kết luận về kết quả đã đạt được.

PHÂN CỤM MỜ CỘNG TÁC ĐA NHÂN Phân cụm cộng tác mờ

Giả sử có P tập dữ liệu D[1], D[2],...,D[P], trong đó chứa N[1], N[2],...,N[P] mẫu dữ liệu trong cùng không gian thuộc tính X. Trong mỗi tập dữ liệu D ta phân thành c cụm. Kết quả phân cụm ở mỗi tập dữ liệu lại tác động tới việc phân cụm ở các khu vực còn lại, chúng ta gọi quá trình này là sự cộng tác giữa và phân cụm cộng tác.

Trong hình 2 các khu vực dữ liệu không trực tiếp trao đổi dữ liệu mà chia sẻ thông tin cấu trúc là ma trận dữ liệu trọng tâm cụm v[jj].

Hình 2. Mô hình phân cụm cộng tác

(3)

Bài toán phân cụm mờ cộng tác có hàm mục tiêu cần tối ưu là:

 

    





 ^[^]

1 1 1

] [

1 1

2 2

~ 2

2 ]

[ [ ] ( [ | ])

ii N

k C

i

P

jj ii N

k c

i

ik ik

ik

ii u iid u u ii jj d

Q  (1)

Phần đầu của hàm mục tiêu tương tự như hàm mục tiêu thuật toán C-Means với uik[ii] là độ thuộc của phần tử thứ k vào cụm i trong tập dữ liệu ii; dik là khoảng cách từ phần tử thứ i tới tâm cụm i. Phần sau của hàm mục tiêu thể hiện sự tối ưu trong quá trình cộng tác.

Tham số β phản ánh mức độ cộng tác giữa các tập dữ liệu. là ma trận độ thuộc tác động của tập dữ liệu jj lên tập ii và được tính theo công thức [16].

~

2 2

2 1 1

1 1

[ | ]

[ii|jj]

| [ ] [ ] |

[ii|jj]

| [ ] [ ] |

ik c

c ik

k i

j jk

j k j

u ii jj

x ii v jj d x ii v jj ^ d



 

  

 

  

 



⁽²⁾

Sử dụng phương pháp Lagrange để tối ưu hàm mục tiêu trên sẽ được công thức tính ma trận phân hoạch và tâm cụm như sau [16]:

2

~ ,

1 ] [

1 ]

[

1 2

2

~ ,

1 ] [

1 ]

[

1 2

])

| [ ] [ ( ]

[

])

| [ ] [ ( ]

[ ] [

jj ii u ii u ii

u

x jj ii u ii u x

ii u ii v

rk P

ii jj jj

ii N

k rk ii

N

k rk

kt rk

P

ii jj jj

ii N

k rk ii

N

k

kt rk rt









   

 





 





 





(3)

) 1 ( 1 (

]

| [ )

1 ( 1 (

]

| [ 1

/ ] 1

[ ¹^,

~

1 , 1

~

1 2

2   















 

 

 











P jj ii u P

jj ii u d

d ii u

P

ii jj jj c rs

j P

ii jj jj

js c

j js rs

rs 



(4) Phân cụm mờ cộng tác đa nhân

Với nhiều tập dữ liệu sự chia tách giữa các cụm là phi tuyến, khi đó một trong những kỹ thuật được áp dụng để giải quyết là nhân và đa nhân. Có 2 cách áp dụng kỹ thuật này là tính toán tâm cụm trong không gian thuộc tính đầu vào gọi là

KFCM-F và trong không gian nhân gọi là KFCM-K [4].

Ứng dụng kỹ thuật đa nhân tính tâm cụm trong không gian thuộc tính nhân trong bài toán phân cụm cộng tác ta xây dựng hàm mục tiêu cho thuật toán phân cụm mờ cộng tác đa nhân như sau:

[ ] [ ]

2 2 ~ 2 2

[ ]

1 1 1 1, 1

[ ]( (x ) ) [ | ] ( [ | ]) ( (x ) )

N ii c N ii P c

ii ik k i ik ik k i

k i k jj jj ii i

Q u ii v ii jj u u ii jj v

     





  

  

  

(5) Với ψ = {ψ1, ψ2, · · · , ψM} là các phép biến đổi phi tuyến sử dụng hàm nhân Kk:

'

( ) ( ) K ( , ) ( ) ( ) 0 |

T

k i k j k i j

T

k i k j

x x x x

x x k k

 



 

Hàm nhân tổng hợp được tính theo

1 1 2 2

(x)  (x)  (x) ... _M _M(x)

       

Trong đó ωk là trọng số của hàm nhân thứ k: ₁  ₂ ... _M 1,  _k

0,

k,

1

[ ] 1,

c js j

u ii s





  ^,^{u ii}^js^{[ ] 0}^{ }^{s j}^, ^.

Sử dụng kỹ thuật Lagrange để tối ưu hàm mục tiêu (5) ta tính được các giá trị sau:

[ ] [ ]

2 ~ 2

1

1 1 1 1, 1

[ ] [ ]

2 ~ 2

1 1 1 1, 1

1 1

[ ] [ | ] ( [ | ])

M

N ii c N ii P c

t

ik ikt ik ik ikt

k i k jj jj ii i

t N ii c N ii P c

ik ikt ik ik ikt

k i k jj jj ii i

u ii ii jj u u ii jj

  



  



     

 



 

    

    

(6)

2 2

1 M

ik ikt t

t

d  





₍₇₎

~ ~

1, 1,

2 1 2

1, 1 1,

[ | ] [ | ] [ | ] [ | ]

1 1

(1 [ | ]) (1 [ | ])

P P

rs c js

jj jj ii jj jj ii

rs P c P

j rs

jj jj ii j js jj jj ii

ii jj u ii jj ii jj u ii jj

u

ii jj d ii jj

d

 

   



    

 

 

  

 

   

 

   

(8)

Với giá trị α tính theo công thức:

[ ] [ ]

2 ~ 2

1 1 1,

[ ] [ ]

2 ~ 2

1 1 1,

[

2 2

1 2 1 2

2 1

[ ] ( , ) [ | ]( [ | ]) ( , )

( , ) 2

[ ] [ | ]( [ | ])

[ ] [ ] ( , )

N ii N ii P

ij t k j ij ij t k j

j j jj jj ii

ikt t k k N ii N ii P

ik ij ij

j j jj jj ii

N

ij ij t j j

j

u ii K x x ii jj u u ii jj K x x K x x

u ii ii jj u u ii jj

u ii u ii K x x







   



 

 

 



  

[ ] ] [ ][ ]

2 ~ 2

1 2 2 1 2

1 1 1 1 2 1 1,

[ ] [ ] 2

2 ~ 2

1 1 1 1 1,

2 ~ 2

1 1

2 [ | ] ( [ | ]) ( , )

[ ] [ | ]( [ | ])

[ | ]( [ | ]) (

N ii ii N ii N ii P

ij ij ij t j j

j j j jj jj ii

N ii N ii P

ik ij ij

j j jj jj ii

ij ij ij

ii jj u u u ii jj K x x

u ii ii jj u u ii jj

ii jj u u ii jj u



    

   

 

 

 

 

 





    

  

[ ] [ii]

~ 2

2 2 1 2

1, 1 1 2 1

[ ] [ ] 2

2 ~ 2

1 1 1 1 1,

[ | ]) ( , )

[ ] [ | ]( [ | ])

N ii N P

ij t j j

jj jj ii j j

N ii N ii P

ik ij ij

j j jj jj ii

u ii jj K x x

u ii ii jj u u ii jj

   

   



 

 

 

 

  

(9) Thuật toán phân cụm mờ cộng tác đa nhân Bản chất của phân cụm cộng tác là để tìm ra cấu trúc chung của các tập dữ liệu thông qua trao đổi cấu trúc cụm. Thuật toán phân cụm mờ cộng tác đa nhân (Multi Kernel Collaborative Fuzzy Clustering – MKCFC) gồm 2 pha: phân cụm trong mỗi tập dữ liệu bằng các thuật toán phân cụm (ví dụ IT2FCM) và tái phân cụm dựa trên sự hợp tác, trao đổi các kết quả phân cụm dữ liệu từ pha 1.

Thuật toán phân cụm cộng tác mờ đa nhân (MKCFC)

Đầu vào: số tập dữ liệu P, số phần tử trong tập dữ liệu thứ ii là N[ii], số cụm trong tập dữ liệu thứ ii là c[ii], số thuộc tính của dữ liệu là n, dữ liệu trong tập thứ ii là X[ii].

(4)

Đầu ra:Kết quả phân cụm.

Pha 1: Phân cụm trong từng tập dữ liệu (Locally Clustering)

Chạy các thuật toán phân cụm mờ với từng tập dữ liệu (IT2FCM)

Pha 2: Quá trình phân cụm cộng tác (Collaborative Clustering)

Lặp

Trao đổi dữ liệu tâm cụm giữa các tập dữ liệu Lặp với mỗi D[ii]

Tính toán ma trận u^~ theo (2) Lặp

Tính ma trận

α

theo (9) Tính ma trận

ω

theo (6) Tính ma trận

u

theo (7) và (8) Đến khi hàm mục tiêu tối thiểu hóa Kết thúc lặp

Đến khi sự thay đổi tâm cụm giữa hai lần lặp nhỏ hơn giá trị xác định.

KẾT QUẢ VÀ BÀN LUẬN

Để đánh giá kết quả hoạt động của thuật toán phân cụm mờ cộng tác đa nhân, thuật toán phân cụm mờ cộng tác [16], thuật toán phân cụm dựa trên mật độ [18] được sử dụng để so sánh bằng các chỉ số đánh giá phân cụm Sum of Squared Error (SSE), Fuzzy Silhouette Criterion (FS) [11], Bezdek’s partition coefficient (PC-I), the Dunn’s separation index (D-I), Separation index (S-I), Classification Entropy index (CE-I) [19], Davies-Bouldin’s Index (DB-I) [20]. Thuật toán tốt hơn sẽ có giá trị DB-I, S-I, CE-I, SSE nhỏ hơn và ngược lại giá trị D-I, PC-I, FS lớn hơn.

Thử nghiệm sử dụng nhân tổng hợp từ 2 nhân: K1 là hàm nhân Gaussian Kernel và K2

là hàm nhân đa thức Polynomial với δ² = 4 trong K1 và c = 20, p=2 trong K2:

  ₂

1

2

, exp , R

2 x y

K x y    ^

 

    



   

2 , . ^P, c R ,

K x y  x yc  ^ PN^

Thử nghiệm với dữ liệu S1, S4

Đây là dữ liệu tổng hợp được sử dụng nhiều trong các bài toán phân cụm tại địa chỉ https://cs.joensuu.fi/sipu/datasets/, là dữ liệu 2 chiều với số phần tử N=5000 và số cụm là 15 theo phân bố Gaussian. Để thực hiện bài toán phân cụm cộng tác, dữ liệu được chia đều ngẫu nhiên thành 4 tập dữ liệu. Kết quả chỉ số đánh giá phân cụm theo thuật toán được mô tả

trong bảng 1 và 2 cho thấy thuật toán đề xuất MKCFC có kết quả tốt hơn các thuật toán kháctrong hầu hết các chỉ số đánh giá và được bôi đậm.

Bảng 1. Chỉ số đánh giá của các thuật toán CFCM, CFSFDP, MKCFC với dữ liệu S1

CFCM CFSFDP MKCFC

FS 4.5381 NA 4.9375

SSE 1.004.183.637.717 NA 372.089.659.351

D-I 0.4843 0.7324 0.5329

DB-I 1.6917 1.5654 1.4871

PC-I 2.0568 NA 3.0325

CE-I 4.7755 NA 3.1051

S-I 2.9499 1.5024 1.3276

Bảng 2. Chỉ số đánh giá của các thuật toán CFCM, CFSFDP, MKCFC với dữ liệu S4

CFCM CFSFDP CIT2FCM

FS 3.6464 NA 3.9672

SSE 660,571,313,435 NA 493.058.642.103

D-I 0.2234 0.5629 0.3514

DB-I 3.1118 3.3503 3.0203

PC-I 1.4510 NA 1.9672

CE-I 6.5427 NA 4.6431

S-I 1.1544 1.7297 1.0436

Module phần mềm xếp loại sinh viên Đối tượng và dữ liệu để phân loại: đối tượng xếp loại có thể là sinh viên của một lớp, một ngành và cộng tác với 1 hoặc nhiều lớp/ngành khác. Dữ liệu dùng xếp loại có thể là kết quả học tập của môn học, điểm trung bình học kỳ hoặc điểm tích lũy, có hoặc không kết hợp với kết quả rèn luyện thể hiện qua hình 3.

Hình 3. Lựa chọn đối tượng và kết quả xếp loại Các hình thức xếp loại sinh viên:

Để so sánh phần mềm cài đặt 3 hình thức xếp loại sinh viên:

Xếp loại theo quy chế đào tạo: thực hiện xếp loại sinh viên theo quy chế đào tạo tín chỉ và xếp loại rèn luyện hiện nay.

Xếp theo thuật toán FCM: xếp loại tự động hoàn toàn dựa vào kết quả học tập, hoặc kết quả học tập và rèn luyện bằng thuật toán FCM.

Xếp loại theo thuật toán phân cụm mờ cộng tác đa nhân MKCFC: thực hiện việc xếp loại

(5)

theo thuật toán FCM, sau đó sự cộng tác được thực hiện trên các đối tượng dữ liệu để điều chỉnh kết quả đảm bảo có sự tương đồng cao hơn giữa các nhóm đối tượng bằng thuật toán phân cụm cộng tác MKCFC

Kết quả so sánh các hình thức xếp loại:

Thực hiện so sánh kết quả học tập và xếp loại sinh viên theo từng phương pháp khác nhau, giúp cho người dùng có sự so sánh về kết quả học tập của các đối tượng được lựa chọn. Kết quả xếp loại được hiển thị trực quan qua biểu đồ để người dùng dễ dàng đánh giá, so sánh kết quả đào tạo của các nhóm sinh viên khác nhau và phân tích qua các phương pháp xếp loại gồm các thông tin: Tỷ lệ % học sinh giỏi, khá, trung bình, yếu của từng nhóm đối tượng và theo từng tiêu chí khác nhau. Ngoài ra biểu đồ cũng thể hiện được: điểm trung bình học tập và rèn luyện của từng hạng, từng nhóm đối tượng.

Hình 4. Xếp loại sinh viên theo kết quả học tập

Hình 5. Xếp loại sinh viên theo kết quả học tập và rèn luyện

Kết quả so sánh điểm học kỳ 1 của lớp Cơ khí 1 (CK1) và lớp Kế toán 1(KT1) hệ Đại học khóa 4 (2009-2013) của Trường Đại học Công nghiệp Hà Nội thể hiện trong Hình 4 và 5 cho thấy một số nhận xét sau:

- Tỷ lệ sinh viên khá giỏi của lớp KT1 là cao hơn nhiều so với lớp CK1, con số này ngược lại với sinh viên trung bình và yếu phản ánh kết quả học tập khối kinh tế tại Trường Đại học Công nghiệ Hà Nội thường cao hơn khối kỹ thuật.

- Nếu để máy tự động xếp loại so với xếp loại cứng theo quy chế thì tỷ lệ sinh viên khá, giỏi của lớp CK1 sẽ tăng lên và ngược lại với tỷ lệ

sinh viên trung bình và yếu giảm đi. Đối với lớp KT1 thì tỷ lệ sinh viên xếp loại giỏi và trung bình tăng, sinh viên khá và yếu giảm.

Điều này là hợp lý khi chất lượng đầu vào ngành cơ khí các khóa này thường cao hơn khối ngành kế toán

- Nếu thực hiện việc xếp loại có tính cộng tác, tức có sự ảnh hưởng của các nhóm đối tượng với nhau thì lớp CK1 sinh viên chỉ tập chung vào 3 loại: khá, trung bình và yếu còn sinh viên lớp KT1 thì tập chung vào 2 loại giỏi và khá. Điều này phản ánh nếu lấy tiêu chí trung bình của cả khối ngành kế toán và cơ khí thì sinh viên cơ khí không có xếp loại giỏi.

KẾT LUẬN

Bài báo đã trình bày một số vấn đề cơ bản của bài toán phân cụm dữ liệu, phân cụm dữ liệu cộng tác. Nhóm tác giả đã đưa ra được mô hình ứng dụng kỹ thuật đa nhân vào bài toán phân cụm dữ liệu cộng tác, mô hình này đã được chứng minh và cài đặt thử nghiệm với các đối tượng dữ liệu khác nhau và được đánh giá qua các chỉ số chất lượng phân cụm. Các kết quả thử nghiệm cho thấy mô hình và thuật toán đề xuất cho kết quả tốt hơn các mô hình đã có.

Module phần mềm đã được cài đặt trên dữ liệu quản lý đào tạo của Trường Đại học Công nghiệp Hà Nội cho phép xếp loại sinh viên theo nhiều phương pháp khác nhau: xếp loại theo quy chế đào tạo, xếp loại theo phân cụm mờ FCM, xếp loại theo phân cụm mờ cộng tác đa nhân MKCFC. Phần mềm cũng cho phép so sánh kết quả học tập của các nhóm đối tượng khác nhau cũng như giữa các phương pháp xếp loại.

LỜI CÁM ƠN

Bài báo được thực hiện trong phạm vi tài trợ của Quỹ Phát triển Khoa học và Công nghệ (NAFOSTED) theo đề tài số 102.05-2016.09.

TÀI LIỆU THAM KHẢO

1. J. B. MacQueen (1967), Some Methods for classification and Analysis of Multivariate Observations, Proc. 5th Berkeley Symp. Math.

Stat. Probab.

2. Dunn (1973), A fuzzy relative of the isodata process and its use in detecting compact well- separated clusters, J. Cybern., pp. 32–57.

(6)

3. J. C. Bezdek, Pattern recognition with fuzzy objective function algorithms, Plenum Press.

4. D. Graves and W. Pedrycz (2010), Kernel- based fuzzy clustering and fuzzy clustering : A comparative experimental study, Fuzzy Sets Syst., vol. 161, no. 4, pp. 522–543.

5. H. Huang, Y. Chuang, and C. Chen (2012), Multiple Kernel Fuzzy Clustering, Trans. FUZZY Syst., vol. 20, no. 1, pp. 120–134.

6. A. Gacek and W. Pedrycz, Clustering Granular Data and Their Characterization With Information Granules of Higher Type, Trans.

FUZZY Syst., vol. 23, no. 4, pp. 850–860, 2015.

7. O. Linda, S. Member, M. Manic, and S.

Member, General Type-2 Fuzzy C-Means Algorithm for Uncertain Fuzzy Clustering, Trans.

FUZZY Syst., vol. 20, no. 5, pp. 883–897, 2012.

8. P. Melin and O. Castillo, A review on type-2 fuzzy logic applications in clustering , classification and pattern recognition, Appl. Soft Comput. J., vol. 21, pp. 568–577, 2014.

9. Witold Pedrycz, Collaborative and knowledge based Fuzzy Clustering, International Journal of Innovative Computing, Information and Control ICIC International, ISSN 1349-4198 Volume 3, pp. 1-12. 2007

10. Witold Pedrycz, Collaborative fuzzy clustering, Pattern Recognition Letters 23, pp.1675–1686, 2008.

11. Witold Pedrycz, Collaborative clustering with the use of Fuzzy C-Means and its quantiﬁcation, Fuzzy Sets and Systems, pp. 2399 – 2427, 2008.

12. Yizhang Jiang; Fu-Lai Chung; Shitong Wang;

Zhaohong Deng; Jun Wang; PengjiangQian, Collaborative Fuzzy Clustering From Multiple

Weighted Views, IEEE Trans.on Cybernetics, pp.

1-13,2014.

13. Z. Han, J. Zhao, Q. Liu, and W. Wang, Granular-computing based hybrid collaborative fuzzy clustering for long-term prediction of multiple gas holders levels, Inf. Sci. (Ny)., vol.

330, pp. 175–185, 2016.

14. Y. Liu and F. Yu , Collaborative Fuzzy Clustering Method for Large Scale Interval Data, Control Decis. Conf., pp. 3906–3911, 2016.

15. Z. Deng, S. Member, Y. Jiang, and F. Chung,

“Transfer Prototype-Based Fuzzy Clustering”

Trans. FUZZY Syst., vol. 24, no. 5, pp. 1210–

1232, 2016.

16. Luiz F. S. Coletta, Lucas Vendramin, Eduardo Raul Hruschka, Ricardo J. G. B. Campello, Witold Pedrycz, Collaborative Fuzzy Clustering Algorithms: Some Refinements and Design Guidelines, IEEE Transaction on Fuzzy Systems, Vol. 20, NO. 3, pp. 444-462, 2012.

17 Jin Zhou,C. L. Philip Chen, Long Chen, Han- Xiong Li, Collaborative Fuzzy Clustering Algorithm in Distributed Network Environments, IEEE Trans.on Fuzzy Systems, pp. 1-14, 2014.

18. Alex Rodriguez and Alessandro Laio, Clustering by fast search and find of density peaks, Science VOL 344 ISSUE 6191,pp1492- 1496, 2014.

19. M. Ramze Rezaee, B.P.F. Lelieveldt, J.H.C.

Reiber, A new cluster validity index for the fuzzy c-mean, Pattern Recognition Letters 19, pp. 237–

246, 1998.

20. D. Davies, David L.; Bouldin, Donald W. A Cluster Separation Measure. IEEE Transactions on Pattern Analysis and Machine Intelligence.

PAMI-1 (2): pp. 224–227, 1979.

SUMMARY

SOFT CLASSIFICATION OF STUDENTS BASED ON MULTI KERNEL COLLABORATIVE FUZZY CLUSTERING

Dang Trong Hop^1*, Ngo Thanh Long²

1Hanoi University of Industry

2Le Quy Don Technical University Clustering of data, particularly FCM algorithm and its innovations, such as collaborative clustering is found as one of the best useful tools for data analysis, data mining, and pattern recognition.

Currently the classification of students in Vietnamese universities is "hard classification"

according to learning results or conduct or both of them. The paper proposed collaborative fuzzy clustering algorithm using multi kernel which is “soft classification” and applying on student classification based on both learning results and student’s conduct. This method is evaluated by some experience and implemented as software module in the HaUI (Hanoi University of Industry)’s Training Management Systems, which helped to asses and improve the training process.

Keywords: Fuzzy clustering; Collaborative clustering; Kernel; Multi Kernel; Student classification Ngày nhận bài: 30/01/2018; Ngày phản biện: 06/02/2018; Ngày duyệt đăng: 05/3/2018

*Tel: 0983 144899, Email: dangtronghop@gmail.com