• Không có kết quả nào được tìm thấy

TÌM HIỂU VỀ MAXIMUM ENTROPY CHO BÀI TOÁN PHÂN LỚP QUAN ĐIỂM

Protected

Academic year: 2022

Chia sẻ "TÌM HIỂU VỀ MAXIMUM ENTROPY CHO BÀI TOÁN PHÂN LỚP QUAN ĐIỂM"

Copied!
32
0
0

Loading.... (view fulltext now)

Văn bản

Tôi xin bày tỏ lòng biết ơn chân thành và sâu sắc tới Thạc sĩ Nguyễn Thị Xuân Hương (Trường Đại học Dân lập Hải Phòng) đã giảng dạy, hướng dẫn tôi trong suốt quá trình nghiên cứu và thực hiện luận văn này. Tôi xin bày tỏ lòng biết ơn chân thành và sâu sắc tới các thầy cô giáo đã giảng dạy tôi trong suốt thời gian học tập tại Trường Đại học Dân lập Hải Phòng cũng như đã giúp đỡ, động viên tôi trong suốt quá trình làm việc. Và em xin bày tỏ lòng biết ơn, biết ơn vô hạn tới cha, mẹ, những người thân yêu đã nuôi nấng, dạy dỗ em và luôn là chỗ dựa tinh thần cho em trong cuộc sống cũng như trong học tập.

Những quan điểm và khuynh hướng này sẽ có ảnh hưởng mạnh mẽ đến định hướng và quan điểm của những người dùng khác. Việc nghiên cứu các phương pháp học máy để phân loại bài toán quan điểm đã thu hút một số lượng lớn các nhà nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên và khai phá dữ liệu. Chính vì lẽ đó, tôi đã chọn đề tài “Tìm hiểu entropy cực đại cho bài toán phân loại quan điểm” làm luận văn tốt nghiệp của mình.

BÀI TOÁN PHÂN LỚP QUAN ĐIỂM

NHU CẦU VỀ THÔNG TIN QUAN ĐIỂM VÀ NHẬN XÉT

Bởi vì các công ty lớn đang ngày càng nhận ra rằng tiếng nói của người tiêu dùng có thể có tác động rất lớn đến việc định hình ý kiến ​​của những người tiêu dùng khác, lòng trung thành với thương hiệu của họ, việc mua hàng và đối với thương hiệu của chính họ. Các doanh nghiệp có thể tận dụng những người tiêu dùng mà họ tạo ra thông qua phương tiện truyền thông xã hội. Tuy nhiên, các nhà phân tích trong ngành lưu ý rằng việc sử dụng phương tiện mới cho mục đích hình ảnh sản phẩm đòi hỏi công nghệ mới.

Các nhà tiếp thị phải luôn theo dõi các phương tiện truyền thông để biết thông tin liên quan đến thương hiệu của họ, cho dù đó là hoạt động quan hệ công chúng, vi phạm gian lận hay thông tin cạnh tranh. Technorati ước tính rằng 75.000 blog mới được tạo ra mỗi ngày, cùng với 1,2 triệu bài viết mỗi ngày, nhiều trong số đó là ý kiến ​​của người tiêu dùng về sản phẩm và dịch vụ.

BÀI TOÁN PHÂN LỚP QUAN ĐIỂM

Phân loại tài liệu theo quan điểm thực sự là một bài toán khó và thách thức trong lĩnh vực xử lý ngôn ngữ. Đây là bản chất phức tạp của ngôn ngữ loài người, đặc biệt là tính đa nghĩa và tính mơ hồ của ngôn ngữ. Sự mơ hồ này rõ ràng sẽ ảnh hưởng đến độ chính xác của bộ phân loại của chúng tôi ở một mức độ nhất định.

Một khía cạnh thách thức của điều này dường như tách nó ra khỏi phân loại chủ đề truyền thống là trong khi các chủ đề này chỉ được xác định bằng từ khóa, các ý kiến ​​có thể diễn đạt một cách tinh tế hơn. Ví dụ, câu sau: "Làm thế nào có ai có thể ngồi qua bộ phim này?" không chứa một hàm ý đơn lẻ, mà rõ ràng là một hàm ý tiêu cực. Do đó, quan điểm dường như đòi hỏi sự hiểu biết nhiều hơn, tinh tế hơn.

NHIỆM VỤ CỦA BÀI TOÁN PHÂN LỚP QUAN ĐIỂM

  • Trích các đặc trưng
  • Xây dựng mô hình phân lớp để phân loại tài liệu

Các kỹ thuật phân tích ngôn ngữ tự nhiên khác, chẳng hạn như xóa: dừng từ, xuất phát, cũng được sử dụng trong giai đoạn tiền xử lý để loại bỏ các từ và cụm từ quan điểm. Phương pháp chính để xác định xu hướng quan điểm của các từ và cụm từ tình cảm dựa trên số liệu thống kê hoặc từ vựng. Trong một tài liệu, một Ngram là một cụm từ được tạo thành từ một số từ liên tiếp xuất hiện trong tài liệu đó.

Và do đó, một Bigram là một cụm từ gồm hai từ liên tiếp xuất hiện trong cùng một văn bản. Xây dựng tính năng: Sử dụng mô hình ngôn ngữ N-gram để xây dựng các mệnh đề thông tin ngữ cảnh, từ đó xây dựng các tính năng trước khi huấn luyện mô hình. Sau khi có được một bộ N-gram, chúng tôi tiến hành xây dựng các đề xuất thông tin ngữ cảnh.

Mệnh đề mô tả thông tin ngữ cảnh là một câu lệnh chỉ ra rằng văn bản hiện tại có chứa một số N-gram. Cách nguyên lý Entropy cung cấp cho việc xây dựng tính năng: một tính năng là sự kết hợp của một mệnh đề mô tả thông tin theo ngữ cảnh. Cần lưu ý rằng số lượng đề xuất thông tin ngữ cảnh được tạo ít hơn số N-gram (vì có N-gram trùng lặp cũng xuất hiện trong tài liệu) và không bằng số lượng tính năng. ..i) Chiến lược loại bỏ từ dừng.

Kiểm tra phân loại văn bản bằng tiếng Anh, sau khi dừng lọc từ, đã tăng đáng kể độ chính xác của đào tạo. Trên thực tế, có những mệnh đề chứa thông tin ngữ cảnh xuất hiện thường xuyên trong văn bản và những mệnh đề chứa thông tin ngữ cảnh rất hiếm khi xuất hiện. Để loại bỏ các đề xuất thông tin ngữ cảnh không quan trọng này, chiến lược lọc ngưỡng chỉ cần đặt ngưỡng cho sự xuất hiện của một câu lệnh thông tin ngữ cảnh trong toàn bộ tập hợp các câu lệnh thông tin ngữ cảnh: nếu số lần xuất hiện nằm ngoài một phạm vi nhất định, nó sẽ bị loại bỏ.

Sau khi xây dựng bộ đặc trưng, ​​chúng ta tiến hành huấn luyện mô hình.

MÔ HÌNH ENTROPY CỰC ĐẠI

  • GIỚI THIỆU
  • XÂY DỰNG MÔ HÌNH
    • Tập dữ liệu huấn luyện
    • Những thống kê, đặc trưng và ràng buộc
    • Nguyên lý Entropy cực đại
    • Dạng tham số
    • Mối quan hệ với cực đại Likelihood
  • BÀI TOÁN PHÂN LỚP QUAN ĐIỂM SỬ DỤNG PHƢƠNG PHÁP HỌC MÁY
  • DỮ LIỆU THỬ NGHIỆM
  • CÔNG CỤ SỬ DỤNG
    • Công cụ sinh SRIML
    • Công cụ phân lớp dữ liệu Maxent
    • Kết quả thực nghiệm ................................................................................. Error! Bookmark not defined

Khối xây dựng của mô hình này sẽ là một tập hợp các số liệu thống kê từ mẫu đào tạo. Khi tìm hiểu về số liệu thống kê và thấy chúng hữu ích, chúng ta có thể thấy tầm quan trọng của chúng bằng cách khớp những gì trong mô hình của chúng ta với nó. Chúng tôi làm điều này bằng cách ràng buộc các giá trị mong đợi mà mô hình gán cho các hàm tính năng tương ứng (f). x) là phân phối thực nghiệm của x trong mẫu huấn luyện.

Bằng cách thu hẹp sự chú ý của chúng tôi vào xác suất mô hình p(y|x), như trong phương trình (3), chúng tôi loại trừ các mô hình được xem xét không phù hợp với mẫu huấn luyện dựa trên cách thông thường, đầu ra của bài toán sẽ cho đặc trưng p. Cần phân biệt rõ hai khái niệm đặc trưng và ràng buộc: đặc trưng là hàm nhận giá trị nhị phân của cặp (x, y); một ràng buộc là một phương trình giữa giá trị mong đợi của hàm tính năng trong mô hình và giá trị mong đợi của nó trong dữ liệu huấn luyện. Giả sử chúng ta có n hàm tính năng, nó xác định số liệu thống kê nào chúng ta cho là quan trọng trong quá trình lập mô hình.

Chúng tôi muốn mô hình của mình phù hợp với những thống kê đó. Entropy bị giới hạn dưới bởi 0, Entropy của mô hình không có độ chắc chắn và giới hạn trên bởi log|Y|, entropy của một phân phối bằng nhau trên tất cả các giá trị có thể|Y| của bạn. Điều này cho thấy rằng p* luôn luôn xác định; do đó, luôn có một mô hình p* duy nhất với entropy cực đại trong bất kỳ tập ràng buộc C nào.

Trong những trường hợp đơn giản, có thể dễ dàng tìm thấy một mô hình phù hợp bằng các phương pháp phân tích. Huấn luyện mô hình Entropy cực đại là để ước tính tập trọng số λ = { λi,.., λk} để tối đa hóa phân phối mũ ở trên. Các giá trị của tham số được đặt để tối đa hóa entropy trong phân loại đã cho với điều kiện là giá trị mong đợi của lớp tính năng, đối với mẫu, bằng với giá trị mong đợi của chúng, đối với dữ liệu huấn luyện: triết lý cơ bản là chúng ta phải chọn một mô hình đưa ra ít giả định nhất về dữ liệu trong khi vẫn "chưa" liên quan đến nó, làm cho ý nghĩa trở nên trực quan hơn.

Giới thiệu: SRILM– Bộ công cụ lập mô hình ngôn ngữ SRI là bộ công cụ để xây dựng và áp dụng các mô hình ngôn ngữ thống kê (LMS), chủ yếu để sử dụng trong nhận dạng giọng nói, gắn thẻ và phân đoạn thống kê cũng như dịch máy. Một tập hợp các thư viện lớp C++ triển khai các mô hình ngôn ngữ, hỗ trợ cấu trúc dữ liệu và các tiện ích khác nhau. Tính độ chính xác của mô hình phân loại + gán nhãn phân loại cho câu chứa ý kiến.

Bước này loại bỏ các tính năng không làm tăng entropy của mô hình. Trong quá trình thực hiện luận văn, tôi đã tìm hiểu về mô hình entropy cực đại, một số khía cạnh của việc phân loại các khung nhìn và các vấn đề liên quan đến vấn đề này.

Tài liệu tham khảo

Tài liệu liên quan