Tóm tắt trừu tượng và trích xuất
Lướt internet tìm một chủ đề cụ thể là một hành động phổ biến được thực hiện ngày nay. Internet có thông tin về tất cả mọi thứ và bất cứ điều gì. Thông tin hiển thị của công cụ tìm kiếm không phải lúc nào cũng như mong đợi. Sau đó, chúng ta đọc nhanh qua các đoạn nhỏ bên dưới mỗi liên kết để tìm hiểu nội dung của nó, thường là tóm tắt của bài viết. Có một số lượng lớn các nghiên cứu, tin tức, bài viết, blog, trang web không thể tóm tắt từng bài viết một cách thủ công. Thông tin mới được đưa lên internet mỗi phút.
Các công cụ tìm kiếm Google, Bing và yahoo sử dụng các công cụ tóm tắt văn bản tự động để thực hiện tóm tắt cho các tài liệu văn bản lớn. Công cụ tóm tắt là một thuật toán loại bỏ các câu không quan trọng khỏi tài liệu văn bản, chọn những câu có liên quan và sắp xếp lại cấu trúc cho dễ đọc và ngắn hơn văn bản gốc, nhưng vẫn phù hợp với ngôn ngữ tự nhiên của con người.
Có hai cách chính để tóm tắt tài liệu văn bản bằng các công cụ Tóm tắt tự động, bao gồm:
- Phương pháp trừu tượng
- Phương pháp trích xuất
Tóm tắt văn bản được phân chia dựa trên mục đích của nó như chung chung, dựa trên truy vấn hoặc tên miền cụ thể, loại đầu vào của nó như đơn hoặc đa tài liệu, và loại đầu ra của nó là trích xuất hoặc trừu tượng.
Trong tóm tắt trích xuất, tóm tắt mới được lấy từ các tài liệu gốc bằng cách lựa chọn các câu và cụm từ. Nó sử dụng một số kỹ thuật xếp hạng tầm quan trọng của các cụm từ để chọn những từ có liên quan nhất đến ý nghĩa của nguồn.
Trong tóm tắt văn bản trừu tượng, các câu và cụm từ hoàn toàn mới được hình thành để mô tả tài liệu nguồn. Nó khó hơn để tóm tắt và cung cấp kết quả vì phức tạp, đây là phương pháp mà con người sử dụng nhiều nhất. Kỹ thuật là chọn và thu gọn nội dung từ tài liệu gốc nhưng cũng có thể thêm vào các từ mới.
Kỹ thuật tóm tắt trích xuất được sử dụng phổ biến hơn do sử dụng dễ dàng và sẵn có hơn, mặc dù các phương pháp trừu tượng được cho là có các giải pháp tổng quát hơn cho vấn đề trừu tượng hóa.
Print versionSender
Newer articles
Oldest