Abstract
We built a model labelling the Predicate Argument Structure (PAS) for biomedical documents. PAS is an important semantic information of any document, because it reveals the main event mentioned in each sentence. Extracting PAS in a sentence is an important premise for the computer to solve a series of other problems related to the semantics in text such as event extraction, named entity extraction, question answering system… The predicate argument structure is domain dependent. Therefore, in Biomedical field, it is required to define a completely new Predicate Argument frame compared to the general field. For a machine learning model to work well with a new argument frame, identifying a new feature set is required. This is difficult, manual and requires a lot of expert labor. To address this challenge, we chose to train our model with Deep Learning method utilizing Bi-directional Long Short Term Memory. Deep learning is a machine learning method that does not require defining the feature sets manually. In addition, we also integrate Highway Connection between hidden neuron layers to minimize derivative loss. Besides, to overcome the problem of small training corpus, we integrate Deep Learning with Multi-task Learning technique. Multi-task Learning helps the main task (PAS tagging) to be complemented with knowledge learnt from a closely related task, the NER. Our model achieved F1 = 75.13% without any manually designed feature, thereby showing the prospect of Deep Learning in this domain. In addition, the experiment results also show that Multi-task Learning is an appropriate technique to overcome the problem of little training data in biomedical fields, by improving the F1 score.
Highlights
TÓM TẮT Chúng tôi xây dựng một mô hình gán nhãn Cấu trúc Đối số Vị ngữ cho văn bản Y Sinh
The experiment results show that Multi-task Learning is an appropriate technique to overcome the problem of little training data
Từ khoá: predicate argument structure, semantic role labelling, deep learning
Summary
Học Đa tác vụ giúp cho tác vụ chính (bài toán gán nhãn Cấu trúc Đối số Vị ngữ) được bổ trợ tri thức từ một tác vụ phụ có liên quan mật thiết là bài toán rút trích Thực thể. Một trong những bài toán quan trọng nhằm giúp máy tính đọc hiểu văn bản một cách hiệu quả là bài toán rút trích Cấu trúc Đối số Vị ngữ (Predicate Argument Structure – PAS), hay còn được gọi là bài toán Gán nhãn. Một hướng tiếp cận cho thách thức này là ứng dụng học sâu (deep learning – DL) vì DL có thế mạnh tự đúc kết được bộ đặc trưng phù hợp, giúp tránh việc chuyên gia phải xây dựng thủ công bộ đặc trưng cho một lĩnh vực rất mới 2. Công trình của chúng tôi nghiên cứu và thử nghiệm một mô hình DL cho bài toán SRL trên văn bản Y Sinh và phân tích, đánh giá kết quả đạt được của mô hình
Talk to us
Join us for a 30 min session where you can share your feedback and ask us any queries you have
More From: Science and Technology Development Journal - Natural Sciences
Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.