Abstract

本論文では, 言語のクラスタリングに関する新しい手法を提案する.提案する手法では, まず各言語の言語データから確率的言語モデルを構築し, 次に確率的言語モデルの間に導入した距離に基づき, 元の言語に対するクラスタリングを実行する.本論文では, 以上の手法をN-gramモデルの場合について詳しく述べている.また, 提案した手法を用いて, ECI多言語コーパス (European Corpus Initiative Multilingual Corpus) 中の19ヶ国語のテキスト・データから, 言語の系統樹を再構築する実験を行った.本実験で得られた結果は, 言語学で確立された言語系統樹と非常に似ており, 提案した手法の有効性を示すことができた.

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.