การพ ฒนาเทคน คการต ดคาแบบอาศ ยไวยกรณ และบร บทคารอบข าง - PDF

Description
การพ ฒนาเทคน คการต ดคาแบบอาศ ยไวยกรณ และบร บทคารอบข าง PTTSF word parsing techniques ชน นทร มห ทธนช ย มหาว ทยาล ยราชภ ฏเช ยงใหม จ งหว ดเช ยงใหม โทร

Please download to get full document.

View again

of 6
All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
Information
Category:

Religion & Spirituality

Publish on:

Views: 9 | Pages: 6

Extension: PDF | Download: 0

Share
Transcript
การพ ฒนาเทคน คการต ดคาแบบอาศ ยไวยกรณ และบร บทคารอบข าง PTTSF word parsing techniques ชน นทร มห ทธนช ย มหาว ทยาล ยราชภ ฏเช ยงใหม จ งหว ดเช ยงใหม โทร บทค ดย อ การว จ ยน ม จ ดประสงค เพ อพ ฒนา ต นแบบการต ดค าภาษาไทยโดยอาศ ยไว ยกรณ ร วมก บการใช บร บทคารอบข างเพ อ นามาใช ในการพ จารณาร ปแบบการต ดคาท ด ท ส ดโดยใช เทคน คการต ดคาท ผ ว จ ยได ค ดค น ข นเร ยกว า การต ดคาแบบ PTTSF (Parsing Thai text with Syntax and feature of word) การท างานของระบบจะเร มจากการหา ขอบเขตของคาแต ละคาในประโยคภาษาไทย กรณ ท พบคาท เป น Unknown word ค อ คาท ไม พบในพจนาน กรม หร อ เป นค าท ไม ม ความหมาย ซ งจะพบภายหล งการแบ งคาไม สามารถแก ป ญหาโดยการใช Longestmatching Algorithm ได จะต องม การ กาหนด กฎ (Rule) เพ อใช แก ป ญหาด งกล าว ซ งผ ว จ ยจะได ทาว จ ยเพ อให ได ซ งกฎท ใช ใน การแก ป ญหาจานวน 21 กฎด วยก น หล งจาก น นจะใช ว ธ การของ Digraph ในการหา ร ปแบบการต ดค าท ม ความเป นไปได (Probability) มากท ส ดโดยอาศ ยหล กการทาง ไวยากรณ พบว าบางต วอย างจะพบคากากวม ค อ คาท สามารถต ดคาได ถ ง 2 แบบ โดย ป ญหาด งกล าวน ไม สามารถใช ว ธ การทาง ไวยากรณ ใ นการต ดค าได อย างถ กต อง จาเป นต องอาศ ยบร บทจากคารอบข างเพ อ ช วยในการต ดคาด วย โดยผ ว จ ยได แก ป ญหา คากากวมได เป น 2 ข นตอนค อ 1.การแก ไข ป ญหาคาท ไม ปรากฏในพจนาน กรม 2.การ แก ป ญหาคาก ากวมโดยใช พจนาน กรมคา กากวม หล งจากผ านข นตอนการหาขอบเขต ของค า ผลล พธ จากการต ดค าท ถ กต อง สามารถนาไปผ านกระบวนการส งเคราะห เส ยงเพ อได คาท ถ กต องเพ อแสดงเส ยงให ผ ใช ไ ด ย น ไ ด อ ย า ง ถ ก ต อ ง ก า ร ว เ ค ร า ะ ห ประส ทธ ภาพของระบบ จะพ จารณาจากค า ความถ กต องของการต ดค าซ งจะต องต ด ถ กต องถ งร อยละ 90 ข นไปเม อเท ยบก บ เ อ ก ส า ร ต น แ บ บ ซ งผ ว จ ย คา ดหว งว า นว ตกรรมใหม ท ได พ ฒนาข นน จะสามารถ ก อให เก ดประโยชน ก บผ ด อยโอกาสทางการ ศ กษา ช มชนและส งคม รวมถ งสามารถนา งานว จ ย น ไ ปพ ฒนาต อย อดเพ อน าม า ประย กต ใช ในงานอ น ๆ ท เก ยวข องก บการ แปลงข อความเป นเส ยงได ต อไป Abstract This research aims to study algorithm of word segmentation to parsing the words and find the best algorithm to parsing thai text. This algorithm can solve problem in case of unknown word which can not appear in dictionary and solve problem of ambiguous word. Using relationship between word and feature of word. In this research found that the main problem of accuracy in parsing thai text is that the word come from Specific name, Technical Term or Name of Place which no appear in thai dictionary. while there is a high chance to find then in Thai documents, especially those derived from the Internet. This research proposes an approach for word segmentations called Parsing Thai Text with Syntax and Features of Words or PTTSF. The approach uses the longest-matching method for word parsing, and a digraph for an analysis of a sentence s syntax. Furthermore, various rules are defined to solve a problem on unknown words while an approach to solve a problem on ambiguous words is devised by constructing a dictionary of ambiguous words as well as considering words surrounding an ambiguous word. This research describes in detail of PTTSF. Analysis and use of the approach. Model of PTTSF was developed and tested. The results of word parsing are displayed and evaluated while suggestions are made for a further study and improvement of the PTTSF approach. บทน า การทาว จ ยน ผ ว จ ยเห นว า การต ดคา ค อกระบวนการหาขอบเขตของคาแต ละคา ในประโยค จากงานว จ ย Fan, C. K., & Tsai, W. H (1988) พบว าว ธ การต ดคาในแต ละ ภาษาแตกต างก นไปข นอย ก บความยากง าย ของภาษาเองและล กษณะเฉพาะของแต ละ ภาษา จากงานว จ ยของ Aroonmanakul. W. (2002) ภาษาไทยหากม การแบ งคาผ ดการ ประมวลผลอ นๆ ท เก ดข นภายหล งการแบ ง คาก จะผ ดตาม เช น ป ญหาของการแบ งคา ไทย ต อไปน ฉ นมารอกราบพระสงฆ เร อโคลงเพราะโคลงเร อ นอนตากลม คนตากลม จากต วอย างด านบนพบว า ป ญหาค อสามารถต ดคาได มากกว า 1 แบบ ว ธ การแก ป ญหาน ต งแต อด ตจนถ ง ป จจ บ น พอจะแบ งได เป น 3 แนวทางหล กค อ 1.ก า ร ใ ช ก ฎ ก า ร ส ร า ง พ ย า ง ค ไ ท ย (Thairatananond 1981, Chamyapompong 1983) ท ป ระ ก อบด ว ย พ ย ญช นะ สระ วรรณย กต ต วสะกด ต วการ นต แนวทางน ทา ได ง ายท ส ด ทางานได เร วท ส ด แต แบ งคา พยางค เด ยวได เท าน น ไม สามารถจ ดการก บ ค าหลายพยางค ได อ กท งย งไม สามารถ แก ป ญหาความกากวมของพย ญชนะท เป นได ท งพย ญชนะต นและต วสะกด ด งเช น ก ใน ตากลม ได 2.การใช พจนาน กรม (Poowarawan 1986), (Sornlertlamvanich, V. 1993) โดยต องทา รายการคาเอาไว ล วงหน า เม อต องการแบ งคา ก เปร ยบเท ยบข อความท ต องการแบ งก บ รายการค าท เก บไว ในพจนาน กรม ว ธ น สามารถแก ป ญหาคาหลายพยางค ได แต ย ง ไม สามารถแก ป ญหาคากากวมได ท งหมด 3.การใช เทคน คการเร ยนร ด วยเคร อง โดย การฝ กฝนระบบด วยคล งข อความขนาดใหญ (Kawtrakul et al. 1997, Meknavin et al ) ท ม การแบ งคาไว อย างถ กต องแล ว ซ ง ประส ทธ ภาพว ธ น ข นอย ก บความถ กต องและ ขนาดของคล งข อความ แต อย างไรก ตามป ญหาอ กประการหน งของ การต ดค าภาษาไทยค อค าท ไม ปรากฏใน พจนาน กรม (Unknown words) เป นศ พท เฉพาะ ซ งไม ม จ ดท ใช แบ งขอบเขตของข อม ล จาเป นจะต องหากฎในการแบ งขอบเขตคา ด งกล าว เช น คาว า คาร ฟ ร โลต ส เป นต น ซ ง ว ธ ด งกล าวข างต นไม สามารถแก ป ญหาได ป ญหาของคากากวม (Ambiguous word ) ก เป นอ กป ญหาหน งของการต ดคาภาษาไทย เช นคาว า ตากลม สามารถแบ งคาได เป น ตา กลม และ ตาก ลม เป นต น ซ งเป นภาษาท ไม ม จ ดจบของประโยคหร อการแบ งกล มคา ต างๆ การว จ ยน ม ว ตถ ประสงค เพ อศ กษาการ ต ดคาภาษาไทยและหาว ธ การท ด ท ส ดในการ ต ดคาภาษาไทย แก ป ญหาการต ดคาในกรณ ท พบคาท ไม อย ในพจนาน กรม (Unknown word) และแก ป ญหาคากากวม (Ambiguous word) โดยใช ว ธ การหาความส มพ นธ ระหว าง คารอบข าง ในงานว จ ยฉบ บน ได ศ กษาถ ง จ ดบกพร องท เก ดจากการต ดคา พบว าม ส ง หน งท ม ผลส าค ญต อความถ กต องในการต ด คาค อคาท เป นช อเฉพาะ ศ พท ทางเทคน ค ต างๆ หร อ ช อสถานท ซ งคาเหล าน ไม ได ถ ก บรรจ ไว ในพจนาน กรมคาภาษาไทย โอกาส ท จะพบคาเหล าน ในเอกสารภาษาไทยม ส ง มาก โดย เฉพาะในเอกสารซ ง ไ ด จ า ก อ นเทอร เน ต ผ ว จ ยได เสนอว ธ การ PTTSF โดยนา rule base ข นมา เพ อแก ป ญหาคาท เป น unknown word และค ดหาว ธ การ แก ป ญหาคากากวมโดยสร าง พจนาน กรมคา กากวมข น และใช ว ธ การพ จารณาคากากวม โดยอาศ ยคารอบข าง งานว จ ยน ได อธ บายว ธ PTTSF ในรายละเอ ยดรวมถ งหล กเกณฑ การ ว เคราะห และการนาไปใช ของว ธ แบบจาลอง ของว ธ PTTSF ถ กพ ฒนาและทดสอบ ผล ก า รต ด ค า ถ ก น ามาแสดง แล ะ พ จ ารณา ประเม นค าผลล พธ ท ได รวมถ งแนะน า ข อเสนอแนะเพ อนาไปปร บปร งต อไป ว ตถ ประสงค ของแผนงานว จ ย 1. เพ อศ กษาอ ลกอร ท มการต ดค า ภาษาไทยและหาว ธ การท ด ท ส ดในการต ดค า ภาษาไทย 2. เพ อแก ป ญหาการต ดคาในกรณ ท พบคา ท ไม อย ในพจนาน กรม (Unknown word) 3. เพ อแก ป ญหาคากากวม (Ambiguous word) โดยใช ว ธ การหาความส มพ นธ ระหว างคา รอบข าง ว ธ ดาเน นการว จ ย ได ดาเน นการว จ ย 2 ข นตอนหล ก ค อ PTTSF 1. การต ดคาภาษาไทยโดยใช ว ธ การ ได ใช โมด ลสาหร บต ดข อความหร อ ประโยคท ร บเข ามา ออกเป นคาเพ อนาไปเข า ส กระบวนการว เคราะห หาคาท ไม ปรากฏใน พจนาน กรมต อไป โดยการทดสอบการต ดคา ก บเอกสารจานวน 30 ต วอย าง โครงสร าง ของระบบการต ดคาแบบ PTTSF ค อ Source Thai Text เป นเอกสารข อความท มาจาก แหล งต าง Word Segmentation Using Dictionary ค อการต ดคาโดยแบ งประโยค ออกเป นคาโดยว ธ การพ นฐาน อย างเช น Longest matching และการอาศ ยไวยากรณ มา หาค าความน าจะเป นส งส ด รวมถ งการทา backtracking เพ อให ได ความน าจะเป นท ก แบบของการต ดคาท ได 2. การแก ป ญหา Unknown-Word ค อ การหา ขอบเขตของคาท ไม ปรากฏในพจนาน กรม โดยการแก ป ญหาคาท ไม ร จ กเป นอ นด บแรก ด งน - การนากฎมาใช ในการแก ป ญหาคาท ไม ปรากฏในพจนาน กรม ซ งม กฎท ใช ค อ Rule for a Combination of Words (Before And After) เป นกฎข อแรกซ งประกอบด วย กฎย อยอ ก 7 ข อด วยก น เป นกฏท ใช สาหร บ การผสมคาท อย หน าคา Unknown word และอย หล งคา Unknown word และ Rules for a concatenation of characters เป นกฎอ ก ข อหน งซ งประกอบด วยกฎย อยอ ก 21 ข อ ใช เป นกฎส าหร บการผสมต วอ กษร (กาช ย ทองหล อ ) สร ปผลการทดลอง จากผลการทดลองด งกล าวพบว า ได ผลเป นท น าพอใจ โดยม ค าความถ กต อง เฉล ยท ง 30 เอกสาร ม ความถ กต องเฉล ย มากกว า 90% ข นไป แต ผ ว จ ยพบป ญหาบาง ประการของระบบการต ดคาโดยใช โมเดล แบบ PTTSF โดยพบว าหากปรากฏคากร ยา (Verb) ระหว าง Unknown word 2 แห ง ว ธ การน ย งคงเป นป ญหาอย เช น คาว า ออพ ต ไมส ค าว า ต เป นค ากร ยาชน ดหน ง ปรากฏในพจนาน กรมด วย ซ งอย ระหว างคา Unknown word 2 คา ค อ ออพ และ ไมส อ ก ค า ท พ บ ไ ด แ ก ค า ว า โต ใ น ค า ว า โปรโตคอล ซ งคาว า โต เป นคาท อย ใน พจนาน กรม อย ระหว างคาว า โปร และ คอล ในกรณ ด งกล าว โมเดลแบบ PTTSF จะไม สามารถต ดคาได อย างถ กต อง ซ งสาเหต ด งกล าวส งผลต อค าความถ กต องด วย ข อเสนอแนะ 1. ในระบบ PTTSF ได ใช พจนาน กรม ภาษาไทยท ประกอบด วยคาภาษาไทยท งหมด 9 ประเภท ซ งหากพ จารณาด านความถ กต อง ในการต ดคาโดยอาศ ยหล กไวยากรณ แล ว ผ ว จ ยเห นว าควรประกอบด วยประเภทของคา ท งหมด 53 ประเภทจ งจะครอบคล ม ไวยากรณ ท งหมด 2. การว เคราะห ทางความหมาย (Semantic) และไวยากรณ ของประโยคก เป นอ กว ธ การ หน งท น าจะนามาใช ก บงานต ดคาภาษาไทย ได ซ งในงานว จ ยฉบ บน น น แก ป ญหาคากากวมและคาท ไม ปรากฏใน พจนาน กรมโดยใช บร บทรอบข างและ ผ ว จ ยได พจนาน กรมคากากวมเพ ยงอย างเด ยว ผ ว จ ย เห นว าหากนาความหมาย และหน าท ของคา มาพ จารณาร วมด วยน าจะม ความถ กต อง สมบ รณ มากข น 3. เวลาท ใช ในการต ดคาควรลดลงมากกว าน จากผลการทดลองพบว าการต ดคาโดยใช โมเดล PTTSF ย งคงใช เวลาต ดคา ค อนข างมาก เน องจากผ ว จ ยเน นในด าน ความถ กต องเป นหล ก เอกสารอ างอ ง 1. Aroonmanakul. W Collocation and Thai Word Segmentation. In proceeding of SNLPOriental COCOSDA. 2. Chamyapornpong, S A Thai Syllable Seperation Algorithm. Master thesis, Asian Institute of Technology. 3. Fan, C. K., & Tsai, W. H.. Automatic word identification in Chinese sentences by the relaxation technique. Computer Processing of Chinese & Languages 1988;4, Krawtrakul. A., Thumkanon. C., Oriental Poovorawan. Y.and Suktarachan. M Automatic Thai Unknown Word Recognition. In Proceedings of the natural language Processing Pacific Rim Symposium. 5. Poowarawan, Y Dictionary-based Thai Syllable Separation, In Proceeding of the Ninth Electronics Engineering Conference. 6. Sornlertlamvanich, V Word Segmentation for Thai in a Machine Translation System NECTEC. (in Thai). 7. Thairatananond, Y Towards the Design of a Thai Text Syllable Analyzer. Master thesis, Asian Institute of Technology. 8. กาช ย ทองหล อ. หล กภาษาไทย. พ มพ คร งท 3. กร งเทพฯ : รวมสาส น, 2545.
Related Search
Similar documents
View more...
We Need Your Support
Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

Thanks to everyone for your continued support.

No, Thanks