ประจาป ประมาณ 2552 โดย นายวรศ กด ต งก ลทว ทร พย นาย พ ระศ กด ร ตนมณ นายธนพล จ นดาพ ท กษ - PDF

Description
รห สโครงการ 34S001 Thai Word Segmentation a Hybrid Approach การแบ งคาภาษาไทยด วยเทคน คไฮบร ด ประเภท การแข งข นส ดยอดซอฟต แวร แบ งคาภาษาไทย รายงานฉบ บสมบ รณ เสนอต อ ศ นย เทคโนโลย อ เล กทรอน กส และคอมพ วเตอร

Please download to get full document.

View again

of 14
All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
Information
Category:

Food

Publish on:

Views: 15 | Pages: 14

Extension: PDF | Download: 0

Share
Transcript
รห สโครงการ 34S001 Thai Word Segmentation a Hybrid Approach การแบ งคาภาษาไทยด วยเทคน คไฮบร ด ประเภท การแข งข นส ดยอดซอฟต แวร แบ งคาภาษาไทย รายงานฉบ บสมบ รณ เสนอต อ ศ นย เทคโนโลย อ เล กทรอน กส และคอมพ วเตอร แห งชาต สาน กงานพ ฒนาว ทยาศาสตร และเทคโนโลย แห งชาต กระทรวงว ทยาศาสตร และเทคโนโลย ประจาป ประมาณ 2552 โดย นายวรศ กด ต งก ลทว ทร พย นาย พ ระศ กด ร ตนมณ นายธนพล จ นดาพ ท กษ อาจารย ท ปร กษาโครงการ นาย ส ธน แซ ว อง สถาบ นการศ กษา ภาคว ชาคอมพ วเตอร คณะว ศวกรรมศาสตร มหาว ทยาล ยสงขลานคร นทร ว ทยาเขตหาดใหญ บทค ดย อ เป นท ทราบก นท วไปว าการประมวณผลการแบ งคาในภาษาต างๆเป นเทคโนโลย พ นฐานท จะนาไปส ระบบประย กต ท ม ค ณค าเป นอย างมาก เช น การแปลภาษาอ ตโนม ต การร จาเส ยงและ ส งเคราะห เส ยงพ ด การย อความอ ตโนม ต การพ ฒนาห นยนต เป นต น การประมวณผลการแบ งคาใน ภาษาต างๆก จะม ความยากง ายแตกต างก นออกไปโดยเฉพาะภาษาไทย ซ งเป นภาษาท ประมวลผลได ยากมาก และย งม ความล าช าในการประมวลผลอ กด วย เน องจากภาษาไทยเป นภาษาท ไม ม การเข ยนแบ งพยางค คา กล มคา หร อประโยค ไม ม ขอบเขตท ช ดเจนของคา ไม ม หล กเกณฑ ตายต วในการใช ช องว างในภาษาเข ยน ไม ม เคร องหมายท ใช ในการเว นวรรค ไม ใช อ กขระพ เศษเพ อแสดงการข นประโยคใหม หร อแสดงช อเฉพาะ ม ร ปแบบ การสะกดท ซ บซ อน และม คาย มจานวนมาก ทาให การแบ งคาท เป นคากากวมทาได ยาก และย งม อ ก หลายร ปแบบท เป นอ ปสรรคต อการพ ฒนาระบบประมวลผลภาษาไทย ในป จจ บ นม งานว จ ยเพ อแก ป ญหาในการประมวลผลการแบ งคาภาษาไทยโดยใช หล กการ ต างๆเข ามาช วยในการประมวลผล เช นหล กการสร างพยางค การใช พจนาน กรม การใช เทคน คการ เร ยนร ด วยเคร อง การแบ งตามคาศ พท เป นต นแต ก ย งไม ม ว ธ การใดท เหมาะสมท ส ดสาหร บการแบ ง คาภาษาไทย Thai Word Segmentation a Hybrid Approach การแบ งคาภาษาไทยด วยเทคน ดไฮบร ด i คานา ความร ความสามารถทางภาษาเป นส งสาค ญสาหร บการเร มต นการศ กษาหาความร ทางด าน ต างๆ ซ งคนไทยส วนใหญ จะม ความร ทางด านภาษาไทยเป นพ นฐานอย แล ว แต ก ย งม บ างส วนท ไม เข าใจในพ นฐานทางด านภาษา หร อเข าใจผ ดในเร องการใฃ ภาษา เช น กล มเด กท ใช ส อการเร ยนร อย างอ นเตอร เน ต หร อการใช งานซอฟแวร ท ไม สามารถแบ งคาภาษาไทยได อย างถ กต อง ทาให เป น ผลในการอ านภาษาไทยแบบผ ดๆ ด วยเหต ผลน ทางผ จ ดทาจ งได เข าร วมการแข งข นส ดยอดซอฟต แวร แบ งคาภาษาไทย เพ อ เป นแนวทางหน งในการพ ฒนาซอฟแวร สาหร บการแบ งคาภาษาไทย Thai Word Segmentation a Hybrid Approach การแบ งคาภาษาไทยด วยเทคน ดไฮบร ด ii สารบ ญ บทค ดย อ... i คานา... ii สารบ ญ... iii บทท 1 บทนา ท มาของโครงงาน ว ตถ ประสงค และเป าหมาย... 1 บทท 2 รายละเอ ยดของการพ ฒนา ทฤษฎ หล กการและเทคน คท ใช เคร องม อท ใช ในการพ ฒนา... 3 NetBeans รายละเอ ยดโปรแกรมท ได พ ฒนาในเช งเทคน ค (Software Specification) Input/output Specification Functional Specification... 3 บทท 3 ผลการทดสอบโปรแกรม ผลการทดสอบโปรแกรม ต วอย างการทดสอบโปรแกรม... 4 บทท 4 ป ญหาและอ ปสรรค ป ญหาและอ ปสรรค... 5 บทท 5 ภาคผนวก การใช งานโปรแกรม... 6 เอกสารอ างอ ง Thai Word Segmentation a Hybrid Approach การแบ งคาภาษาไทยด วยเทคน ดไฮบร ด iii บทท 1 บทนา 1.1 ท มาของโครงงาน แม ว าในป จจ บ น ได ม ซอฟแวร ท ใช ในการแบ งคาภาษาไทยอย หลากหลายโปรแกรม หร อ งานว จ ยในการแบ งคาภาษาไทย แต ก ย งคงม ป ญหาอย ในป จจ บ น เน องจากภาษาไทยเป นภาษาท ไม ได ม การเว นวรรคเม อส นส ดคา ทาให การแบ งคาด วยซอฟแวร พ ฒนาให ม ความสามารถในการ แบ งคาได ไม ครบหน งร อยเปอร เซ นต ทาให ย งไม ม อ ลกอร ธ มใดท เหมาะสมท ส ด 1.2 ว ตถ ประสงค และเป าหมาย เพ อปร บปร งการแบ งคาภาษาไทยให สามารถแบ งคา ตามเทคน คท ได กาหนดไว ได Thai Word Segmentation a Hybrid Approach การแบ งคาภาษาไทยด วยเทคน ดไฮบร ด 1 บทท 2 รายละเอ ยดของการพ ฒนา 2.1 ทฤษฎ หล กการและเทคน คท ใช - การประมวลผลการแบ งคาไทยจะใช เทคน ค การแบ งคาภาษาไทยด วยด กช นนาร โดยการเล อกคาใดๆน นจะเล อกจากคาท ม ขนาดยาวท ส ดก อน ประโยคต วอย าง คาท ถ กเล อก(ตรวจสอบจากพจนาน กรม) เร อโคลงเพราะโคลงเร อ เร อโคลงเพราะโคลงเร เร อโคลงเพราะโคลง เร อโคลงเพราะโค เร อ โคลงเพราะโคลงเร อ โคลงเพราะโคลงเ โคลงเพราะโค โคลง เพราะโคลงเร อ เพราะโคลงเ เพราะ โคลงเร อ โคลง เร อ ย อนกล บ ย อนกล บ ย อนกล บ ย อนกล บ... เร อ ย อนกล บ ย อนกล บ ย อนกล บ... โคลง ย อนกล บ ย อนกล บ... เพราะ ย อนกล บ... โคลง เร อ Thai Word Segmentation a Hybrid Approach การแบ งคาภาษาไทยด วยเทคน ดไฮบร ด 2 - การเล อกคาด วยหล กภาษาไทย เช นกฎของคาท ข นต นด วยการ, ความ เป นต น 2.2 เคร องม อท ใช ในการพ ฒนา NetBeans NetBeans เป นเคร องม อท ใช ในการพ ฒนาโปรแกรมในคร งน โดยการเข ยน Code ส วนใหญ จะเข ยนด วยเคร องม อชน ดน ในต ว NetBeans น ย งม เคร องม อท อานวยความสะดวกในการทางานอ กด วย เช น การแสดงเลขบรรท ดในการเข ยน Code การค นหาข อความและการแทนท ข อความ นอกจากน NetBeans ย งสามารถทาการเพ ม Library ท ต องการใช ในการพ ฒนาโปรแกรมได อ กด วย ซ งทาให ง ายต อการพ ฒนาโปรแกรม 2.3 รายละเอ ยดโปรแกรมท ได พ ฒนาในเช งเทคน ค (Software Specification) Input/output Specification Input ของโปรแกรม: - ไฟล ข อความ (.txt) เพ อใช ในการประมวลผลการแบ งคา Output ของโปรแกรม: - ไฟล ข อความท ม การแบ งคาเร ยบร อยแล วโดยใช เคร องหมาย ในการแบ งคา ท เป นไป ตามกฎเกณฑ ท วางไว Functional Specification - โปรแกรมม ส วนของการ ผลการทดสอบโปรแกรม ในบทน จะเป นการกล าวถ งการใช งานของซอฟแวร ท พ ฒนา และผลล พธ ท ได จากของซอฟแวร Thai Word Segmentation a Hybrid Approach การแบ งคาภาษาไทยด วยเทคน ดไฮบร ด 3 บทท 3 ผลการทดสอบโปรแกรม 3.1 ผลการทดสอบโปรแกรม โปรแกรมสามารถต ดคาตามเทคน คท ใช ได 3.2 ต วอย างการทดสอบโปรแกรม ร ป ทดสอบโปรแกรมด วยคาว า คาขอร องของค ณพ อ Thai Word Segmentation a Hybrid Approach การแบ งคาภาษาไทยด วยเทคน ดไฮบร ด 4 บทท 4 ป ญหาและอ ปสรรค 4.1 ป ญหาและอ ปสรรค - ไม สามารถแยกแยะคาท นามาจากภาษาต างประเทศได เน องจากไม ม คล งข อม ลของคา ภาษาต างประเทศ - ไม สามารถแยกแยะช อท ม นามสก ลม ความหมายและต อเน องก บประโยคท ตามมาได เน อง เช น นายชาต ชาย หว งด ต อนายส พรช ย อาจต ดได ว า หว งด หร อ หว ง ด - ไม สามารถแยกแยะคาท เข ยนเหม อนก น แต ม ความหมายแตกต างก นเม ออย ในประโยคต างก นท ซ บซ อนได - ประโยคบางประโยค ไม สามารถทราบได ว าต ดถ กหร อไม เน องจากไม ม ท ให ตรวจสอบ Thai Word Segmentation a Hybrid Approach การแบ งคาภาษาไทยด วยเทคน ดไฮบร ด 5 บทท 5 ภาคผนวก 5.1 การใช งานโปรแกรม โปรแกรมม สองส วนให เล อกใช งาน ส วนแรก เป นส วนท ใช ไฟล เพ อแปลง และผลล พธ ก จะสร างเป นไฟล ออกมาเป นช อไฟล เด ม ตาม ด วยคาว า ต ดเสร จเร ยบร อย และอย ท เด มก บไฟล อ นพ ต ต วอย างการใช งาน Thai Word Segmentation a Hybrid Approach การแบ งคาภาษาไทยด วยเทคน ดไฮบร ด 6 Thai Word Segmentation a Hybrid Approach การแบ งคาภาษาไทยด วยเทคน ดไฮบร ด 7 Thai Word Segmentation a Hybrid Approach การแบ งคาภาษาไทยด วยเทคน ดไฮบร ด 8 ส วนท สอง เป นพ นท ให ทดลองกรอกข อความ และ ผลล พธ ก จะออกมาในพ นท ด านล าง Thai Word Segmentation a Hybrid Approach การแบ งคาภาษาไทยด วยเทคน ดไฮบร ด 9 เอกสารอ างอ ง [1] ส ร ทร จรรยาพรพงษ. A Thai Syllable Seperation Algorithm. Asian Institute of Technology, [2] ดวงแก ว สวาม ภ กด, การสร างซอฟต แวร ว เคราะห ไวยากรณ ไทยภายใต ระบบย น กซ : มหาว ทยาล ยธรรมศาสตร, [3] ว ชรพงศ โกม ทธรรมว บ ลย และคณะ สาน กพ มพ พ ฒนาศ กษา, ค ม อเตร ยมสอบ ภาษาไทย ป.6 เข า ม.1 และ NT, 2009 Thai Word Segmentation a Hybrid Approach การแบ งคาภาษาไทยด วยเทคน ดไฮบร ด 10
Related Search
Similar documents
View more...
We Need Your Support
Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

Thanks to everyone for your continued support.

No, Thanks