การสรปเอกสารเช งความหมายโดยใช ออนโทโลย - PDF

Description
การสรปเอกสารเช งความหมายโดยใช ออนโทโลย Semantic Text Summarization Using Ontology อรวรรณ อ ไรเร องพนธ 1 สมจ ตร อาจอ นทร 2 ภาคว ชาว ทยาการคอมพ วเตอร คณะว ทยาศาสตร มหาว ทยาลยขอนแกน อ เมล :

Please download to get full document.

View again

of 6
All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
Information
Category:

Magazines/Newspapers

Publish on:

Views: 11 | Pages: 6

Extension: PDF | Download: 0

Share
Transcript
การสรปเอกสารเช งความหมายโดยใช ออนโทโลย Semantic Text Summarization Using Ontology อรวรรณ อ ไรเร องพนธ 1 สมจ ตร อาจอ นทร 2 ภาคว ชาว ทยาการคอมพ วเตอร คณะว ทยาศาสตร มหาว ทยาลยขอนแกน อ เมล : 1 2, บทคดยอ ขาวสารสารสนเทศในร ปแบบอ เล กทรอน กส ม เพ มมากข น เร อยๆ ในปจจ บน ซ งท าให ต องเส ยเวลามากในการค นหา คดเล อกข อม ลให ตรงกบความต องการของผ ใช จ งได ม งานว จย และแนวค ดเก ยวกบการสร ปใจความอตโนมต (Text Summarization) มาชวยในการแก ปญหาการคดเล อกข อม ล แต เป นการอ างอ งค าหลก (Keyword-Base) ซ งผลลพธ ท ได ยงคง ม ความถ กต องและประส ทธ ภาพไมเพ ยงพอ งานว จยน จ งได น าเทคโนโลย ด านความคล ายคล งกนเช งความหมาย (Semantic Similarity) การพฒนาฐานข อม ลค าศพท เว ร ดเน ต (WordNet) การจดหมวดหม ของกล มค าเหม อนโดยใช หลกการ Lexical Chain มาประย กต ใช เพ อเพ มประส ทธ ภาพและความถ กต อง มากข น และผลการทดลองจากงานว จยน ได ผลลพธ ท คอนข าง ม ประส ทธ ภาพ โดยวดจากคาความถ กต อง (Precision) คา ความครบถ วน (Recall) และคา F-measure ซ งม คาเทากบ 91.61%, 81.92% และ 84.90% ตามล าดบ ค าส าคญ: การสร ปใจความอตโนมต ฐานข อม ลค าศพท เว ร ดเน ต การจดหมวดหม ค าหลก ความคล ายคล งกนเช งความหมาย Abstract In the present, as the amount of electronic information is getting more and more, it consumes a lot of time in searching and selecting the needed information. Therefore, the researches and the concepts related to Text Summarization were studied to solve this problem. However, it was just a Keyword-Base which is not effective enough. For this reason, this research used Semantic Similarity technology, WordNet, categorizing the similar meaning words by using Lexical Chain in order to increase effectiveness and correctness. The results of the study were shown that the program is effective regarding on the values of Precision, Recall and F-measure which were 91.61%, 81.92% และ 84.90% respectively. Keyword: Text Summarization, WordNet, Lexical Chain, Semantic Similarity 1. บทน า ปจจ บนเทคโนโลย สารสนเทศได ม อ ทธ พลตอการด าเน น ช ว ตเราเป นอยา งมาก ซ งสงผลให ม ข อม ลขาวสารเอกสาร อ เล กทรอน กส เพ มมากข นเร อยๆ ท าให สร างปญหาในการ พ จารณาคดเล อกข อม ลสารสนเทศซ งบางครงอาจได ข อม ลท ไม ตรงกบความต องการของผ ใช และเม อข อม ลย งมากย งประสบ ปญหาในการใช ข อม ล เพราะเอกสารสวนใหญอย กระจ ด กระจายไมเป นหมวดหม ท าให ผ ใช งานต องเส ยเวลามากในการ คดเล อกข อม ลเพ อให ได ตามต องการ นบตงแตม งานว จยท เสนอ แนวค ดการสร ปใจความอตโนมต (Automatic Summarization) [1] ท าให ชวยลดเวลาในการค นหาแ ละคดเล อกข อม ลท ต องการ ได แตกยงพบปญหาเน องจากการสร ปใจความอตโนมต ในย ค แรกๆ นนเป นการใช ค าหลกในฐานข อม ล (Keyword-Base) เทานน ท าให การพ จารณาถ งความหมายของเน อหา (Contents) ท ได ม ประส ทธ ภาพไมเพ ยงพอ 294 ตอมาได ม การศ กษาว จยเกยวกบเทคโนโลย การวดคาความ คล ายคล งเช งความหมาย (Semantic Similarity) [2] และม การ พฒนาฐานข อม ลอภ ธานศพท หร อเว ร ดเน ต (WordNet) [3], [4] ซ งม การอธ บายโครงสร างและความสมพนธ ระหวาง กล มค าคล ายคล งกนไว ด วยกน จ งม การค ดค นว จยด านเทคน ค การสร ปใจความอตโนมต กนอยางกว างขวางเพ อให ได ประส ทธ ภาพและความถ กต องมากท ส ด งานว จยน ม งเน นเพ อการออกแบบแนวค ดว ธ การสร ป ใจความของเอกสารท ม ประส ทธ ภาพและถ กต อง โดยม การใช เทคโนโลย ทางด านเช งความหมาย (Semantic) เข ามาชวยใน การคดเล อกสกดค าหลก โดยอาศยฐานข อม ลค าศพท เว ร ดเน ต ในการพ จารณารวมด วย แล วท าการจดหมวดหม ของค าโดยใช เทคน คการสร าง Lexical Chain มาว เคราะห หาความสมพนธ ของค าหลกท สกดจากเอกสาร และคดเล อกผลลพธ จากล าดบ ความส าคญของกล มค าโดยใช คาถวงน าหนกเช งความหมาย ประกอบ 2. วรรณกรรมและงานว จยท เก ยวข อง 2.1 การสรปใจความส าคญ (Text Summarization) การสร ปใจความส าคญ [1] เป นเทคน คการสร ปเน อหาของ เอกสารโดยม ขนตอน 3 กระบวนการ ค อ ขนตอนการว เคราะห ค า ขนตอนการหาประเด นส าคญ และข นตอนการสงเคราะห ประโยค โดยสามารถแบงว ธ การสร ปใจความส าคญตามว ธ การ สร างได 2 ว ธ ค อ ว ธ การด งค าจากต นฉบบ (Extraction) ซ งเป น การสร างใจความส าคญโดยใช เทคน คทางด านสถ ต และ Keyword-Based ตดค าจากเอกสารต นฉบบ ผลท ได ยงม ประส ทธ ภาพและความถ กต องไมเพ ยงพอ ม ความกากวมของ ค า แตสามารถเพ มปร มาณ Domain ได [5] และอ กว ธ ค อว ธ การ สร ปแบบภาพรวม (Abstraction) ซ งเป นการว เคราะห ค าจาก ต นฉบบด วยหลกการทางภาษาศาสตร (Semantic) โดยเป นการ ถอดความหร อแปลความหมายจากต นฉบบ ผลท ได ม ประส ทธ ภาพและถ กต องมากกวาว ธ การ Abstraction แตม การ จ ากด ปร มาณ Domain งานว จยน ได น าแนวค ดว ธ การ Abstraction มาประย กต ใช เพ อลดปญหาความกากวมของค า และให ได ผลลพธ ในเช งความหมาย ม ประส ทธ ภาพและถ กต อง มากท ส ด 2.2 ฐานข อมลค า ศพท เว ร ดเน ต (WordNet) WordNet [4], [3] เป นฐานข อม ลค าศพท ออนไลน ภาษาองกฤษท ออกแบบตามทฤษฎ ทางภาษาศาสตร ซ งถ ก พฒนาโดย Princeton University ตงแตป ค.ศ โดยม วตถ ประสงค เพ อผสมผสานระหวางพจนาน กรมค าศพท ( Dictionary) กบพจนาน กรมอภ ธานศพท หร อค าพ อง ความหมาย/ค าตรงข าม (Thesaurus) เข าด วยกน การเกบข อม ล ค าศพท จะแบงตามชน ดของค า เชน ค านาม ค ากร ยา ค าค ณศพท ค าว เศษณ เป นต น และจบกล มค าศพท ท ม ลกษณะความหมาย คล ายคล งกนเข าด วยกน เร ยกวา Synset [6] ซ งแตละกล ม Synset จะแทนคาของ 1 แนวค ด (Sense) และ Synset จะ เช อมโยงไปยง Synset อ นๆ ด วยโครงสร างแบบล าดบชน (Hierarchical Structure) โดยม ความสมพนธ แบบ Synonym, Antonym, Hypernym, Hyponym, Meronym, Holonym, Troponym, Entailment, Coordinated เป นต น งานว จยน ได ใช WordNet เป นฐานข อม ล ในกระบวนการ ด าเน นการตาง ๆ 2.3 การจดหมวดหมของค า (Lexical Chain) เป นการระบ ความสอดคล องของค าศพท ในเช งความหมาย โดยจดกล มค าศ พท ท ม ความหมายคล ายกนไว ด วยกน [7] โดย ม การอาศยฐานข อม ลท ได น ยามความสมพนธ ของค าศพท ไว แล ว เชน WordNet เป นต น การจดหมวดหม ของกล มค า แบง ออกเป น 2 ขนตอน ได แก การหาค าส าคญ (Candidate Word) และการค นหากล มค าหลก (Lexical Chain) โดยท าการจด หมวดหม กล มค าท ม ความหมายใกล เค ยงกนไว ด วยก น เป นการ พ จารณาจากความสมพนธ ระหวางกล มค า ท ถ กระบ เป นแบบ Extra-Strong, Strong หร อ Medium-Strong ตามล าดบการ สร าง Lexical Chain 295 ภาพท 1 ขนตอนการสร าง Lexical Chain [8] 3. ว ธ การด าเน นงาน การว จยน ม เป าหมายเพ อออกแบบและพฒนาระบบการสร ป เอกสารอตโนมต โดยน าหลกการเช งความหมายมาประย กต ใช เพ อให ม ประส ทธ ภาพและความถ กต อง โดยม ว ธ การ ด าเน นงาน แบงเป น 2 สวน ได แก สวนท 1 การออกแบบ สถาปตยกรรมระบบ และสวนท 2 การพฒนาฐานความร 3.1 การออกแบบสถาปตยกรรมระบบ จากการศ กษาวรรณกรรมและงานว จยท เกยวข อง และเพ อ ตอบสนองตอ ปญหาและวตถ ประสงค ของการว จย จ งได ออกแบบสถาปตยกรรมระบบ ดงน จากสถาปตยกรรมระบบ สามารถแบงระบบการท างาน ออกเป น 3 ระดบ ดงน 1. Application Layer เป นสวนของ User Interface ท ท า หน าท ต ดตอก บผ ใช งานระบบ 2. Software Layer เป นสวนของการท างานระบบ ซ ง ประกอบด วยกระบวนการตางๆ อาท เชน การสกดค าหลก การ วดคาความคล ายคล งกนเช งความหมาย การจดหมวดหม ของค า การค านวณคาน าหนกของกล มค า เป นต น 3. Physical Layer เป นสวนของฐานข อม ลระบบ ใน งานว จยน จะใช ฐานข อม ลค าศพท เว ร ดเน ตอ างอ งใน กระบวนการตาง ๆ 3.2 การพฒนาฐานความร เป นการพฒนาในสวนของการท างานระบบ ม องค ประกอบ หลก 2 สวน ซ งประกอบด วย การสกดความร และการจดกล ม ความร โดยการสร าง Lexical Chain การสกดความร (การตดค าและสกดค าหลก) การว จยน เป นการออกแบบเพ อใช กบ เอกสารหร อ บทความภาษาองกฤษท เป นไฟล *.txt หร อการ Copy & Paste เทานน ระบบจะท าการแยกค าและประโยคโดยใช เคร องหมาย ตางๆ อาท เชน.,?,! เป นต น การตดค าท เป นกร ยาชวยทงร ป ค าเต ม ร ปค ายอและร ปค าปฏ เสธ การตดค าน าหน าค านาม (Article) และจะท าการคดเล อกค า เฉพาะค านาม และค ากร ยา ท ส อความหมายโดยอาศยฐานข อม ลค าศพท เว ร ดเน ต ขนตอนการสกดค า จะระบ คาความถ ของค าหลก (tf) และคาน าหนกของค า (W) ไว ด วย ซ งคา W จะหาได จากคา tf/tfmax ของค าหลก การจดกลมความร โดยการสร าง Lexical Chain เป นการน าค าหลกท สกดได มาจดกล มหร อสร าง Chain ของค าศพท โดยอาศยความสมพนธ เช งความหมาย [7] โดยการ ว จยน จะอาศยฐานข อม ลค าศพท เว ร ดเน ตซ งได น ยาม ความสมพนธ ของค าศพท ไว แล ว ภาพท 2 สถาปตยกรรมระบบ 296 ตารางท 1 คาน าหนกความสมพนธ ภาพท 3 แนวค ดการสร าง Lexical Chain งานว จยน ได ออกแบบอลกอร ท มการสร าง Lexical Chain โดยประย กต จากแนวค ดของ ศร ส ดา [9] 1. กาหนดให เชตของค า ท จะสร าง chain เป น n 1 n n และ v 1 v n 2. เร มต นด วยการเล อกค าหลกค า นามท 1 (n 1 ) และค าหลก ค ากร ยาท 1 (v 1 ) กาหนดให เป นสวนหวเร มต น chain ท 1 (Cn 1 ) และ (Cv 1 ) ของค าหลกค านามและค าหลกค ากร ยา ตามล าดบ 3. เล อกค าท 2 (n 2 ) และ (v 2 ) ค นหา chain ตงแต Cn 1... Cn n และ Cv 1... Cv n โดยพ จารณา ความสมพนธ ในลกษณะตางๆ ท ปรากฎในฐานความร เว ร ด เนต ท ท าให n 2 และ v 2 ม ความสมพนธ กบค าท อย ใน chain แบบใดแบบหน ง ดงตอไปน 1) Extra-strong (Repetition) 2) Strong (Synonym, indof, Is-A, haspart, part of, oppositeof) 3) Medium-strong (ความสมพนธ แบบถายทอด ) ถ าพบความสมพนธ แบบใดแบบหน ง จะท าการเพ ม n 2 และ v 2 เข าไปใน chain ท พบความสมพนธ แบบเหน ยวแนน ท ส ด (mostly strong) หร อถ าพบความสมพนธ ท ม ความ เหน ยวแนนเทากน ให เพ มลงใน chain ท update ลาส ด ถ าไมพบ ท าการสร างให n 2 และ v 2 เป นสวนหวของ chain ใหม 4. ท าซ าขนตอนท 3 จนถ งคา n n และ v n ภาพท 4 อลกอร ท มการสร าง Lexical Chain หลงจากการจดกล มความร ระบบจะท าการค านวณคา น าหนกของ Lexical Chain เพ อเป นการให คะแนนแตละ Chain วาม ความสมพนธ กนของสมาช กมากน อยเพ ยงใด เพ อ หา Chain ท จะเป นผลลพธ ของระบบ โดยค านวณได สมการ S ท ได ปรบปร งจาก Morris and Hirstt [8] ดงสมการ 1 S P + q m= 1 = ( tf R W ) H (1) m m เม อ S ค อ น าหนกของ Lexical Chain ท tf m ค อ ความถ การเกดค าหลกท m ท เกดซ าใน m Lexical Chain ท R m ค อ น าหนกของความสมพนธ ของค าท m ใน Lexical Chain ท W m ค อ น าหนกของค าหลกท m ท เกดซ าใน H ค อ Lexical Chain ท คา Homogeneity index ซ งค านวณได จาก H P =1 (2) L P ค อ จ านวนสมาช กท เกดแตกตางกนใน Lexical Chain ท R ค อ จ านวนค าหลกท เป นสมาช กทงหมดใน Lexical Chain ท จากการค านวณน าหนกของ Lexical Chain ท ได จาก สมการข างต น จะท าการเร ยงล าดบ Lexical Chain โดย พ จารณาจากคาน าหนกมากท ส ดไปหาน อยท ส ด ซ งม การระ
Related Search
Similar documents
View more...
We Need Your Support
Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

Thanks to everyone for your continued support.

No, Thanks