กำรสก ดสำรสนเทศของเอกสำรโครงงำนน กศ กษำแบบอ ตโนม ต บนฐำนของกฏ The Automatic Rule based Information Extraction of Student Project Documents - PDF

Description
The 3 rd ASEAN Undergraduate Conference in Computing (AUC 2 ) 2015 กำรสก ดสำรสนเทศของเอกสำรโครงงำนน กศ กษำแบบอ ตโนม ต บนฐำนของกฏ The Automatic Rule based Information Extraction of Student Project Documents

Please download to get full document.

View again

of 6
All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
Information
Category:

Lifestyle

Publish on:

Views: 12 | Pages: 6

Extension: PDF | Download: 0

Share
Transcript
The 3 rd ASEAN Undergraduate Conference in Computing (AUC 2 ) 2015 กำรสก ดสำรสนเทศของเอกสำรโครงงำนน กศ กษำแบบอ ตโนม ต บนฐำนของกฏ The Automatic Rule based Information Extraction of Student Project Documents วราภรณ คงสมพงษ 1 และธ รพงษ ส งข ศร 2 1,2 โปรแกรมว ชาว ทยาการสารสนเทศ คณะว ทยาศาสตร และเทคโนโลย มหาว ทยาล ยราชภ ฏนครราชส มา บทค ดย อ โครงงานช นน ม ว ตถ ประสงค เพ อพ ฒนาโปรแกรมส าหร บการ สก ดสารสนเทศออกจากเอกสารโครงงานน กศ กษาบนฐานของกฏ ข นตอนการท างานสามารถแบ งออกได เป น 2 ส วนค อ การสร าง ฐานกฏโดยใช ค ณล กษณะของเอกสารประกอบด วยหมายเลขย อ หน า ลาด บของย อหน า ขนาดของย อหน า และคาสาค ญส าหร บ สร างกฎการสก ด และการสร างโปรแกรมเพ อประย กต ใช กฏใน การสก ดสารสนเทศ ม การน า Apache POI API มาใช ส าหร บ การอ านไฟล เอกสารโครงงานน กศ กษาเพ อเตร ยมข อม ลเช น การ ต ดเอกสารออกเป นแต ละย อหน า (Paragraph segmentation) การต ดย อหน าว าง (Paragraph cleaning) ส าหร บข อม ลท ใช นามาจากไฟล เอกสารโครงงานน กศ กษาต งแต ป การศ กษา จ านวนท งส น 60 เอกสาร โดยแบ งข อม ลออกเป น 2 ส วน ค อ ส วนท ใช ส าหร บการสร างฐานกฏจ านวน 40 เอกสาร และ ส วนของการทดสอบเพ อว ดประส ทธ ภาพของกฏท ถ กสร างข น จ านวน 20 เอกสาร ผลการทดลองพบว าประส ทธ ภาพความ ถ กต องในการสก ดสารสนเทศออกจากเอกสารโครงงานน กศ กษา เท าก บร อยละ 55 Abstract This project aims to develop the system for extracting the information from a student project document based on rules. This work can be divided into two parts: part1 is the rule generation using document features (number of paragraph, sequence of paragraph, length of paragraph and keyword of paragraph) and another is the system development for extracting data from the student project document with generated rules. This system uses the Apache POI API which is the java API for reading or writing any format document such as word document for preparing process (paragraph segmentation, paragraph cleaning). The documents of this work are the student project document since years and the total document is 60 documents. These documents are separated to 2 groups: the first group is for the rule generation and the other group is for testing process. The result of the information extraction has the accuracy as 55 percentages. ค ำส ำค ญ: การท าเหม องข อความ (Text Mining) การสก ด สารสนเทศ (Information Extraction) 1. บทนำ ข อม ลแบบไม ม โครงสร าง (Unstructured Data) เป นร ปแบบ ข อม ลท ม อย มากส าหร บการท างานต งแต อด ตถ งป จจ บ นซ งม ร ปแบบท แตกต างจากการเก บข อม ลในระบบฐานข อม ลท เป น ประเภทข อม ลแบบม โครงสร าง (Structured Data) การพ ฒนา ซอฟต แวร ส าหร บการประมวลผลข อม ลแบบไม ม โครงสร างถ อได ว าเป นส งส าค ญอย างมากในป จจ บ นน เน องด วยเอกสารในองค กร หร อหน วยงานราชการส งกว าร อยละ 80 ม ร ปแบบเอกสารเป น ข อความ (Textual Document) เช น เอกสารราชการ เอกสาร ประก นค ณภาพการศ กษา เอกสารรายงานว จ ย เป นต น โดยม การประย กต ใช ความร ทางด านการประมวลผลภาษาธรรมชาต (Natural Language Processing) รวม ถ งก าร ส ก ด ข อ ม ล สารสนเทศ (Information Extraction) เพ อสามารถได มาซ ง ซอฟต แวร ท ม ประโยชน ต อองค กร สถาบ นการศ กษาใน ระด บอ ดมศ กษาเป นอ กหน วยงานท ม การใช เอกสารแบบไม ม โครงสร างเป นอย างมาก โดยเฉพาะเอกสารร ปเล มโครงงานของ น กศ กษาเพ อท สามารถจ ดเก บให ง ายต อการส บค นและได ม การ พ ฒนาระบบการจ ดการเอกสารโครงงานน กศ กษาในแต ละ สถาบ นการศ กษา ป ญหาท พบค อ น กศ กษาจ าเป นต องเข าไปใน เว บไซต เพ อกรอกข อม ลเก ยวก บเอกสารโครงงานของตนเองใน การบ นท กเก บไว ในฐานข อม ลซ งเป นการท างานท ซ าซ อนก บ เอกสารโครงงานท ได ท าไว แล ว ด งน นจ งได ม งานว จ ยท น าเสนอ ว ธ การในการสก ดสารสนเทศจากเอกสารแบบไม ม โครงสร างเช น งานว จ ยของอ ษานาฎและธ รพงษ ได น าเสนอแนวค ดในการสก ด สารสนเทศจากเอกสารราชการแบบไม ร ชน ดอย างอ ตโนม ต ด วย ฐานกฏท สร างข นจากสมม ต ฐานบนโครงสร างต นไม ของไฟล เอกสารท ม ร ปแบบเป นไฟล XML งานว จ ยของ Haikun Hong ได น าเสนอแนวค ดการสก ดข อม ลบนเว บไซต โดยใช การว เคราะห โครงสร างต นไม และการสร างแม แบบ โครงงานช นน ม ว ตถ ประสงค เพ อสร างกฏส าหร บการสก ด สารสนเทศ และพ ฒนาโปรแกรมส าหร บการสก ดสารสนเทศของ เอกสารโครงงานน กศ กษาบนฐานกฏ โดยใช ข อม ลเอกสาร โครงงานน กศ กษา โปรแกรมว ชาว ทยาการสารสนเทศ คณะ ว ทยาศาสตร และเทคโนโลย ต งแต ป การศ กษา จานวนท งส น 60 เอกสาร โดยแบ งข อม ลออกเป น 2 ส วนค อ ส วน ท ใช ส าหร บการสร างฐานกฏจ านวน 40 เอกสาร และส วนของ การทดสอบเพ อว ดประส ทธ ภาพของกฏท ถ กสร างข นจ านวน 20 เอกสาร 2. ทฤษฎ และงำนว จ ยท เก ยวข อง 2.1 กำรสก ดข อม ลสำรสนเทศ (Information Extraction) [1,5] การสก ดข อม ลสารสนเทศค อ กระบวนการแยกแยะ หมวดหม และระบ โครงสร างของข อม ลท เน นเฉพาะเน อหาหร อ สารสนเทศท เจาะจงจากเอกสารแบบไม ม โครงสร างซ งถ อเป นงาน ท ส าค ญส วนหน งในการท าเหม องข อความ (Text mining) โดย ว ตถ ประสงค ของการสก ดข อม ลสารสนเทศเพ อการเปล ยน ร ปแบบล กษณะของข อม ลจากแหล งข อม ลท ไม ม โครงสร าง เช น เอกสารท ถ กสร างจากโปรแกรม Microsoft word เป นต น ให อย ในร ปแบบของข อม ลท ม โครงสร างเพ อสามารถท น าไปใช งาน ประมวลผลข อม ลหร อว เคราะห ข อม ลต อได กระบวนการท างานของการสก ดข อม ลสารสนเทศจะ เร มจากการน าข อม ลในร ปแบบท ไม ม โครงสร างท าข นตอนก อน การประมวลผล (pre-processing) ประกอบด วยการต ดค า (Word segmentation) การแปลงร ปแบบของค า (Word normalization) การหารากค าศ พท (Word stemming) การ ก าจ ดค าหย ด (Stopword removal) เป นต น จากน นจะน า ข อม ลท ผ านข นตอนด งกล าวไปประมวลผลเพ อระบ หาต าแหน ง ของสารสนเทศท ต องการซ งอาจใช ฐานกฏ หร อในป จจ บ นม การ ประย กต ใช การเร ยนร ของเคร องจ กร (Machine learning) เข า มาช วยในการสก ดข อม ลสารสนเทศของเอกสาร สามารถแสดง กระบวนการทางานของการสก ดข อม ลสารสนเทศด งภาพท 1 ภาพท 1. กระบวนการการสก ดข อม ลสารสนเทศจากเอกสารแบบไม ม โครงสร าง [1] 2.2 เคร องม อ Apache POI [3] Apache POI เป นเคร องม อหร อไลบราร ท ช วยส าหร บ การพ ฒนาโปรแกรมเพ อใช อ านและเข ยนข อม ลจากเอกสารใน ร ปแบบของ Microsoft Office โดยส วนประกอบของ Apache POI ท ใช ส าหร บการทางานก บไฟล เอกสารของ Microsoft word ส วน ของ Word(HWPF+XHWPF) โด ยส วน ของ HWPF ม ความสามารถในการเข ยนไฟล เอกสารเพ อให Microsoft Word สามารถอ านไฟล เอกสารได แต จะไม รองร บการอ าน เอกสารในร ปแบบของ.docx 2.3 งำนว จ ยท เก ยวข อง การศ กษาเพ อออกแบบกฏและพ ฒนาโปรแกรมส าหร บ การสก ดสารสนเทศจากโครงงานน กศ กษาได ศ กษางานว จ ยท เก ยวข อง ด งน งานว จ ยของอมรท พย กว นปณ ธาน [2] ได ท าการศ กษา บร บทท สามารถระบ เป นส งบ งบอกการปรากฏของช อเฉพาะ ภาษาไทยส าหร บน าไปใช ในการพ ฒนางานด านภาษาศาสตร คอมพ วเตอร โดยศ กษาจากคล งข อม ลภาษาท ม การก าก บช อ เฉพาะผ ว จ ยได ท าการจ ดสร างคล งข อม ลภาษาข นโดยรวบรวม ข อความภาษาไทยจากหน งส อพ มพ กร งเทพธ รก จและน ตยสาร สก ลไทยแล วท าการก าก บช อเฉพาะและบร บทบ งบอกตามแนว ทางการกาก บช อเฉพาะของ TEI งานว จ ยของ Haikun Hong [4] ได น าเสนอแนวค ดการ สก ดข อม ลบนเว บไซต โดยใช การว เคราะห โครงสร างต นไม และการ สร างแม แบบสาหร บโครงสร างต นไม ใหม เพ อนามาช วยในการสก ด ข อม ลจากเว บไซต งานว จ ยของ Ua-apisitwong [5] ได น าเสนอแนวค ดใน การสก ดสารสนเทศออกจากเอกสารราชการแบบไม ร ประเภทโดย ฐานกฏ ซ งได ม การนาเสนอสมม ต ฐานในการสร างฐานกฏสาหร บ โครงสร าง XML เพ อสามารถสร างฐานกฏของเอกสารราชการ แบบไม ร ประเภทได โดยผลการทดลองพบว าม ค าความถ กต องใน การสก ดสารสนเทศเท าก บร อยละ ว ธ กำรดำเน นงำน โครงงานช นน ม ว ธ ด าเน นงานออกแบ งออกเป น 3 ข นตอน ด งต อไปน 3.1 กำรจ ดเตร ยมข อม ล โครงงานช นน ได ม การจ ดเตร ยมข อม ลใช ข อม ลของเอกสาร โครงงานน กศ กษาต งแต ป การศ กษา จานวนท งส น 60 เอกสาร โดยแบ งข อม ลออกเป น 2 ส วนค อ ส วนท ใช สาหร บ นาไปสร างฐานกฏจานวน 40 เอกสาร และส วนของการทดสอบ เพ อว ดประส ทธ ภาพของกฏท ถ กสร างข นจานวน 20 เอกสาร โดย ไฟล เอกสารโครงงานน กศ กษาท งหมดเป นร ปแบบของไฟล.doc และการดาเน นงานของไฟล เอกสารประกอบด วยส วนของหน าปก บทค ดย อไทย และบทค ดย ออ งกฤษเท าน น สามารถแสดง ต วอย างไฟล เอกสารด งภาพท 2 และภาพท 3 ของย อหน า ขนาดความยาวของย อหน า และค าส าค ญในย อ หน า) สามารถแสดงฐานกฎในการสก ดสารสนเทศได ด งน กฏข อท 1 ช อโครงงาน หาได จากค ณล กษณะท 1 ค อ ย อหน าแรกของเอกสารจะเป นช อโครงงานน กศ กษาเสมอ กฎข อท 2 ช อผ จ ดทา หาได จากค ณล กษณะท 1 ค อ เจอ ย อหน าช อโครงงาน ล าด บถ ดไปสองย อหน าจะเป นช อผ จ ดท า (ตาแหน งท 3 ของพารากราฟ) กฎข อท 3 ป ท จ ดท า หาได จากค ณล กษณะท 3 และ 4 ค อ ป ท จ ดทาจะม ความยาวของย อหน าเท าก บ 14 และม ต วอ กษร ป ข นต นเสมอ กฎข อท 4 บทค ดย อภาษาไทย หาได จากค ณล กษณะท 4 ค อ เจอย อหน าท เป นข อความว า บทค ดย อ ย อหน าถ ดไปจะ เป นส วนเน อหาของบทค ดย อภาษาไทย กฎข อท 5 บทค ดย อภาษาอ งกฤษ หาได จากค ณล กษณะ ท 4 ค อ เจอย อหน าท เป นข อความว า Abstract ย อหน าถ ดไป จะเป นส วนเน อหาของบทค ดย อภาษาอ งกฤษ ภาพท 2. ต วอย างหน าปกของเอกสารโครงงานน กศ กษา 3.2 กำรสร ำงฐำนกฏ สาหร บข นตอนการออกแบบและสร างฐานกฎสาหร บการ สก ดสารสนเทศจากเอกสารโครงงานน กศ กษาได ท าการก าหนด สารสนเทศท ต องการสก ดท งหมด 5 ห วข อประกอบด วย ช อ โครงงาน ช อผ จ ดท า ป การศ กษาท ส าเร จ บทค ดย อภาษาไทย และบทค ดย อภาษาอ งกฤษ โดยการออกแบบกฏด งกล าวจะเป น การประเม นร ปแบบท เก ดข นบนไฟล เอกสารโครงงานน กศ กษาท เตร ยมไว ท งส น 40 ไฟล เอกสารซ งผ านข นตอนก อนการ ประมวลผลแล ว และใช ค ณล กษณะของเอกสารท ง 4 ค ณล กษณะ ในการออกแบบฐานกฎ (หมายเลขของย อหน า ล าด บการวาง ภาพท 3. ต วอย างบทค ดย อภาษาไทยของเอกสารโครงงานน กศ กษา 3.3 กำรออกแบบและพ ฒนำระบบ การออกแบบและพ ฒนาระบบเป นข นตอนการออกแบบ ระบบสารสนเทศสาหร บการสก ดสารสนเทศจากเอกสารโครงงาน น กศ กษา โดยม การก าหนดกรอบการท างานของระบบและใช แผนภาพกระแสข อม ลสาหร บ
Related Search
Similar documents
View more...
We Need Your Support
Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

Thanks to everyone for your continued support.

No, Thanks