ebook img

Handbook of natural language processing PDF

692 Pages·2010·5.717 MB·English
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Handbook of natural language processing

HANDBOOK OF NATURAL LANGUAGE PROCESSING SECOND EDITION Chapman & Hall/CRC Machine Learning & Pattern Recognition Series (cid:2)(cid:3)(cid:4)(cid:5)(cid:3)(cid:2)(cid:6)(cid:3)(cid:7)(cid:5)(cid:8)(cid:9)(cid:4)(cid:2) (cid:2)(cid:3)(cid:4)(cid:5)(cid:6)(cid:7)(cid:8)(cid:9)(cid:10)(cid:9)(cid:11)(cid:12)(cid:13)(cid:6)(cid:3)(cid:14)(cid:15)(cid:6)(cid:16)(cid:13)(cid:17)(cid:9)(cid:8)(cid:6)(cid:18)(cid:9)(cid:3)(cid:8)(cid:19)(cid:8)(cid:4) (cid:10)(cid:11)(cid:12)(cid:13)(cid:14)(cid:15)(cid:14)(cid:16)(cid:17)(cid:6)(cid:4)(cid:18)(cid:15)(cid:18)(cid:19)(cid:13)(cid:12)(cid:20)(cid:6)(cid:21)(cid:17)(cid:22)(cid:23) (cid:24)(cid:19)(cid:25)(cid:26)(cid:13)(cid:11)(cid:22)(cid:27)(cid:18)(cid:28)(cid:6)(cid:29)(cid:30) (cid:20)(cid:21)(cid:22)(cid:23)(cid:6)(cid:20)(cid:24)(cid:25)(cid:6)(cid:23)(cid:26)(cid:27)(cid:28)(cid:29) (cid:8)(cid:20)(cid:11)(cid:15)(cid:6)(cid:15)(cid:18)(cid:13)(cid:11)(cid:18)(cid:15)(cid:6)(cid:13)(cid:18)(cid:31)(cid:18)(cid:12)(cid:17)(cid:15)(cid:6)(cid:17)(cid:20)(cid:18)(cid:6) (cid:19)(cid:17)(cid:18)(cid:15)(cid:17)(cid:6)(cid:19)(cid:22)!(cid:19)"(cid:12)(cid:18)(cid:15)(cid:6)(cid:19)"(cid:22)(cid:6)(cid:19)## (cid:11)(cid:12)(cid:19)(cid:17)(cid:11)(cid:14)"(cid:15)(cid:6)(cid:11)"(cid:6)(cid:25)(cid:19)(cid:12)(cid:20)(cid:11)"(cid:18)(cid:6) (cid:18)(cid:19)(cid:13)"(cid:11)"(cid:27)(cid:6) (cid:19)"(cid:22)(cid:6)#(cid:19)(cid:17)(cid:17)(cid:18)(cid:13)"(cid:6)(cid:13)(cid:18)(cid:12)(cid:14)(cid:27)"(cid:11)(cid:17)(cid:11)(cid:14)"(cid:6)(cid:17)(cid:20)(cid:13)(cid:14)$(cid:27)(cid:20)(cid:6)(cid:17)(cid:20)(cid:18)(cid:6)#$(cid:26) (cid:11)(cid:12)(cid:19)(cid:17)(cid:11)(cid:14)"(cid:6)(cid:14)(cid:16)(cid:6)(cid:19)(cid:6)(cid:26)(cid:13)(cid:14)(cid:19)(cid:22)(cid:6)(cid:13)(cid:19)"(cid:27)(cid:18)(cid:6)(cid:14)(cid:16)(cid:6)(cid:13)(cid:18)(cid:16)(cid:18)(cid:13)(cid:18)"(cid:12)(cid:18)(cid:6) %(cid:14)(cid:13)&(cid:15)(cid:28)(cid:6)(cid:17)(cid:18)’(cid:17)(cid:26)(cid:14)(cid:14)&(cid:15)(cid:28)(cid:6)(cid:19)"(cid:22)(cid:6)(cid:20)(cid:19)"(cid:22)(cid:26)(cid:14)(cid:14)&(cid:15)(cid:23)(cid:6)(cid:8)(cid:20)(cid:18)(cid:6)(cid:11)"(cid:12) $(cid:15)(cid:11)(cid:14)"(cid:6)(cid:14)(cid:16)(cid:6)(cid:12)(cid:14)"(cid:12)(cid:13)(cid:18)(cid:17)(cid:18)(cid:6)(cid:18)’(cid:19)(cid:25)# (cid:18)(cid:15)(cid:28)(cid:6)(cid:19)## (cid:11)( (cid:12)(cid:19)(cid:17)(cid:11)(cid:14)"(cid:15)(cid:28)(cid:6)(cid:19)"(cid:22)(cid:6)(cid:25)(cid:18)(cid:17)(cid:20)(cid:14)(cid:22)(cid:15)(cid:6)(cid:11)(cid:15)(cid:6)(cid:20)(cid:11)(cid:27)(cid:20) )(cid:6)(cid:18)"(cid:12)(cid:14)$(cid:13)(cid:19)(cid:27)(cid:18)(cid:22)(cid:23)(cid:6)(cid:8)(cid:20)(cid:18)(cid:6)(cid:15)(cid:12)(cid:14)#(cid:18)(cid:6)(cid:14)(cid:16)(cid:6)(cid:17)(cid:20)(cid:18)(cid:6)(cid:15)(cid:18)(cid:13)(cid:11)(cid:18)(cid:15)(cid:6)(cid:11)"(cid:12) $(cid:22)(cid:18)(cid:15)(cid:28)(cid:6) (cid:26)$(cid:17)(cid:6)(cid:11)(cid:15)(cid:6)"(cid:14)(cid:17)(cid:6) (cid:11)(cid:25)(cid:11)(cid:17)(cid:18)(cid:22)(cid:6)(cid:17)(cid:14)(cid:28)(cid:6)(cid:17)(cid:11)(cid:17) (cid:18)(cid:15)(cid:6)(cid:11)"(cid:6)(cid:17)(cid:20)(cid:18)(cid:6)(cid:19)(cid:13)(cid:18)(cid:19)(cid:15)(cid:6)(cid:14)(cid:16)(cid:6)(cid:25)(cid:19)(cid:12)(cid:20)(cid:11)"(cid:18)(cid:6) (cid:18)(cid:19)(cid:13)"(cid:11)"(cid:27)(cid:28)(cid:6)#(cid:19)(cid:17)(cid:17)(cid:18)(cid:13)"(cid:6)(cid:13)(cid:18)(cid:12)(cid:14)(cid:27)"(cid:11)( (cid:17)(cid:11)(cid:14)"(cid:28)(cid:6)(cid:12)(cid:14)(cid:25)#$(cid:17)(cid:19)(cid:17)(cid:11)(cid:14)"(cid:19) (cid:6)(cid:11)"(cid:17)(cid:18) (cid:11)(cid:27)(cid:18)"(cid:12)(cid:18)(cid:28)(cid:6)(cid:13)(cid:14)(cid:26)(cid:14)(cid:17)(cid:11)(cid:12)(cid:15)(cid:28)(cid:6)(cid:12)(cid:14)(cid:25)#$(cid:17)(cid:19)(cid:17)(cid:11)(cid:14)"(cid:19) *(cid:15)(cid:17)(cid:19)(cid:17)(cid:11)(cid:15)(cid:17)(cid:11)(cid:12)(cid:19) (cid:6) (cid:18)(cid:19)(cid:13)"(cid:11)"(cid:27)(cid:6) (cid:17)(cid:20)(cid:18)(cid:14)(cid:13))(cid:28)(cid:6)"(cid:19)(cid:17)$(cid:13)(cid:19) (cid:6) (cid:19)"(cid:27)$(cid:19)(cid:27)(cid:18)(cid:6)#(cid:13)(cid:14)(cid:12)(cid:18)(cid:15)(cid:15)(cid:11)"(cid:27)(cid:28)(cid:6)(cid:12)(cid:14)(cid:25)#$(cid:17)(cid:18)(cid:13)(cid:6)!(cid:11)(cid:15)(cid:11)(cid:14)"(cid:28)(cid:6)(cid:27)(cid:19)(cid:25)(cid:18)(cid:6)+(cid:5)(cid:28)(cid:6)(cid:27)(cid:19)(cid:25)(cid:18)(cid:6)(cid:17)(cid:20)(cid:18)(cid:14)(cid:13))(cid:28)(cid:6) "(cid:18)$(cid:13)(cid:19) (cid:6)"(cid:18)(cid:17)%(cid:14)(cid:13)&(cid:15)(cid:28)(cid:6)(cid:12)(cid:14)(cid:25)#$(cid:17)(cid:19)(cid:17)(cid:11)(cid:14)"(cid:19) (cid:6)"(cid:18)$(cid:13)(cid:14)(cid:15)(cid:12)(cid:11)(cid:18)"(cid:12)(cid:18)(cid:28)(cid:6)(cid:19)"(cid:22)(cid:6)(cid:14)(cid:17)(cid:20)(cid:18)(cid:13)(cid:6)(cid:13)(cid:18) (cid:18)!(cid:19)"(cid:17)(cid:6)(cid:17)(cid:14)#(cid:11)(cid:12)(cid:15)(cid:28)(cid:6)(cid:15)$(cid:12)(cid:20)(cid:6) (cid:19)(cid:15)(cid:6)(cid:25)(cid:19)(cid:12)(cid:20)(cid:11)"(cid:18)(cid:6) (cid:18)(cid:19)(cid:13)"(cid:11)"(cid:27)(cid:6)(cid:19)## (cid:11)(cid:18)(cid:22)(cid:6)(cid:17)(cid:14)(cid:6)(cid:26)(cid:11)(cid:14)(cid:11)"(cid:16)(cid:14)(cid:13)(cid:25)(cid:19)(cid:17)(cid:11)(cid:12)(cid:15)(cid:6)(cid:14)(cid:13)(cid:6)(cid:12)(cid:14)(cid:27)"(cid:11)(cid:17)(cid:11)!(cid:18)(cid:6)(cid:15)(cid:12)(cid:11)(cid:18)"(cid:12)(cid:18)(cid:28)(cid:6)%(cid:20)(cid:11)(cid:12)(cid:20)(cid:6) (cid:25)(cid:11)(cid:27)(cid:20)(cid:17)(cid:6)(cid:26)(cid:18)(cid:6)#(cid:13)(cid:14)#(cid:14)(cid:15)(cid:18)(cid:22)(cid:6)(cid:26))(cid:6)#(cid:14)(cid:17)(cid:18)"(cid:17)(cid:11)(cid:19) (cid:6)(cid:12)(cid:14)"(cid:17)(cid:13)(cid:11)(cid:26)$(cid:17)(cid:14)(cid:13)(cid:15)(cid:23) (cid:28)(cid:30)(cid:31) (cid:21)(cid:23)(cid:7)(cid:29)(cid:25)(cid:6)(cid:16)(cid:21)(cid:16) (cid:29)(cid:23) (cid:10)+(cid:24),(cid:5)-(cid:3)(cid:6)(cid:21)(cid:3)+(cid:4)-(cid:5)-./(cid:6)+"(cid:6)+ (cid:27)(cid:14)(cid:13)(cid:11)(cid:17)(cid:20)(cid:25)(cid:11)(cid:12)(cid:6)0(cid:18)(cid:13)(cid:15)#(cid:18)(cid:12)(cid:17)(cid:11)!(cid:18) (cid:2)(cid:3)(cid:4)(cid:5)(cid:6)(cid:4)(cid:7)(cid:8)(cid:9)(cid:10)(cid:11)(cid:12)(cid:13)(cid:10)(cid:7)(cid:14) ,+-(cid:7)1(cid:9)(cid:9)(cid:30)(cid:6)(cid:9)2(cid:6)-+(cid:8)(cid:29)(cid:4)+(cid:21)(cid:6)(cid:21)+-.(cid:29)+.(cid:3)(cid:6)0(cid:4)(cid:9)(cid:24)(cid:3)(cid:2)(cid:2)(cid:5)-.(cid:28)(cid:6)(cid:6) (cid:2)(cid:18)(cid:12)(cid:14)"(cid:22)(cid:6)(cid:3)(cid:22)(cid:11)(cid:17)(cid:11)(cid:14)" (cid:15)(cid:16)(cid:3)(cid:16)(cid:7)(cid:8)(cid:17)(cid:7)(cid:14)(cid:18)(cid:11)(cid:19)(cid:6)(cid:20)(cid:10)(cid:8)(cid:10)(cid:7)(cid:14)(cid:8)(cid:21)(cid:11)(cid:4)(cid:14)(cid:8)(cid:22)(cid:23)(cid:8)(cid:24)(cid:10)(cid:25)(cid:4)(cid:11)(cid:10)(cid:18) Chapman & Hall/CRC Machine Learning & Pattern Recognition Series HANDBOOK OF NATURAL LANGUAGE PROCESSING SECOND EDITION Edited by NITIN INDURKHYA FRED J. DAMERAU Chapman & Hall/CRC Taylor & Francis Group 6000 Broken Sound Parkway NW, Suite 300 Boca Raton, FL 33487-2742 © 2010 by Taylor and Francis Group, LLC Chapman & Hall/CRC is an imprint of Taylor & Francis Group, an Informa business No claim to original U.S. Government works Printed in the United States of America on acid-free paper 10 9 8 7 6 5 4 3 2 1 International Standard Book Number-13: 978-1-4200-8593-8 (Ebook-PDF) This book contains information obtained from authentic and highly regarded sources. Reasonable efforts have been made to publish reliable data and information, but the author and publisher cannot assume responsibility for the valid- ity of all materials or the consequences of their use. The authors and publishers have attempted to trace the copyright holders of all material reproduced in this publication and apologize to copyright holders if permission to publish in this form has not been obtained. If any copyright material has not been acknowledged please write and let us know so we may rectify in any future reprint. Except as permitted under U.S. Copyright Law, no part of this book may be reprinted, reproduced, transmitted, or uti- lized in any form by any electronic, mechanical, or other means, now known or hereafter invented, including photocopy- ing, microfilming, and recording, or in any information storage or retrieval system, without written permission from the publishers. For permission to photocopy or use material electronically from this work, please access www.copyright.com (http:// www.copyright.com/) or contact the Copyright Clearance Center, Inc. (CCC), 222 Rosewood Drive, Danvers, MA 01923, 978-750-8400. CCC is a not-for-profit organization that provides licenses and registration for a variety of users. For organizations that have been granted a photocopy license by the CCC, a separate system of payment has been arranged. Trademark Notice: Product or corporate names may be trademarks or registered trademarks, and are used only for identification and explanation without intent to infringe. Visit the Taylor & Francis Web site at http://www.taylorandfrancis.com and the CRC Press Web site at http://www.crcpress.com ToFredDamerau bornDecember25,1931;diedJanuary27,2009 Someenduringpublications: Damerau, F. 1964. A technique for computer detection and correction of spelling errors.Commun.ACM 7,3(Mar.1964),171–176. Damerau,F.1971.MarkovModelsandLinguisticTheory:AnExperimentalStudyof aModelforEnglish.TheHague,theNetherlands:Mouton. Damerau, F. 1985. Problems and some solutions in customization of natural languagedatabasefrontends.ACMTrans.Inf.Syst.3,2(Apr.1985),165–184. Apté,C.,Damerau,F.,andWeiss,S.1994.Automatedlearningofdecisionrulesfor textcategorization.ACMTrans.Inf.Syst.12,3(Jul.1994),233–251. Weiss,S.,Indurkhya,N.,Zhang,T.,andDamerau,F.2005.TextMining:Predictive MethodsforAnalyzingUnstructuredInformation.NewYork:Springer. Contents ListofFigures................................................................................................. ix ListofTables.................................................................................................. xiii Editors........................................................................................................... xv BoardofReviewers.......................................................................................... xvii Contributors................................................................................................... xix Preface .......................................................................................................... xxi PART I Classical Approaches 1 ClassicalApproachestoNaturalLanguageProcessing RobertDale ................. 3 2 TextPreprocessing DavidD.Palmer.......................................................... 9 3 LexicalAnalysis AndrewHippisley............................................................. 31 4 SyntacticParsing PeterLjunglöfandMatsWirén......................................... 59 5 SemanticAnalysis CliffGoddardandAndreaC.Schalley............................... 93 6 NaturalLanguageGeneration DavidD.McDonald ...................................... 121 PART II Empirical and Statistical Approaches 7 CorpusCreation RichardXiao.................................................................. 147 8 TreebankAnnotation EvaHajicˇová,AnneAbeillé,JanHajicˇ,JirˇíMírovský, andZdenˇkaUrešová.................................................................................. 167 9 FundamentalStatisticalTechniques TongZhang ......................................... 189 10 Part-of-SpeechTagging TungaGüngör ...................................................... 205 11 StatisticalParsing JoakimNivre................................................................. 237 12 MultiwordExpressions TimothyBaldwinandSuNamKim........................... 267 vii viii Contents 13 NormalizedWebDistanceandWordSimilarity PaulM.B.Vitányi andRudiL.Cilibrasi.................................................................................. 293 14 WordSenseDisambiguation DavidYarowsky............................................. 315 15 AnOverviewofModernSpeechRecognition XuedongHuangandLiDeng...... 339 16 Alignment DekaiWu.............................................................................. 367 17 StatisticalMachineTranslation AbrahamIttycheriah.................................... 409 PART III Applications 18 ChineseMachineTranslation PascaleFung ................................................ 425 19 InformationRetrieval JacquesSavoyandEricGaussier ................................. 455 20 QuestionAnswering DiegoMollá-AliodandJosé-LuisVicedo ........................ 485 21 InformationExtraction JerryR.HobbsandEllenRiloff ................................. 511 22 ReportGeneration LeoWanner................................................................ 533 23 EmergingApplicationsofNaturalLanguageGenerationinInformation Visualization,Education,andHealthCare BarbaraDiEugenio andNancyL.Green................................................................................... 557 24 OntologyConstruction PhilippCimiano,JohannaVölker, andPaulBuitelaar .................................................................................... 577 25 BioNLP:BiomedicalTextMining K.BretonnelCohen .................................. 605 26 SentimentAnalysisandSubjectivity BingLiu.............................................. 627 Index............................................................................................................ 667

See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.