Front cover Introducing OmniFind Analytics Edition: Customizing for Text Analytics Installing and configuring Customizing libraries and rules Case studies Wei-Dong Zhu Srinivas Chitiveli Kameron Cole Scott Harms Ratheesh Muraleedharan ibm.com/redbooks International Technical Support Organization Introducing OmniFind Analytics Edition: Customizing for Text Analytics June 2008 SG24-7568-00 Note: Before using this information and the product it supports, read the information in “Not ices” on pageix. First Edition (June 2008) This edition applies to Version 8, Release 4, of IBM OmniFind Analytics Edition (Offering Identifier: P91230) © Copyright International Business Machines Corporation 2008. All rights reserved. Note to U.S. Government Users Restricted Rights -- Use, duplication or disclosure restricted by GSA ADP Schedule Contract with IBM Corp. Contents Notices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .ix Trademarks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . x Preface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .xi The team that wrote this book . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .xi Become a published author . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .xiii Comments welcome. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .xiv Chapter 1. Introducing text mining and OmniFind Analytics Edition. . . . . 1 1.1 Takmi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 Text mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2.1 Beyond search: Text mining versus search . . . . . . . . . . . . . . . . . . . . 4 1.3 Use cases for IBM OmniFind Analytics Edition. . . . . . . . . . . . . . . . . . . . . . 4 1.3.1 Find out what your customers really think. . . . . . . . . . . . . . . . . . . . . . 6 1.3.2 Discover problem trends: Find it before it breaks . . . . . . . . . . . . . . . . 7 1.3.3 Text mining and the law . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.4 Features and benefits of OmniFind Analytics Edition . . . . . . . . . . . . . . . . . 8 1.4.1 Features of OmniFind Analytics Edition . . . . . . . . . . . . . . . . . . . . . . . 9 1.4.2 Benefits of OmniFind Analytics Edition. . . . . . . . . . . . . . . . . . . . . . . 11 Chapter 2. OmniFind Analytics Edition architecture. . . . . . . . . . . . . . . . . 13 2.1 Product overview. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.2 System architecture. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.2.1 Data Ingester. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.2.2 Natural language processing and OmniFind Analytics Edition Preprocessor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.2.3 Indexer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.2.4 Text Miner. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.3 Data processing flow. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.4 Topologies supported . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.5 Basic concepts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.5.1 Category . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.5.2 Rules. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.6 Text analysis applications. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.6.1 Text Miner. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.6.2 Dictionary Editor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.6.3 Rule Editor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.6.4 Alerting System. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.6.5 Online manual. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 © Copyright IBM Corp. 2008. All rights reserved. iii 2.7 Integration with OmniFind Enterprise Edition . . . . . . . . . . . . . . . . . . . . . . 26 Chapter 3. Installation and configuration. . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.1 Before you begin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.1.1 Disk space and memory recommendation . . . . . . . . . . . . . . . . . . . . 30 3.1.2 System requirements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.1.3 Installation file. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.1.4 Installation process overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.2 Installation and configuration for Windows platform . . . . . . . . . . . . . . . . . 32 3.2.1 Installing OmniFind Analytics Edition on Windows. . . . . . . . . . . . . . 33 3.2.2 Configuring OmniFind Analytics Edition on Windows. . . . . . . . . . . . 38 3.3 Installation and configuration for AIX platform. . . . . . . . . . . . . . . . . . . . . . 42 3.3.1 Installing OmniFind Analytics Edition on AIX . . . . . . . . . . . . . . . . . . 43 3.3.2 Configuring OmniFind Analytics Edition on AIX . . . . . . . . . . . . . . . . 48 3.4 Verification of installation and configuration . . . . . . . . . . . . . . . . . . . . . . . 50 Chapter 4. Data ingestion and indexing . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 4.1 OmniFind Analytics Edition preprocessing overview. . . . . . . . . . . . . . . . . 56 4.2 Database directory creation and registration. . . . . . . . . . . . . . . . . . . . . . . 58 4.3 Preparation of CSV files . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 4.4 Database category creation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 4.4.1 Editing the category tree (category_tree.xml). . . . . . . . . . . . . . . . . . 65 4.4.2 Editing database settings (database_config.xml) . . . . . . . . . . . . . . . 68 4.5 Generating ATML files. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 4.5.1 Editing Data Ingester configuration file (data_ingester_config_csv2atml.xml). . . . . . . . . . . . . . . . . . . . . . . . 70 4.5.2 Invoke Data Ingester command to convert CSV to ATML format. . . 77 4.6 Natural language processing. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 4.6.1 Allocating natural language processing resources . . . . . . . . . . . . . . 78 4.6.2 Generating MIML files. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 4.7 Indexing. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 4.7.1 Creating a new index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 4.7.2 Updating an index by adding files. . . . . . . . . . . . . . . . . . . . . . . . . . . 83 4.8 Accessing Text Miner application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 4.9 Deleting data. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 4.10 Importing data using OmniFind Enterprise Edition . . . . . . . . . . . . . . . . . 86 4.11 Quick reference for data ingestion and indexing. . . . . . . . . . . . . . . . . . . 86 Chapter 5. Text Miner mining basics. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 5.1 Text Miner. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 5.1.1 Deploying and accessing the application . . . . . . . . . . . . . . . . . . . . . 88 5.1.2 Window layout and functional overview . . . . . . . . . . . . . . . . . . . . . . 89 5.1.3 Database selection window. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 iv Introducing OmniFind Analytics Edition: Customizing for Text Analytics 5.2 Category tree view . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 5.2.1 Sorting categories. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 5.2.2 Display and hide subcategories . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 5.2.3 Selecting categories and views. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 5.3 Search. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 5.3.1 Keyword search . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 5.3.2 Category search . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 5.3.3 Date search. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 5.3.4 Applying search operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 5.4 Views. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 5.4.1 Top view . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 5.4.2 Docs view . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 5.4.3 Category view. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 5.4.4 Time series view. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 5.4.5 Topic view. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 5.4.6 Delta view . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 5.4.7 2D Map view. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 5.5 Reporting features. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 5.5.1 Bookmark results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 5.5.2 Reports . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 5.5.3 CSV output . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 Chapter 6. Text Miner advanced. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 6.1 Text analytics versus text mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 6.2 Frequency. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 6.3 Correlation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 6.3.1 Correlation values in Category view: frequency versus correlation 145 6.3.2 Correlation values used in the 2D Map view. . . . . . . . . . . . . . . . . . 148 6.4 Topicality index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 6.4.1 Topic view. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 6.5 Increase indicator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 6.5.1 Increase indicator index in the Delta view. . . . . . . . . . . . . . . . . . . . 159 6.6 Conclusion: Understand what you see . . . . . . . . . . . . . . . . . . . . . . . . . . 162 Chapter 7. Customizing the dictionary . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 7.1 Dictionary Editor overview. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 7.1.1 Launching the Dictionary Editor . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 7.2 Working with categories and the category tree. . . . . . . . . . . . . . . . . . . . 167 7.2.1 Editing the category tree. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 7.2.2 Configuring the user interface. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 7.3 Working with keywords and synonyms. . . . . . . . . . . . . . . . . . . . . . . . . . 176 7.3.1 Editing keywords. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 Contents v Chapter 8. Customizing rules. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 8.1 Dictionary rules overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 8.2 The Rule Editor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 8.3 Regular expression syntax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 8.4 Creating a sample rule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196 8.4.1 Creating a POS constraint . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 8.4.2 Creating a string constraint. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 8.4.3 Setting the rule name and its value. . . . . . . . . . . . . . . . . . . . . . . . . 201 8.4.4 Manually editing the rule for additional rule constraints . . . . . . . . . 204 8.4.5 Converting the rule file from .rpf to .pat. . . . . . . . . . . . . . . . . . . . . . 205 8.4.6 Testing rules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 8.5 Adding additional constraints . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 8.5.1 Adding a lex constraint . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 8.5.2 Adding a category constraint. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 8.5.3 Adding an ftrs constraint. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 8.6 Summary of rule creation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218 Chapter 9. Alerting System . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 9.1 Alerting System functional overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222 9.2 Setting up alerts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222 9.2.1 Setting up Increase Detection. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 9.2.2 Setting up Correlation Detection. . . . . . . . . . . . . . . . . . . . . . . . . . . 230 9.3 Batch processing and result analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . 235 9.3.1 Batch processing. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235 9.3.2 Increase Detection results. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236 9.3.3 Correlation Detection results. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239 Chapter 10. Case studies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241 10.1 Case studies overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242 10.2 Case study: Technical Help Desk. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243 10.2.1 Overview of the business scenario. . . . . . . . . . . . . . . . . . . . . . . . 244 10.2.2 Technical Help Desk database details . . . . . . . . . . . . . . . . . . . . . 244 10.2.3 Setting up the case study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247 10.2.4 Basic analysis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254 10.2.5 Root cause analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 10.3 Case study: NHTSA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267 10.3.1 Overview of the business scenario. . . . . . . . . . . . . . . . . . . . . . . . 267 10.3.2 NHTSA database details. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268 10.3.3 Basic analysis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270 10.3.4 Root cause analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273 10.3.5 Sample view usage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276 10.4 Case study: e-mail database. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280 10.4.1 Overview of the business scenario. . . . . . . . . . . . . . . . . . . . . . . . 280 vi Introducing OmniFind Analytics Edition: Customizing for Text Analytics 10.4.2 e-mail database details. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281 10.4.3 Basic analysis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282 10.4.4 Sample rules. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287 10.5 Apply new rules and dictionaries. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291 Chapter 11. Integrating OmniFind Analytics Edition with OmniFind Enterprise Edition. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295 11.1 Introduction to IBM OmniFind Enterprise Edition . . . . . . . . . . . . . . . . . 296 11.2 Integration of OAE and OEE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297 11.3 Uploading OmniFind Analytics Edition annotator . . . . . . . . . . . . . . . . . 299 11.3.1 Uploading and associating UIMA annotators . . . . . . . . . . . . . . . . 300 11.3.2 Start crawlers and parse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303 11.4 Building analytics index. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304 11.5 Registering and browsing analytics index. . . . . . . . . . . . . . . . . . . . . . . 306 11.6 Integrating custom dictionaries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309 11.6.1 Creating a custom dictionary. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309 11.6.2 Registering OAE LanguageWare dictionary with OEE. . . . . . . . . 311 11.6.3 Rebuilding the OmniFind Analytics Edition index . . . . . . . . . . . . . 314 Related publications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317 Online resources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317 How to get Redbooks. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317 Help from IBM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317 Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319 Contents vii viii Introducing OmniFind Analytics Edition: Customizing for Text Analytics
Description: