Table Of ContentFront cover
Introducing OmniFind Analytics Edition:
Customizing for Text Analytics
Installing and configuring
Customizing libraries and rules
Case studies
Wei-Dong Zhu
Srinivas Chitiveli
Kameron Cole
Scott Harms
Ratheesh Muraleedharan
ibm.com/redbooks
International Technical Support Organization
Introducing OmniFind Analytics Edition:
Customizing for Text Analytics
June 2008
SG24-7568-00
Note: Before using this information and the product it supports, read the information in
“Notices” on pageix.
First Edition (June 2008)
This edition applies to Version 8, Release 4, of IBM OmniFind Analytics Edition (Offering
Identifier: P91230)
© Copyright International Business Machines Corporation 2008. All rights reserved.
Note to U.S. Government Users Restricted Rights -- Use, duplication or disclosure restricted by GSA ADP
Schedule Contract with IBM Corp.
Contents
Notices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .ix
Trademarks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . x
Preface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .xi
The team that wrote this book . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .xi
Become a published author . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .xiii
Comments welcome. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .xiv
Chapter 1. Introducing text mining and OmniFind Analytics Edition. . . . . 1
1.1 Takmi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Text mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1 Beyond search: Text mining versus search . . . . . . . . . . . . . . . . . . . . 4
1.3 Use cases for IBM OmniFind Analytics Edition. . . . . . . . . . . . . . . . . . . . . . 4
1.3.1 Find out what your customers really think. . . . . . . . . . . . . . . . . . . . . . 6
1.3.2 Discover problem trends: Find it before it breaks . . . . . . . . . . . . . . . . 7
1.3.3 Text mining and the law . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Features and benefits of OmniFind Analytics Edition . . . . . . . . . . . . . . . . . 8
1.4.1 Features of OmniFind Analytics Edition . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.2 Benefits of OmniFind Analytics Edition. . . . . . . . . . . . . . . . . . . . . . . 11
Chapter 2. OmniFind Analytics Edition architecture. . . . . . . . . . . . . . . . . 13
2.1 Product overview. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2 System architecture. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.1 Data Ingester. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.2 Natural language processing and OmniFind Analytics Edition
Preprocessor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.3 Indexer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.4 Text Miner. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Data processing flow. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4 Topologies supported . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.5 Basic concepts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.5.1 Category . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.5.2 Rules. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6 Text analysis applications. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6.1 Text Miner. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6.2 Dictionary Editor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.6.3 Rule Editor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6.4 Alerting System. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6.5 Online manual. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
© Copyright IBM Corp. 2008. All rights reserved. iii
2.7 Integration with OmniFind Enterprise Edition . . . . . . . . . . . . . . . . . . . . . . 26
Chapter 3. Installation and configuration. . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.1 Before you begin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1.1 Disk space and memory recommendation . . . . . . . . . . . . . . . . . . . . 30
3.1.2 System requirements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.1.3 Installation file. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.1.4 Installation process overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2 Installation and configuration for Windows platform . . . . . . . . . . . . . . . . . 32
3.2.1 Installing OmniFind Analytics Edition on Windows. . . . . . . . . . . . . . 33
3.2.2 Configuring OmniFind Analytics Edition on Windows. . . . . . . . . . . . 38
3.3 Installation and configuration for AIX platform. . . . . . . . . . . . . . . . . . . . . . 42
3.3.1 Installing OmniFind Analytics Edition on AIX . . . . . . . . . . . . . . . . . . 43
3.3.2 Configuring OmniFind Analytics Edition on AIX . . . . . . . . . . . . . . . . 48
3.4 Verification of installation and configuration . . . . . . . . . . . . . . . . . . . . . . . 50
Chapter 4. Data ingestion and indexing . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.1 OmniFind Analytics Edition preprocessing overview. . . . . . . . . . . . . . . . . 56
4.2 Database directory creation and registration. . . . . . . . . . . . . . . . . . . . . . . 58
4.3 Preparation of CSV files . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.4 Database category creation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.4.1 Editing the category tree (category_tree.xml). . . . . . . . . . . . . . . . . . 65
4.4.2 Editing database settings (database_config.xml) . . . . . . . . . . . . . . . 68
4.5 Generating ATML files. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.5.1 Editing Data Ingester configuration file
(data_ingester_config_csv2atml.xml). . . . . . . . . . . . . . . . . . . . . . . . 70
4.5.2 Invoke Data Ingester command to convert CSV to ATML format. . . 77
4.6 Natural language processing. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.6.1 Allocating natural language processing resources . . . . . . . . . . . . . . 78
4.6.2 Generating MIML files. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.7 Indexing. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.7.1 Creating a new index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.7.2 Updating an index by adding files. . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.8 Accessing Text Miner application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.9 Deleting data. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.10 Importing data using OmniFind Enterprise Edition . . . . . . . . . . . . . . . . . 86
4.11 Quick reference for data ingestion and indexing. . . . . . . . . . . . . . . . . . . 86
Chapter 5. Text Miner mining basics. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.1 Text Miner. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.1.1 Deploying and accessing the application . . . . . . . . . . . . . . . . . . . . . 88
5.1.2 Window layout and functional overview . . . . . . . . . . . . . . . . . . . . . . 89
5.1.3 Database selection window. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
iv Introducing OmniFind Analytics Edition: Customizing for Text Analytics
5.2 Category tree view . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.2.1 Sorting categories. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.2.2 Display and hide subcategories . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.2.3 Selecting categories and views. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.3 Search. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
5.3.1 Keyword search . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.3.2 Category search . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.3.3 Date search. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
5.3.4 Applying search operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
5.4 Views. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.4.1 Top view . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.4.2 Docs view . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
5.4.3 Category view. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
5.4.4 Time series view. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.4.5 Topic view. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5.4.6 Delta view . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
5.4.7 2D Map view. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
5.5 Reporting features. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
5.5.1 Bookmark results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
5.5.2 Reports . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
5.5.3 CSV output . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
Chapter 6. Text Miner advanced. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
6.1 Text analytics versus text mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
6.2 Frequency. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
6.3 Correlation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
6.3.1 Correlation values in Category view: frequency versus correlation 145
6.3.2 Correlation values used in the 2D Map view. . . . . . . . . . . . . . . . . . 148
6.4 Topicality index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
6.4.1 Topic view. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
6.5 Increase indicator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
6.5.1 Increase indicator index in the Delta view. . . . . . . . . . . . . . . . . . . . 159
6.6 Conclusion: Understand what you see . . . . . . . . . . . . . . . . . . . . . . . . . . 162
Chapter 7. Customizing the dictionary . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
7.1 Dictionary Editor overview. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
7.1.1 Launching the Dictionary Editor . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
7.2 Working with categories and the category tree. . . . . . . . . . . . . . . . . . . . 167
7.2.1 Editing the category tree. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
7.2.2 Configuring the user interface. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
7.3 Working with keywords and synonyms. . . . . . . . . . . . . . . . . . . . . . . . . . 176
7.3.1 Editing keywords. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
Contents v
Chapter 8. Customizing rules. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
8.1 Dictionary rules overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
8.2 The Rule Editor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
8.3 Regular expression syntax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
8.4 Creating a sample rule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
8.4.1 Creating a POS constraint . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
8.4.2 Creating a string constraint. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
8.4.3 Setting the rule name and its value. . . . . . . . . . . . . . . . . . . . . . . . . 201
8.4.4 Manually editing the rule for additional rule constraints . . . . . . . . . 204
8.4.5 Converting the rule file from .rpf to .pat. . . . . . . . . . . . . . . . . . . . . . 205
8.4.6 Testing rules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
8.5 Adding additional constraints . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
8.5.1 Adding a lex constraint . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
8.5.2 Adding a category constraint. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
8.5.3 Adding an ftrs constraint. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
8.6 Summary of rule creation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
Chapter 9. Alerting System . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
9.1 Alerting System functional overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
9.2 Setting up alerts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
9.2.1 Setting up Increase Detection. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
9.2.2 Setting up Correlation Detection. . . . . . . . . . . . . . . . . . . . . . . . . . . 230
9.3 Batch processing and result analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
9.3.1 Batch processing. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
9.3.2 Increase Detection results. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
9.3.3 Correlation Detection results. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
Chapter 10. Case studies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
10.1 Case studies overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
10.2 Case study: Technical Help Desk. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
10.2.1 Overview of the business scenario. . . . . . . . . . . . . . . . . . . . . . . . 244
10.2.2 Technical Help Desk database details . . . . . . . . . . . . . . . . . . . . . 244
10.2.3 Setting up the case study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
10.2.4 Basic analysis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254
10.2.5 Root cause analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
10.3 Case study: NHTSA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267
10.3.1 Overview of the business scenario. . . . . . . . . . . . . . . . . . . . . . . . 267
10.3.2 NHTSA database details. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268
10.3.3 Basic analysis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
10.3.4 Root cause analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273
10.3.5 Sample view usage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276
10.4 Case study: e-mail database. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280
10.4.1 Overview of the business scenario. . . . . . . . . . . . . . . . . . . . . . . . 280
vi Introducing OmniFind Analytics Edition: Customizing for Text Analytics
10.4.2 e-mail database details. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281
10.4.3 Basic analysis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282
10.4.4 Sample rules. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287
10.5 Apply new rules and dictionaries. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
Chapter 11. Integrating OmniFind Analytics Edition with OmniFind
Enterprise Edition. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
11.1 Introduction to IBM OmniFind Enterprise Edition . . . . . . . . . . . . . . . . . 296
11.2 Integration of OAE and OEE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
11.3 Uploading OmniFind Analytics Edition annotator . . . . . . . . . . . . . . . . . 299
11.3.1 Uploading and associating UIMA annotators . . . . . . . . . . . . . . . . 300
11.3.2 Start crawlers and parse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
11.4 Building analytics index. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304
11.5 Registering and browsing analytics index. . . . . . . . . . . . . . . . . . . . . . . 306
11.6 Integrating custom dictionaries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309
11.6.1 Creating a custom dictionary. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309
11.6.2 Registering OAE LanguageWare dictionary with OEE. . . . . . . . . 311
11.6.3 Rebuilding the OmniFind Analytics Edition index . . . . . . . . . . . . . 314
Related publications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317
Online resources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317
How to get Redbooks. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317
Help from IBM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317
Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319
Contents vii
viii Introducing OmniFind Analytics Edition: Customizing for Text Analytics