What's New in dtSearch 7.64?
Enhancements (dtSearch Engine)
- Added dtsSearchLanguageAnalyzerSynonyms flag to enable using a language analyzer to generate morphological variations on a search term at search time. When this flag is set, the language analyzer is called for each word or phrase in the search request. The flag dtsLaInputIsSearchTerm is passed to the language analyzer in dtsLaJob.flags, so the language analyzer knows why it is being called.
- Added dtssGetWordBreaker API function to provide direct access to the dtSearch Engine's internal word breaker using the language analyzer API. For sample code demonstrating how to use this API, see the WordBreak example in examples\vc8\WordBreak.
- Added more structural information to the output generated by conversion to the it_ContentAsXml file format.
- Added to COM interface: WordListBuilder.ListFieldValues, WordListBuilder.SetFilter, and IndexJob.EnumerableFields.
- Added dtsListIndexSkipNoiseWords flag for ListIndexJob to list words in an index without including any noise words.
- Added dtsoFfSkipDataSourceFields flag for Options.FieldFlags to prevent DocFields values from appearing in FileConverter output
Fixes and minor enhancements
- Fixed incorrect display of CreationDate and ModDate properties in PDF files
- Fixed incorrect hit highlighting when Unicode Filtering options at search time different from options used to index a file. To ensure consistent options, Unicode Filtering options are stored in the index when the index is created, in the index_a.ix file.
- Fixed error updating index when directory specified for temporary files is inaccessible.
- Fixed index merge bug causing "Inconsistent doc ids from target index" error during merge.
- Fixed two search report bugs causing incorrect hit highlighting.
- Improved formatting of documents converted from Ami Pro and Quattro Pro to HTML
- Added automatic detection of gb2312 and JIS encoding.
- Added automatic detection of XyWrite, XBase, WordStar 3.x, and WordPerfect 4.2 and TAR files.
- Improved reporting of file types by FileConverter.DetectedTypeId, providing much more specific information about Microsoft Word versions and adding type detection for additional file formats
- Added support for text extraction from Adobe Framemaker MIF, XFA form templates in PDF files, and Visio XML files
- Fixed "Excessive nesting" error indexing OpenOffice document due to bug parsing table structure
- Fixed RTF file parser bug affecting handling of the \upr tag
- Other file parser bug fixes affecting Multimate, Lotus 1-2-3, PDF, Word, PowerPoint
What's New in dtSearch 7.63?
- Added IndexFileInfo.UserFields in .NET API to provide access to stored fields through the IIndexStatusHandler callback interface during indexing
- Added dtsnIndexDeletedFileRemoved, dtsnIndexListedFileRemoved, and dtsnIndexListedFileNotRemoved notifications to the indexing status callbacks to notify the calling application when files are removed from the index during indexing or when an attempt to remove a listed file fails
What's New in dtSearch 7.62?
- Regular Expression searching extended to support TR1 regular expressions
- Added new cmap files for PDF extraction
- Reduced Memory use for searches that retreive large numbers of documents with a relatively small MaxFilesToRetrieve value
What's New in dtSearch 7.61?
Added new user interface appearance options and updated toolbar icons
What's New in dtSearch 7.5?
New dtSearch Desktop with Spider 64-bit version: The new release includes a native 64-bit version of the dtSearch Engine for Win & .NET (for .NET 2.0/3.0) for developers to integrate into web-based and other applications. The 64-bit version provides full API access to dtSearch's terabyte indexer and search functionality, file format and database support (including SQL BLOB data).
International language enhancements: dtSearch products include international language support through Unicode, covering hundreds of international languages. The new version adds improved searching of Chinese, Japanese and Korean text presented without spaces between words. The new version also offers improved developer API integration with third-party international language morphological analyzers like those from Basis Technology
What's New in dtSearch 7.43?
- Fixed bug in PDF file parser affecting decoding of CID fonts in PDF files
- Fixed error extracting item from TAR file to hit-highlight after search
- Added detection of the following file types with missing or incorrect filename extensions: Microsoft Word 2003 XML files, Microsoft Excel 2003 XML files.
- Fixed error indexing using data source API under WebSphere
- Fixed extra spacing in output when HTML converted to UTF-8 text
What's New in dtSearch 7.40?
- Automatic recognition of dates, email addresses, and credit card numbers in text
- Support for Vista XMP metadata
- Support for PowerPoint 2007 (*.pptx). (The product line already supports Word 2007 (*.docx) and Excel 2007 (*.xlsx))
- Support for Vista XML Paper Specification (*.xps) documents
- A new IndexCache object in the .NET 2.0 API, and dtsIndexCache object in the C++ API of the dtSearch Engine. The new objects enable much faster searching when a series of searches must be done against a small number of indexes
What's New in dtSearch 7.30?
Enhancements (All products)
- Added preliminary support for Word 2007 (*.docx) and Excel 2007 (*.xlsx) based on the current Office 2007 beta and available documentation.
- Added support for JPG and TIFF metadata, including EXIF and IPTC fields.
- Unicode filtering file parser can handle individual documents larger than 2 Gb, and support for files larger than 2 Gb added to the extext.exe utility
- Improved handling of partially inaccessible email files. In previous versions, if an email had encrypted or corrupt data (for example, an encrypted attachment), the whole email was reported as encrypted or corrupt. In this version, the readable portion of the message is indexed and the unreadable portion is separately reported as a partially encrypted or partially unreadable file. This change applies to Outlook messages, TNEF files, .eml files, MBOX archives, and .msg files.
Enhancements (dtSearch Engine)
- Beta x64 (64-bit) versions of the dtSearch Indexer and dtSearch Engine (dtIndexer64.exe, dtengine64.dll, and dtSearchNetApi2.dll. The index format and APIs (C++, COM, and .NET) are identical to the 32-bit version. The 64-bit components are in a separate download file (dtSearch64_730.exe) with the same installation password as the dtSearch Engine SDK.
- Added alternative PDF highlighting mechanism for client-based applications (see "Highlighting Hits in PDF files" in the API Overviews section for details)
- Added ListIndexJob object to the .NET 2.0 API to list files, words, or fields in an index (see dtSearchNetApi2.chm for API reference)
- Added dtsListIndexIncludeDocId flag for dtsListIndexJob and ListIndexJob to provide a quick way to list all documents in an index and the doc id for each document
- C++ API Changes to support 64-bit file sizes in dtsInputStream (added size64 and seek64), dtsInputStreamReader, dtsFileInfo (added size64), dtsSearchResultsItem (added size64). These changes preserve binary compatibility for the dtSearch Engine DLL, but some C++ code may trigger new warnings when compiled because of 64-bit values returned.
- Added dtsIndexKeepExistingDocIds flag to specify that, when compressing an index, the indexer should not remap document ids, so document ids will be unmodified in the index once compression is done.
- Fixes and minor enhancements
What's New in dtSearch 7.20?
- New file parsers for OpenOffice documents, spreadsheets, and presentations (*.sxw, *.sxc, *.odt, *.ods, etc.), covering OpenOffice version 1 and OpenOffice version 2 (the "Open Document Format for Office Applications")
- New file parsers for the Microsoft Office XML formats (Microsoft Word 2003 XML and Microsoft Excel 2003 XML)
- Added "Opening containing folder" in right-click menu for retrieved items
- Improved reporting of errors that occur when copying files in Edit > Copy File(s)
- dtindexer.exe: added /caf and /cat command-line option to cache text (/cat) or cache original files (/cad), when creating indexes using the command line, and /recog to recognize an index.
- Added Help > Check For Updates feature to automatically download new versions
The new release includes major enhancements to the dtSearch product line's display of MS Word, Excel and PowerPoint documents. The new release also includes enhancements for indexing and searching Outlook message stores. Finally, the new release includes an additional feature for forensics usage.
dtSearch 제품군 개요
- 24개 이상의 텍스트 검색 옵션
- 몇 기가바이트의 텍스트에서도 대부분의 색인 검색에 걸리는 시간이 수초 미만(비색인 검색도 이용 가능)
- 많이 사용하는 파일 유형인word processor, 데이터베이스, 이메일, 스프레드시트, ZIP, PDF, HTML, XML 등을 자동으로 인식
- 검색한 파일에서 검색 결과를 컬러로 표시(HTML과 PDF는 컬러로 표시한 검색 결과 및 삽입한 링크와 이미지를 포함)
- 내장된 spider, 유니코드 지원 등을 포함해 모든 현재 구매자에게 버전 7.0으로 무료 업그레이드
dtSearch의 독특한 색인 생성과 검색 알고리즘을 이용하면 데이터베이스가 방대하고 문서 유형이 매우 다양하더라도 빠른 색인 생성과 검색이 가능합니다. 이 알고리즘은 문서 세트의 크기와 상관없이 일정한 색인 생성 속도를 유지합니다. 색인 검색 시간은 일반적으로 몇 기가바이트의 텍스트에서도 수초 미만입니다. 또한 dtSearch 제품에서는 비색인 검색 옵션도 제공합니다.
dtSearch 제품군은 윈도우 플랫폼에서 시스템 자원을 효율적으로 사용하도록 개발되었습니다. dtSearch는 성능 또는 검색 능력의 저하 없이 한정된 시스템 자원만 사용하므로 메모리의 효율적인 사용이 중요한 멀티 프로세서 서버의 트래픽이 많은 웹사이트에서 휴대용 Windows CE 장치까지 다양한 범위의 환경에 이상적입니다. (또한 버전 7.0은 리눅스용 dtSearch Text Retrieval Engine을 포함합니다.)
dtSearch에는 지능형 검색을 위해 독특하게 조합하는 24개 이상의 텍스트 검색 옵션이 있습니다. dtSearch 제품군에는 *부울(and/or/not), *근접, *와일드카드, *세그먼트, *수치 범위, *음성과 같은 기본 검색 옵션 외에 다음과 같은 특별한 검색 능력이 있습니다.
퍼지 검색. dtSearch의 독특한 퍼지 검색에서는 철자가 틀려도 검색어를 찾아내는 독특한 알고리즘을 이용합니다. 검색 퍼지에서는 철자 오류 수준이나 파일의 OCR 오류를 0-10 범위로 조절합니다. 퍼지 수준을 1로 설정하고 "alphabet"을 검색하면 "alphaqet"을 찾습니다. 퍼지 수준을 3으로 설정하고 "alphabet"을 검색하면 "alphaqet" 및 "alpkaqet"을 찾습니다. 참고: 퍼지는 색인에 고정되지 않으므로 동일한 색인은 퍼지와 비퍼지 검색으로 처리할 수 있습니다. (비색인 검색에도 퍼지를 이용할 수 있음)
개념/동의어/시소러스 검색. dtSearch에서는 확장 수준(사용자 정의 동의어, 내장된 동의어, 내장된 동의어 + 관련 단어)이 가변적인 영어의 광범위한 의미 네트워크를 이용해 질의를 자동으로 확장할 수 있습니다.
관련성 랭킹 자연어 검색. 예제를 통한 질의로 알려진 자연어 검색에서는 검색을 요청한 모든 단어를 찾고 자동 단어 가중에 기초해 결과를 나열합니다. dtSearch의 관련성 랭킹에서는 "Vector Space" 방법을 이용해 조회 빈도, 색인에서 검색어의 관련 빈도, 검색한 문서의 조회 밀도를 고려합니다.
가변어 가중. dtSearch는 자연어 검색 요청에서 자동 관련성 랭킹을 제공하고 관련성 가중치를 지정할 수 있습니다. 관련성 가중치는 양수이거나 음수일 수 있습니다. 예를 들어, 사용자는 "green"이란 단어에 3의 양수 가중치를 "orange"란 단어에 5의 음수 가중치를 할당할 수 있습니다.
필드 검색. 필드 데이터를 MS Word, Excel, PowerPoint, HTML, PDF, XML과 같은 파일 형식으로 자동 인식하고 색인을 만들기 때문에 dtSearch는 이런 필드를 이름으로 구별해서 검색(전체 텍스트 검색에 접근)할 수 있습니다. 버전 7.0에서는 XML 문서의 내포 필드 기준 기반 검색을 지원합니다.
유니코드 지원. 버전 7.0에서는 중국어와 일본어를 위해 지원하는 문자 집합을 확장하면서 유럽 언어 문자 집합의 지원을 늘리는 유니코드 지원을 추가했습니다.
독특한 검색 알고리즘을 이용하므로 dtSearch에서만 여러 수준의 검색 복잡성을 중단 없이 처리할 수 있습니다. 예로, 단일 검색 요청은 부울, 근접, 퍼지, 동의어, 음성, 수치 범위 등의 요소를 포함할 수 있습니다.
dtSearch 제품군은 다양한 파일 유형의 색인 생성, 검색, "검색 결과" 컬러 표시가 가능한 내장된 파일 파서를 포함합니다. dtSearch 제품군에서 지원하는 파일 유형은word processor, 스프레드시트, 데이터베이스, RTF, PowerPoint, 이메일 메시지 저장함, ZIP, PDF, HTML, XML를 포함합니다. 또한 Office 2000 파일 및 다양한 레거시 파일 유형도 지원합니다.
dtSearch 제품군을 이용하면 삽입한 모든 링크와 이미지를 그대로 유지하면서 검색한 웹 페이지(HTML 또는 PDF)를 볼 수 있습니다. 또한 dtSearch 제품군에는 웹에서 HTML 형식이 아닌 문서를 "검색 결과" 컬러 표시를 포함한 HTML로 변환하는 "on-the-fly(실시간)" 웹 변환 기능이 있습니다.
또한 버전 7.0의 dtSearch 제품군은 원거리 웹 페이지를 검색하는 Web spider를 포함합니다. Spider는 특정한 수준으로 원거리 웹 페이지의 색인 생성과 검색이 가능합니다. 그 다음 dtSearch는 삽입한 모든 링크와 이미지를 유지하면서 "검색 결과"를 컬러로 표시해 검색한 웹 페이지를 보여줄 수 있습니다.