jtd格式文件转换解析
年后到现在的都在忙的项目中本人主要负责的模块就是文件解析这一部分,做的时候是各种踩坑各种闹心啊,好歹是终于结束了,现在把项目中各种文件的解析做个总结,以备后用,这次项目中主要解析的文档包括office文件、pdf、csv、rtf、txt、jtd以及eml、msg和pst格式的邮件,还有rar和zip压缩包的解压,其实还有一个mlf格式的文件,但是这个经过我的研究以及公司大佬的研究,暂时没法攻克难关,所以这种格式的文件就只能暂时先放弃了,其他的解析都是做出来了的,主要就是这些,后面我会一个一个的全部总结出来,关于文件的解析本人使用的是apache的Tika做的。
今天我们就先来看一下这个jtd文件的解析,可能有人不知道这个jtd文件是什么,我这里先做个解释:
jtd格式文件是由日本的文字处理软件一太郎生成的文件格式
可以理解成jtd格式文件就是我们平常用的word,只不要需要用一太郎软件才能编辑打开,给大家看一下这个一太郎软件长什么样子:
刚看到这个需求的时候很尴尬啊,这个怎么做,还是日本的软件,查资料也看不懂啊,在百度和stackoverflow上查也没查到,这时候多亏了公司一位能看的懂日语的大佬啊,这位大佬在一个日语的网站上找到了解决办法,网站地址是http://d.hatena.ne.jp/satorufujimori/20070227/1172549793
解决办法就是使用vbs脚本,将jtd格式文件转换为txt文件,然后再解析相应的txt获取到内容,网站上的脚本如下所示:
//taro2txt.vbs Set taro = CreateObject("JXW.Application") taro.Visible = True taro.Documents.Open "c:\taro\a.jtd" taro.ActiveDocument.SaveAs "c:\out\a.txt", "", "", "", 10, "ShiftJIS" //※1 taro.Quit
大家注意其中的10,这是个标识符,10表示将jtd格式文件转换成txt格式的文件,如果想要将jtd格式文件转换成其他格式的文件需要将10换成其他的标识符,但是比较尴尬的是我们并没有找到具体的文档说明到底哪个数字表示哪种文档,然后当时我从0试到100,乱七八糟的格式出来了一大堆,有用的只有这个10,也就是只能将jtd格式的文件转换成txt格式的文件,这样的话原本文件中的图片就都消失了,但是我们的业务是将文件内容读取出来,入solr做检索的,所以没有图片就没有图片了,后来也就采用了这种办法来解决问题。
通过上面脚本是可以转换不带密码的jtd文件为txt文件,但是贼尴尬的是我们的jtd格式的文件是带有密码的,这个就尴尬了,不过幸好最后也解决了,我忘了当时是怎么解决的,但是解决办法如下所示:
//taro2txt.vbs Set taro = CreateObject("JXW.Application") taro.Visible = True taro.Documents.Open "c:\taro\a.jtd",password//在此处加上密码 taro.ActiveDocument.SaveAs "c:\out\a.txt", "", "", "", 10, "ShiftJIS" //※1 taro.Quit
脚本完成后直接点击运行就可以将特定的jtd文件转换成txt文件,然后再去处理txt文件提取内容即可(txt格式文件内容提取后面会在另外的文章中说明)。
上面的问题解决了,但是还有问题,我总不能为所有的jtd文件都建一个脚本文件吧,况且客户那边有哪些文件我也不知道,所以就想着给vbs脚本传递参数,虽然不会vbs的语法,但是按照网上说的照猫画虎还是写出来了,具体的脚本内容如下所示:
Option Explicit Dim a0 : a0 = WScript.Arguments(0) Dim a1 : a1 = WScript.Arguments(1) Dim a2 : a2 = WScript.Arguments(2) Dim taro ExchangeFile a0, a1, a2 Sub ExchangeFile(src,dest,password) Set taro = CreateObject("JXW.Application") taro.Visible = True taro.Documents.Open src,password taro.ActiveDocument.SaveAs dest, "", "", "", 10, "" taro.Quit End Sub
其中a0表示的是jtd文件的路径,a1表示要生成的txt格式文件的路径,a2表示jtd文件的密码,其实就是传递参数调用函数的过程。
脚本完善以后就是使用java调用vbs脚本的问题,这个问题我在stackoverflow上找到了答案,调用方法如下所示:
public static void main(String[] args) { try { Runtime.getRuntime().exec( "wscript D:/Send_Mail_updated.vbs" ); } catch( IOException e ) { System.out.println(e); System.exit(0); } }
通过以上的一系列步骤就可以成功的将jtd文件转换成txt文件,但是这其中存在几个问题:
通过java程序调用vbs脚本并没有返回值表明txt文件是否真的生成了,如果密码是错的是无法生成对应的txt文件的,我的处理方法每隔一段时间去查看一下txt文件是否生成了,一定次数后就判断转换失败,次数是根据文件大小判断的,如10M的文件就每隔5秒检查一次,一共检查10次,如果没生成txt文件就判定失败,这样做在尝试密码的时候就十分浪费时间,并且还可能会出现文件比较大,或者机器配置不够好,本来能够生成txt文件的,但是检查时间过了直接判定为不能正确转换;
每次运行vbs脚本的时候都会打开一太郎软件,并且在尝试密码的时候,如果密码错误就会在部署应用的服务器上出现一个windows的错误弹窗,虽然最后一太郎的进程会被杀掉,但是在没有被杀掉之前客户是能明显看到一太郎程序和错误提示的,这个是很尴尬的事情;
如果jtd文件过大,比如文件达到30M的时候,脚本的转换速度就很慢很慢了,在问题2中也说到了在文件的转换过程中客户是能在服务器上看到一太郎程序的,如果客户在此期间直接把一太郎干掉了,那么文件的转换肯定是失败的;
以上的问题暂时还没有解决,后面还要看在客户那边部署以后的使用情况,如果客户那边的jtd格式文件都是10M以下的,那么应该是没有太大的问题的,但是如果文件超过了30M,转换的过程肯定会慢,并且随时面临着在转换过程中一太郎软件被干掉的风险,具体怎么样还需要看客户的试用情况了吧。
关于jtd格式的文件解析暂时就说到这里,至于jtd格式文件转换成txt格式文件后内容的提取我会在后面写的。
Atas ialah kandungan terperinci jtd格式文件转换解析. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Apabila memadam atau menyahmampat folder pada komputer anda, kadangkala kotak dialog segera "Ralat 0x80004005: Ralat Tidak Ditentukan" akan muncul Bagaimana anda harus menyelesaikan situasi ini? Sebenarnya terdapat banyak sebab mengapa kod ralat 0x80004005 digesa, tetapi kebanyakannya disebabkan oleh virus. Kami boleh mendaftarkan semula dll untuk menyelesaikan masalah tersebut . Sesetengah pengguna digesa dengan kod ralat 0X80004005 apabila menggunakan komputer mereka Ralat 0x80004005 disebabkan terutamanya oleh komputer tidak mendaftarkan fail perpustakaan pautan dinamik tertentu dengan betul, atau oleh tembok api yang tidak membenarkan sambungan HTTPS antara komputer dan Internet. Jadi bagaimana pula

Baru-baru ini, ramai netizen bertanya kepada editor, apakah itu fail hiberfil.sys? Bolehkah hiberfil.sys mengambil banyak ruang pemacu C dan dipadamkan? Editor boleh memberitahu anda bahawa fail hiberfil.sys boleh dipadamkan. Mari kita lihat butiran di bawah. hiberfil.sys ialah fail tersembunyi dalam sistem Windows dan juga fail hibernasi sistem. Ia biasanya disimpan dalam direktori akar pemacu C, dan saiznya bersamaan dengan saiz memori yang dipasang sistem. Fail ini digunakan apabila komputer sedang hibernasi dan mengandungi data memori sistem semasa supaya ia boleh dipulihkan dengan cepat kepada keadaan sebelumnya semasa pemulihan. Oleh kerana saiznya adalah sama dengan kapasiti memori, ia mungkin mengambil jumlah ruang cakera keras yang lebih besar. hiber

Petua praktikal untuk menukar huruf Inggeris lebar penuh kepada bentuk separuh lebar Dalam kehidupan moden, kita sering bersentuhan dengan huruf Inggeris, dan kita sering perlu memasukkan huruf Inggeris apabila menggunakan komputer, telefon bimbit dan peranti lain. Walau bagaimanapun, kadangkala kita menemui huruf Inggeris lebar penuh, dan kita perlu menggunakan bentuk separuh lebar. Jadi, bagaimana untuk menukar huruf Inggeris lebar penuh kepada bentuk separuh lebar? Berikut adalah beberapa petua praktikal untuk anda. Pertama sekali, huruf dan nombor Inggeris lebar penuh merujuk kepada aksara yang menduduki kedudukan lebar penuh dalam kaedah input, manakala huruf dan nombor Inggeris separuh lebar menduduki kedudukan lebar penuh.

Artikel ini akan memperkenalkan secara terperinci cara menukar bulan dalam PHP kepada bulan Inggeris, dan memberikan contoh kod khusus. Dalam pembangunan PHP, kadangkala kita perlu menukar bulan digital kepada bulan Inggeris, yang sangat praktikal dalam beberapa pemprosesan tarikh atau senario paparan data. Prinsip pelaksanaan, contoh kod khusus dan langkah berjaga-jaga akan diterangkan secara terperinci di bawah. 1. Prinsip pelaksanaan Dalam PHP, anda boleh menukar bulan digital kepada bulan Bahasa Inggeris dengan menggunakan kelas DateTime dan kaedah format. Tarikh

QQ Music membolehkan semua orang menikmati menonton filem dan menghilangkan kebosanan Anda boleh menggunakan perisian ini setiap hari untuk memenuhi keperluan anda dengan mudah Sebilangan besar lagu berkualiti tinggi tersedia untuk didengari oleh semua orang Lain kali anda mendengarnya, anda tidak memerlukan sambungan Internet Lagu yang dimuat turun di sini bukan dalam format MP3 dan tidak boleh digunakan pada platform lain Selepas lagu keahlian tamat, tiada cara untuk mendengarnya lagi , ramai rakan ingin menukar lagu ke dalam format MP3 Di sini editornya Anda sediakan kaedah supaya semua orang boleh menggunakannya! 1. Buka QQ Music pada komputer anda, klik butang [Menu Utama] di penjuru kanan sebelah atas, klik [Audio Transcoding], pilih pilihan [Tambah Lagu], dan tambah lagu yang perlu ditukar; lagu, klik untuk memilih Tukar kepada [mp3]

Tutorial PHP: Cara Menukar Jenis Int kepada Rentetan Dalam PHP, menukar data integer kepada rentetan adalah operasi biasa. Tutorial ini akan memperkenalkan cara menggunakan fungsi terbina dalam PHP untuk menukar jenis int kepada rentetan, sambil memberikan contoh kod khusus. Gunakan cast: Dalam PHP, anda boleh menggunakan cast untuk menukar data integer kepada rentetan. Kaedah ini sangat mudah Anda hanya perlu menambah (rentetan) sebelum data integer untuk menukarnya menjadi rentetan. Di bawah ialah kod contoh mudah

Cara menukar huruf Inggeris lebar penuh kepada huruf separuh lebar Dalam kehidupan harian dan kerja, kadangkala kita menghadapi situasi di mana kita perlu menukar huruf Inggeris lebar penuh kepada huruf separuh lebar, seperti semasa memasukkan kata laluan komputer, mengedit dokumen atau mereka bentuk susun atur. Huruf dan nombor Inggeris lebar penuh merujuk kepada aksara dengan lebar yang sama dengan aksara Cina, manakala huruf Inggeris separuh lebar merujuk kepada aksara dengan lebar yang lebih sempit. Dalam operasi sebenar, kita perlu menguasai beberapa kaedah mudah untuk menukar huruf Inggeris lebar penuh kepada huruf separuh lebar supaya kita boleh memproses teks dan nombor dengan lebih mudah. 1. Huruf Inggeris lebar penuh dan huruf Inggeris separuh lebar

[Analisis makna dan penggunaan titik tengah dalam PHP] Dalam PHP, titik tengah (.) ialah operator yang biasa digunakan untuk menyambung dua rentetan atau sifat atau kaedah objek. Dalam artikel ini, kami akan menyelami makna dan penggunaan titik tengah dalam PHP, menggambarkannya dengan contoh kod konkrit. 1. Operator titik tengah rentetan Concatenate Penggunaan yang paling biasa dalam PHP adalah untuk menggabungkan dua rentetan. Dengan meletakkan . antara dua rentetan, anda boleh menyambungkannya untuk membentuk rentetan baharu. $string1=&qu
