Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

problema no linker do LeXML Brasil para converter DOCX -> XML do texto inteiro da Constituição #34

Closed
pdelfino opened this issue Nov 12, 2017 · 3 comments

Comments

@pdelfino
Copy link
Collaborator

No commit ac13abe, eu tentei adicionar a constituição da república no nosso repositório. Fiz o seguinte:

1 - Abri no site do planalto, copiei o texto e fiz um arquivo docx;

2 - Adaptei o cabeçalho para o linker aceitar como "projeto de lei";

3 - Submeti no linker. Ele não processou o arquivo do docx com a constituição inteira, desconfiei que fosse por conta do tamanho do arquivo. A constituição é bem maior do que as leis que a gente já tem no repositório

4 - De modo a validar minha hipótese, criei um arquivo constituição-input-linker-sample, com uma amostra de poucos artigos. Aí funcionou.

Qual seria a melhor forma de resolver isso? Falar com o pessoal do LexML? Decompor a constituição em várias pequenas partes e ir submetendo no liker ao poucos para depois ajuntar tudo?

@odanoburu
Copy link
Collaborator

talvez interesse: lexml/lexml-parser-projeto-lei#2

@arademaker
Copy link
Contributor

@pdelfino certamente vamos precisar, depois de ler este ponteiro do @odanoburu, falar com o pessoal do LexML novamente.

@pdelfino
Copy link
Collaborator Author

@arademaker e @odanoburu , abri uma issue no LexML sobre isso.. Nessa issue eu citei uma novidade.

Eu fiz uma segunda tentativa, retirando a formatação do texto ao copiar o texto da constituição do site do planalto e colar no word. A conversão para xml parece ter sido bem sucedida. Mas falta checar. Deem uma olhada aqui.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants